URL2io — 提供简单、强大的网页正文提取服务

URL2io.com — 提供简单、强大的网页正文提取服务

今天给大家分享的是一个网页正文提取服务 URL2Article ，主页地址：http://www.url2io.com

URL2Article 服务提供 RESTful API 接口，用来提取并解析网页中的正文区域，实现网页正文提取、标题提取、发布日期提取、下一页链接提取等。

功能列表

标题识别：

不仅仅是简单地提取 title 标签，而是智能识别网页正文的标题。

正文识别：

提取的内容将不含有任何广告、导航和其他非正文内容。网页正文中的所有链接、图片和其他媒体将予以保留。

发布日期识别：

智能识别文章的发布日期。

智能识别当前网页的下一页链接。因为一篇完整的文章会被分成多个页面，所以这个功能会非常有用。

Demo

demo 地址：点这测试效果。

API 使用文档

可以查看相关文档 (URL2Article API doc) 来了解如何使用。

示例应用

为了让大家近一步了解这项服务，我们写了一个教学示例 Pageless，它使用 URL2Article API 来提取网页正文，并自动将被分成多页的文章合并成一页。
演示地址, 代码在 Github: url2io-app-samples

Feedback

That's all. 希望有兴趣的童鞋可以试用一下，然后给点反馈（使用中出现的问题、会用来开发什么、意见和建议等都可以）。欢迎留言讨论，或者 url2#sina.com ，或者 QQ 用户群： 341180183

URL2io

2016-10-31 15:59:30 +08:00

@soulmine 感谢使用！

1. 验证外链是否失效不会出现在正文提取阶段，所以对于外链失效就要自己想办法了，毕竟还有 src 在。
2. 这次发布是 URL2Article ，顾名思义适用范围是新闻，博客等有 article 概念的页面。从返回的字段也可以看出是一篇文章或新闻等的相关信息。如果是一个适用于提取论坛或贴吧的服务，那它返回的字段肯定完全不同，比如每条回复的作者、回复时间、回复内容、第几楼、甚至回复的是哪条回复都要提取为相应的字段。当然之后可能会开发适用于论坛类页面的服务。^_^
3. 关于一堆 html 标签的问题，还是适用范围的问题。 article 类的页面它的布局相对来说是比较稳定的，所以通过一个设计良好的 CSS 可能达到比原页面还好的显示效果，可以看看示例应用 Pageless 的效果。论坛类的布局就太和 7 和 7 混乱了，而且严重依赖原站的 CSS 设计，所以如果不能提取出第 2 条所说的那些字段，要想得到不是仿格式的页面恐怕有点难了。
4. URL2Article 也提供了输出纯文字内容的选项，只不过图片作为 html 标签也会去除。

可能我在帖子的开头没有很清楚地说明适用范围。不过从用户的反馈来看提取论坛类页面的需求也很大啊？