URL2io — 提供简单、强大的网页正文提取服务

URL2io.com — 提供简单、强大的网页正文提取服务

今天给大家分享的是一个网页正文提取服务 URL2Article ，主页地址：http://www.url2io.com

URL2Article 服务提供 RESTful API 接口，用来提取并解析网页中的正文区域，实现网页正文提取、标题提取、发布日期提取、下一页链接提取等。

功能列表

标题识别：

不仅仅是简单地提取 title 标签，而是智能识别网页正文的标题。

正文识别：

提取的内容将不含有任何广告、导航和其他非正文内容。网页正文中的所有链接、图片和其他媒体将予以保留。

发布日期识别：

智能识别文章的发布日期。

智能识别当前网页的下一页链接。因为一篇完整的文章会被分成多个页面，所以这个功能会非常有用。

Demo

demo 地址：点这测试效果。

API 使用文档

可以查看相关文档 (URL2Article API doc) 来了解如何使用。

示例应用

为了让大家近一步了解这项服务，我们写了一个教学示例 Pageless，它使用 URL2Article API 来提取网页正文，并自动将被分成多页的文章合并成一页。
演示地址, 代码在 Github: url2io-app-samples

Feedback

That's all. 希望有兴趣的童鞋可以试用一下，然后给点反馈（使用中出现的问题、会用来开发什么、意见和建议等都可以）。欢迎留言讨论，或者 url2#sina.com ，或者 QQ 用户群： 341180183

URL2io

2016-10-10 21:45:13 +08:00

@typcn 和 import 没法比啊，它把采集相关的通通都做了 -_- 。而我们只是提供了一个功能，让大家可以集成到自己的软件系统中（或许也可以集成到 import 中）。两者的关系更像是框架与库的关系。

目前有关 js 动态渲染的东西都不支持，不过图片 lazyload 之后会支持的……

方便贴一下“列表页面第一项被识别成标题”的网址吗？目前在对正文提取做优化，十分需要这种提取效果不好的样本……

URL2io

2016-10-11 12:46:12 +08:00

@jeremaihloo 恩，速度比较快、准确率也不错。 cx-extractor 使用基于不用解析 dom 解析的行分块，这是一大优点。不过因此也带来了一些限制。因为使用行分块，所以提取前要去除 html tag ，这样就只能提取出文字内容了，顶多保留 img 标签作为文字内容也提取出来。另一个就是要对其进行扩展比较难，因为提取其他信息如标题、日期、下一页链接这些还是需要 html tag 的信息的。