URL2io — 提供简单、强大的网页正文提取服务

2016-09-30 11:28:28 +08:00
 URL2io

URL2io.com — 提供简单、强大的网页正文提取服务

今天给大家分享的是一个网页正文提取服务 URL2Article ,主页地址:http://www.url2io.com

URL2Article 服务提供 RESTful API 接口,用来提取并解析网页中的正文区域,实现网页正文提取、标题提取、发布日期提取、下一页链接提取等。

功能列表

不仅仅是简单地提取 title 标签,而是智能识别网页正文的标题。

提取的内容将不含有任何广告、导航和其他非正文内容。网页正文中的所有链接、图片和其他媒体将予以保留。

智能识别文章的发布日期。

智能识别当前网页的下一页链接。因为一篇完整的文章会被分成多个页面,所以这个功能会非常有用。

Demo

demo 地址:点这测试效果。

API 使用文档

可以查看相关文档 (URL2Article API doc) 来了解如何使用。

示例应用

为了让大家近一步了解这项服务,我们写了一个教学示例 Pageless, 它使用 URL2Article API 来提取网页正文,并自动将被分成多页的文章合并成一页。
演示地址, 代码在 Github: url2io-app-samples

Feedback

That's all. 希望有兴趣的童鞋可以试用一下,然后给点反馈(使用中出现的问题、会用来开发什么、意见和建议等都可以)。 欢迎留言讨论,或者 url2#sina.com ,或者 QQ 用户群: 341180183

23685 次点击
所在节点    分享创造
102 条回复
omg21
2017-06-10 13:36:52 +08:00
这个正文提取是什么思路?
URL2io
2019-10-09 14:33:01 +08:00

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/309948

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX