URL2io — 提供简单、强大的网页正文提取服务

2016-09-30 11:28:28 +08:00
 URL2io

URL2io.com — 提供简单、强大的网页正文提取服务

今天给大家分享的是一个网页正文提取服务 URL2Article ,主页地址:http://www.url2io.com

URL2Article 服务提供 RESTful API 接口,用来提取并解析网页中的正文区域,实现网页正文提取、标题提取、发布日期提取、下一页链接提取等。

功能列表

不仅仅是简单地提取 title 标签,而是智能识别网页正文的标题。

提取的内容将不含有任何广告、导航和其他非正文内容。网页正文中的所有链接、图片和其他媒体将予以保留。

智能识别文章的发布日期。

智能识别当前网页的下一页链接。因为一篇完整的文章会被分成多个页面,所以这个功能会非常有用。

Demo

demo 地址:点这测试效果。

API 使用文档

可以查看相关文档 (URL2Article API doc) 来了解如何使用。

示例应用

为了让大家近一步了解这项服务,我们写了一个教学示例 Pageless, 它使用 URL2Article API 来提取网页正文,并自动将被分成多页的文章合并成一页。
演示地址, 代码在 Github: url2io-app-samples

Feedback

That's all. 希望有兴趣的童鞋可以试用一下,然后给点反馈(使用中出现的问题、会用来开发什么、意见和建议等都可以)。 欢迎留言讨论,或者 url2#sina.com ,或者 QQ 用户群: 341180183

23684 次点击
所在节点    分享创造
102 条回复
URL2io
2016-10-11 12:55:00 +08:00
@Yeoman (¯﹃¯)
URL2io
2016-10-11 12:56:08 +08:00
@Youen 撸种子?? How ??
nicoljiang
2016-10-13 11:37:03 +08:00
URL2io
2016-10-13 11:48:09 +08:00
@nicoljiang 可以的啊, blog 是托管在 github 上的,这两天习惯性抽风,要多刷几次 -_-
ghosrt
2016-10-27 15:52:27 +08:00
随手试了一下 cnBeta 的一个新闻地址,最后的文字广告连接也被识别为正文了……:)
URL2io
2016-10-30 01:40:29 +08:00
@ghosrt 不做语义分析,要去除文字广告太难了... 如果实现了那可以开个 URL2block 服务了,哈哈
ldehai
2016-10-30 19:29:55 +08:00
soulmine
2016-10-31 11:05:18 +08:00
@URL2io 有几个问题 1.图片都是网络链接 一旦遇上外链失效的图片 那就是无效 2.爬论坛或者贴吧这种 需要的回复之类的文字和图片 而不是仿格式的页面 json 里面还是一堆的 html 标签 这个和没使用有区别么 2333
不过用来抓下一页 时间和标题还是很方便的 希望有答复
URL2io
2016-10-31 15:59:30 +08:00
@soulmine 感谢使用!

1. 验证外链是否失效不会出现在正文提取阶段,所以对于外链失效就要自己想办法了,毕竟还有 src 在。
2. 这次发布是 URL2Article ,顾名思义适用范围是新闻,博客等有 article 概念的页面。从返回的字段也可以看出是一篇文章或新闻等的相关信息。如果是一个适用于提取论坛或贴吧的服务,那它返回的字段肯定完全不同,比如每条回复的作者、回复时间、回复内容、第几楼、甚至回复的是哪条回复都要提取为相应的字段。当然之后可能会开发适用于论坛类页面的服务。^_^
3. 关于一堆 html 标签的问题,还是适用范围的问题。 article 类的页面它的布局相对来说是比较稳定的,所以通过一个设计良好的 CSS 可能达到比原页面还好的显示效果,可以看看示例应用 Pageless 的效果。论坛类的布局就太和 7 和 7 混乱了,而且严重依赖原站的 CSS 设计,所以如果不能提取出第 2 条所说的那些字段,要想得到不是仿格式的页面恐怕有点难了。
4. URL2Article 也提供了输出纯文字内容的选项,只不过图片作为 html 标签也会去除。

可能我在帖子的开头没有很清楚地说明适用范围。不过从用户的反馈来看提取论坛类页面的需求也很大啊?
URL2io
2016-11-06 21:41:38 +08:00
@ ldehai 不知道该说什么好……
soulmine
2016-11-09 23:12:53 +08:00
@URL2io 嗯 那是我错误理解了提供的服务了 用来提取新闻这方面确实很赞
zlong
2016-11-19 10:58:18 +08:00
就是不知道这工具有什么用处
URL2io
2016-11-20 20:24:13 +08:00
@zlong 可以看一下使用这个工具开发的一个示例应用 Pageless 来感受下
dreamcog
2017-03-07 17:57:58 +08:00
@URL2io 打算使用,是否收费?能否保证稳定性?唯一的担心是稳定性。所以觉得这种付费付费的可能比较敢用。
URL2io
2017-03-10 19:52:21 +08:00
@dreamcog 目前不收费的哈,会一直做下去的 ,请放心使用。^_^
dreamcog
2017-04-02 02:34:35 +08:00
@URL2io 有微信吗?能加一个不?另外知乎无法提取
URL2io
2017-04-02 23:35:15 +08:00
@dreamcog 加 QQ 群吧 341180183 小窗聊
qsnow6
2017-04-24 19:56:17 +08:00
可以直接给爬虫用么?担心会不会爬挂了
URL2io
2017-04-25 08:55:15 +08:00
@qsnow6 可以,但别用大并发^_^
cnfuyu
2017-05-08 16:27:45 +08:00
只有 API 吗?现在本地有一个 G 的数据需要提取正文,也只能用 API 的方式吗😭

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/309948

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX