URL2io — 提供简单、强大的网页正文提取服务

2016-09-30 11:28:28 +08:00
 URL2io

URL2io.com — 提供简单、强大的网页正文提取服务

今天给大家分享的是一个网页正文提取服务 URL2Article ,主页地址:http://www.url2io.com

URL2Article 服务提供 RESTful API 接口,用来提取并解析网页中的正文区域,实现网页正文提取、标题提取、发布日期提取、下一页链接提取等。

功能列表

不仅仅是简单地提取 title 标签,而是智能识别网页正文的标题。

提取的内容将不含有任何广告、导航和其他非正文内容。网页正文中的所有链接、图片和其他媒体将予以保留。

智能识别文章的发布日期。

智能识别当前网页的下一页链接。因为一篇完整的文章会被分成多个页面,所以这个功能会非常有用。

Demo

demo 地址:点这测试效果。

API 使用文档

可以查看相关文档 (URL2Article API doc) 来了解如何使用。

示例应用

为了让大家近一步了解这项服务,我们写了一个教学示例 Pageless, 它使用 URL2Article API 来提取网页正文,并自动将被分成多页的文章合并成一页。
演示地址, 代码在 Github: url2io-app-samples

Feedback

That's all. 希望有兴趣的童鞋可以试用一下,然后给点反馈(使用中出现的问题、会用来开发什么、意见和建议等都可以)。 欢迎留言讨论,或者 url2#sina.com ,或者 QQ 用户群: 341180183

23684 次点击
所在节点    分享创造
102 条回复
v9ox
2016-10-06 06:10:40 +08:00
试了 google 和 t66y 都不行 (还以为能顺手翻墙
URL2io
2016-10-06 15:43:02 +08:00
@v9ox 墙太高不好翻啊 (⇀‸↼‶)
HanSonJ
2016-10-07 13:51:26 +08:00
URL2io
2016-10-07 14:10:12 +08:00
@HanSonJ 其中有什么不妥的地方吗?
HanSonJ
2016-10-07 15:21:00 +08:00
@URL2io 没问题,只是我们对于样式的要求不一样罢了
URL2io
2016-10-07 17:00:43 +08:00
@HanSonJ 是有点…… -_- ,哈哈 偷懒了
Izual_Yang
2016-10-07 17:04:25 +08:00
@missdeer
有看小说用的油猴子脚本, My Novel Reader
olbb
2016-10-08 11:30:51 +08:00
可以提取分页内容吗
URL2io
2016-10-08 17:00:29 +08:00
@olbb 可以的,请求时带上 next 参数,在返回的数据中就会包含当前网页的下一页链接(如果有的话)。

* 具体文档可以看 http://www.url2io.com/docs
* 具体示例可以看 pageless ,它就利用了这个特性,实现持续地加载分页中的正文内容

其实帖子中都写了的…… -_-
typcn
2016-10-10 08:44:56 +08:00
比起 import 还是差不少。。 JS 翻页识别不到,列表页面第一项被识别成标题,图片 lazyload 识别不到
ljcarsenal
2016-10-10 09:46:13 +08:00
ARGUMENT DESCRIPTION
error type : "HTTPError"
message : "HTTP 599: socket write not completed (_ssl.c:562)"
url : "http://taobao.com"
code : "599"
tinyproxy
2016-10-10 12:15:10 +08:00
URL2io
2016-10-10 13:44:37 +08:00
@ljcarsenal 已经解决,感谢反馈!
URL2io
2016-10-10 14:03:16 +08:00
@tinyproxy 知乎专栏这种通过 ajax 加载内容的网页暂时还不支持,要渲染 js 的开销太大了。 虽然它的接口

https://zhuanlan.zhihu.com/api/posts/21454432

还是挺好找的,不过现在还没有找到一种高效、普适的方法,就没有处理这种情况。

PS :看完你推荐的这个网页,我内心涌起了想要为知乎日报做特殊处理的冲动 -_-
BOYPT
2016-10-10 14:43:36 +08:00
好东西,, mark 一下。
Yeoman
2016-10-10 16:52:07 +08:00
提取正文这种需求只有在爬小黄蚊的时候遇到过
Youen
2016-10-10 17:37:23 +08:00
可以去 1024 撸种子啊~~
URL2io
2016-10-10 21:45:13 +08:00
@typcn 和 import 没法比啊,它把采集相关的通通都做了 -_- 。而我们只是提供了一个功能,让大家可以集成到自己的软件系统中(或许也可以集成到 import 中)。两者的关系更像是框架与库的关系。

目前有关 js 动态渲染的东西都不支持,不过图片 lazyload 之后会支持的……

方便贴一下“列表页面第一项被识别成标题”的网址吗?目前在对正文提取做优化,十分需要这种提取效果不好的样本……
jeremaihloo
2016-10-11 00:07:21 +08:00
一直在用这个方法提取网页正文,感觉还不错

https://code.google.com/archive/p/cx-extractor/
URL2io
2016-10-11 12:46:12 +08:00
@jeremaihloo 恩,速度比较快、准确率也不错。 cx-extractor 使用基于不用解析 dom 解析的行分块 ,这是一大优点。不过因此也带来了一些限制。因为使用行分块,所以提取前要去除 html tag ,这样就只能提取出文字内容了,顶多保留 img 标签作为文字内容也提取出来。另一个就是要对其进行扩展比较难,因为提取其他信息如标题、日期、下一页链接这些还是需要 html tag 的信息的。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/309948

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX