想写个爬虫程序,用什么技术好,谁能帮我呢

2016-02-22 01:22:17 +08:00
 kelos
如题,各种我要用的网站总想爬点东西下来,方便看。

请指教。
7850 次点击
所在节点    问与答
46 条回复
wanliqun
2016-02-23 08:12:13 +08:00
@sohoer 给个验证码体验一下?
slideclick
2016-02-23 10:55:05 +08:00
@microchang Phatomjs
microchang
2016-02-23 13:51:53 +08:00
@slideclick 这个我也玩过,不过他说的是 node 。毕竟客户端和服务端的运行环境还是不同的。
thursday
2016-02-23 14:17:51 +08:00
@microchang 我的意思是部分复杂代码可以匹配出来运行,直接拿到 js 里面的数据。并不是运行全部 js 。哪个是 Phatomjs
microchang
2016-02-23 15:24:54 +08:00
@thursday 感觉有点悬,虽然都是 js 虽然都是 v8 ,可能也只有部分纯逻辑不涉及到网络交互的代码可以直接运行。但是这部分代码如何筛选出来还是得人工干预,算下来得不偿失。
slideclick
2016-02-23 17:49:25 +08:00
@microchang 我和你一样,比较怀疑在服务器端可以解析抓下来的 js 的可能性。有人真搞过么?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/258101

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX