如何突破豆瓣爬虫限制频率?

2016-03-03 12:56:36 +08:00
 SummerSun

最近老师给了一个课题---豆瓣好友推荐。要做推荐,当然首先是要搜集豆瓣数据了。
于是,我收集了 3000 多个豆瓣用户首页的 url ,接着就是对这 3000 多个用户所看过电影相关信息的爬取了。
然后,问题出现了!
我用 python 写了程序,开了 4 个线程,对豆瓣电影信息进行异步爬取,一分钟可以 get230 多个页面,觉得效率还不错嘛。但是,没过多久,就 403forbidden 了!!!豆瓣把我 ip 禁了,不能爬虫了。
然后我在网络上搜索相关资料,发现豆瓣对访问频率做了限制,一分钟最多大概只能访问 40 次左右。
现在,我降低了爬取频率,正在龟速爬取中……
这是我第一次 python 网络爬虫,请问有没有什么方法可以突破豆瓣的爬虫限制,让我能够愉快的爬虫,谢谢各位前辈了。

27418 次点击
所在节点    Python
27 条回复
CrazySpiderMan
2016-03-04 00:43:47 +08:00
@dyingbleed 嘘, 别说话. 赞我.
kamen
2016-03-04 05:54:05 +08:00
到时候豆瓣崩了,你可是要负责任的(ー_ー;)
SummerSun
2016-03-04 09:43:32 +08:00
谢谢大家的指导,现在我已经突破频率了!用的是代理加浏览器伪装!
jin6220
2016-11-01 22:11:47 +08:00
@SummerSun 什么代理啊?高匿的?
bubu2bu
2017-02-16 13:18:56 +08:00
@SummerSun 楼主如何解决的 可否分享下核心代码 我也遇到 403 forbidden 多谢
mztkenan
2018-04-05 17:35:12 +08:00
豆瓣是如何辨认电脑的,通过 IP ??不太可能我这是校园网,莫不是把校园网出口封了??
QUIOA
2019-12-30 23:22:47 +08:00
@CrazySpiderMan 你的项目呢

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/260777

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX