这种爬虫是不是无解?

2017-05-06 10:07:09 +08:00
 woshinide300yuan

http://wx1.sinaimg.cn/large/7e8b4ac8ly1ffbewcp4wrj20wl0d50y1.jpg

问题来了,这么写 if ($http_user_agent ~ "Mozilla/5.0" ) { return 403;
}

是不是所有 Mozilla/5.0 都进不来了。

不会不懂了,请 dalao 明示,嘿嘿,谢谢,周末愉快~

11819 次点击
所在节点    NGINX
62 条回复
yatesun
2017-05-17 01:36:10 +08:00
我是这么做的
1.按规则过滤,比如超 5000 次封一段时间,还超就封一天,跳验证码
2.验证码的页面带 sleep,每次等够 5s 才响应
3.在验证码页面还强刷的,有一定几率跳到各大镜像网站的 iso 包,让他去下载

这么做下来,数量级少了,但是他还说坚持不懈,我也没办法了。
vtwoextb
2017-09-13 16:18:45 +08:00
如果不停的换 ip 是没有方法防的 , 我的抓取就是用的动态 更换 ip,动态更换 IP 策略 DEMO https://github.com/hizdm/dynamic_ip

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/359511

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX