从几天前就有爬虫一直在爬网站的目录文件,一开始并没有在意,因为有的本来就是禁止直接访问的。
我还以为是谁在刷 pcdn 下载流量呢,但是封了几个 ip 之后,发现不对劲,就算 ip 给拉黑了,后面还有不断的新 ip 来,同个 ip 段的,之前的 ip 也在继续,看了日志,伪装成各种 ua 在爬,几百万的请求了。
比如一开始是 58.220.40.49 来,后面 58.220.40.50 ,反正后面随机,都是 58.220 段。
我记录的都有 300 多个 ip 了,后面懒得记录了,直接把请求不对的 ip 全自动拉黑了。
主要都是江苏扬州、山东烟台的电信 ip:
43.254 这个用美团查是北京的
49.71
49.86
58.220
117.91
114.230
121.233
123.169
140.75
180.103
180.119
182.34
218.91
221.229
我觉得很神奇啊,能搞到这么多连贯的 ip 。 机房也不至于吧,我查了部分 ip ,显示是家庭宽带,当然也有数据中心机房的,可能查询不准。
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.