新的不道德爬虫

143 天前
 break
最近大家有遇到新的类似爬虫的,但是不标记自己是爬虫的爬虫吗。。。有点绕口

IP 定位都是阿里云新加坡区域的,类似 47.79.*.*、47.82.*.* ,爬取 IP 数很多,都是同一地区的

我想着这个普通程序员搞个爬虫,也没必要用这么多 IP ,用代理工具应该也不会集中在一个 ip 网段吧。
这大概率会是哪家公司在爬数据吧,但是又不标明自己是谁,还要伪装成脚本小子一样的感觉
2375 次点击
所在节点    分享发现
6 条回复
set
143 天前
抱歉对这个话题不了解, 没搜索过类似答案,只是看到这个问题单纯沟通:
这方面有规范或者成熟的实践吗? 是不是各家数据公司/个人都用浏览器 UA 来抓取数据吧, 很多网站(更多国内)禁止特定爬虫抓取,而对个人 UA 完全不限制。
pikko
143 天前
用阿里微服务(云函数),他们会随机 ip 访问外网
hefish
143 天前
非常同意 op 观点,公安局也不管管,这世道怎么能容许这样的爬虫存在的。
xshwy
143 天前
我服务器也遇到过这种爬虫 IP ,4 核 8G 12M 的配置给我直接打满了…
DT27
143 天前
建议 IP 段直接屏蔽掉。
freeup
143 天前
也可能是训练大模型的数据爬虫

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1117807

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX