吐槽爬虫(来自火山引擎 IP)伪装 UserAgent

14 天前
 netnr
IP Count
180.184.145.7 11353
180.184.147.195 5781
106.92.145.252 234

China Beijing
Beijing Volcano Engine Technology Co. Ltd.

前三名的 IP 请求统计,前面两个都是火山引擎的 IP ,不清楚这个是火山引擎自己的爬虫还是卖给用户的云服务器,UserAgent 不带 Bot 而是伪装正常的用户访问,非常鄙视这种行为,网站本身对爬虫无限制,但是将爬虫进行了分类,方便统计有效的用户数据,而这种行为有被恶心到。

2146 次点击
所在节点    全球工单系统
12 条回复
nomagick
14 天前
什么叫伪装

用 LLM 操纵浏览器访问你的网站,UA 是浏览器,算 bot 还是算正常用户
用程序操纵浏览器访问你的网站,UA 是浏览器,算 bot 还是算正常用户
用浏览器插件访问你的网站,UA 是浏览器,算 bot 还是算正常用户
用户用 Curl 访问你的网站,UA 是 Curl ,算 bot 还是算正常用户

世界是在不断发展的,现实和你的假设不一致,你吐槽现实说真恶心,有意义么
netnr
14 天前
附一张同一时段的爬虫统计 @nomagick

abcopp
14 天前
这个是什么统计
netnr
14 天前
UserAgent 识别使用的是 https://github.com/matomo-org/device-detector 数据

从日志记录看 还特意改了版本号

H97794
14 天前
@nomagick 的确应该与时俱进...







netnr
14 天前
@abcopp ,这是自己站点开发的,UserAgent 识别 + 纯真 IP 解析 + DuckDB + ECharts
Seanfuck
13 天前
火山有搜索 api 业务的
ClericPy
13 天前
借路问一句

现在大模型调用浏览器访问网页,遵循 robots 吗
nomagick
13 天前
@netnr 现在无头浏览器,SSL 指纹伪装都是基操,还有大量基于 Chrome 或者 Electron 的各类应用和浏览器, 早就没办法只通过 UA 就精准分类用户了。
jimages123
13 天前
现在的基操,都是访问直接先做一段计算工作,要求使用 js 进行计算出结果才能继续访问了
netnr
13 天前
@nomagick @jimages123 正规军还是遵循的,至少不会像现在这样故意伪装随机版本号
abcopp
13 天前
直接限流吧,根据 ip 。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1146245

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX