OpenAI 是没钱买代理服务器吗?竟然来白嫖我的 GitHub/ArXiv 镜像服务器爬取数据用于训练 GPT

6 天前
 tfu

由于众所周知的原因,国内访问 Github 和 ArXiv 比较缓慢,于是乎我就搭建了一个镜像服务器用于加速访问,主要是自用为主,也没咋宣传,谁成想竟然被 OpenAI 发现了,通过我的镜像服务器去爬取 Github 和 Arxiv 上的数据,于是乎就疯狂收到 Cloudflare 发送的告警邮件,起初还不太在意,觉得只是临时几天访问量多了些,过几天应该就好了,可是没想到过了几个星期还是每天不停的收到告警邮件,我顿时感觉不对劲,赶紧登录 Cloudflare 后台看了一下访问记录,不看不知道,一看吓一跳,好家伙,全是 OpenAI ( CloseAI )的 GPTBot 访问的,合着把我的镜像服务器当成了免费的代理使用了...(虽然我也是白嫖 Cloudflare 的 Workers 服务搭建的镜像服务器/手动狗头)

Log 截图

2699 次点击
所在节点    程序员
21 条回复
tyzandhr
6 天前
加个 robots.txt?
skiy
6 天前
@tyzandhr 好像这种爬虫无视 robots 规则的。之前看到过文章。
totoro52
6 天前
@tyzandhr 爬虫可不在乎 robots 的
moefishtang
6 天前
这样的爬虫需要好好教训一下了😡
BAN 掉 OpenAI 的 UA 好啦
iisboy
6 天前
@totoro52 #3
那这种乱爬违法不?
404www
6 天前
镜像代码能发一下吗
yafoo
6 天前
不止 openai 吧,现在是各种 ai 都来爬
aloxaf
5 天前
它不关心是不是代理,是个网站就会爬
since2021
5 天前
还是挺乖的,写了自己是 bot
我一般把带 bot, spider 这类似的都拒绝了
noyidoit
5 天前
@iisboy 同样是被爬,对比美团和博客园的案例,可以得出结论:强者爬弱者“不违法”,弱者爬强者违法
ljl024
5 天前
可是两个图里面给 url 打码,host 都不打码。是要转型做公益代理了吗?
totoro52
5 天前
@iisboy 国内违法(数据脱敏的话很难定性),国外不知道
xpy123993
5 天前
这个网段有毒,有好几个 ip 会无视 robots.txt 不停地爬虫。我 5MB 的 cgit 每天被爬 1GB 的流量,后来直接把这个网段禁了。
xiyuesaves
5 天前
能不能通过识别 ua 来给他的语料里投毒?
zhlxsh
5 天前
@xiyuesaves 快进到买一堆 vps 给 openai 下毒打广告
ragnaroks
5 天前
我靠,刚发帖子就看到你这个了,我最近也是被 chatgpt 爬了,不过我是 docker hub 镜像代理,全部服务器加起来差不多被爬了 9 TiB 流量
tfu
4 天前
tfu
4 天前
@ljl024 卧槽,没注意到图片里面还有个 host ,感谢提醒,今晚下班回家后就赶紧改掉
404www
4 天前
@tfu #17 谢谢
beyondstars
2 天前
怎么证实的确是来自 openai 的,user-agent 没用任何认证机制(任何 client 可以 claim 自己是任何 user-agent 不受约束),只能查到这个 ip 地址由 microsoft 宣告,也可能是 azure 上运行的爬虫实例,但未必是微软官方的。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1142029

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX