由于众所周知的原因,国内访问 Github 和 ArXiv 比较缓慢,于是乎我就搭建了一个镜像服务器用于加速访问,主要是自用为主,也没咋宣传,谁成想竟然被 OpenAI 发现了,通过我的镜像服务器去爬取 Github 和 Arxiv 上的数据,于是乎就疯狂收到 Cloudflare 发送的告警邮件,起初还不太在意,觉得只是临时几天访问量多了些,过几天应该就好了,可是没想到过了几个星期还是每天不停的收到告警邮件,我顿时感觉不对劲,赶紧登录 Cloudflare 后台看了一下访问记录,不看不知道,一看吓一跳,好家伙,全是 OpenAI ( CloseAI )的 GPTBot 访问的,合着把我的镜像服务器当成了免费的代理使用了...(虽然我也是白嫖 Cloudflare 的 Workers 服务搭建的镜像服务器/手动狗头)
Log 截图
![]() |
1
tyzandhr 6 天前
加个 robots.txt?
|
4
moefishtang 6 天前
这样的爬虫需要好好教训一下了😡
BAN 掉 OpenAI 的 UA 好啦 |
6
404www 5 天前
镜像代码能发一下吗
|
![]() |
7
yafoo 5 天前 via Android
不止 openai 吧,现在是各种 ai 都来爬
|
8
aloxaf 5 天前
它不关心是不是代理,是个网站就会爬
|
![]() |
9
since2021 5 天前
还是挺乖的,写了自己是 bot
我一般把带 bot, spider 这类似的都拒绝了 |
![]() |
11
ljl024 5 天前
可是两个图里面给 url 打码,host 都不打码。是要转型做公益代理了吗?
|
13
xpy123993 5 天前
这个网段有毒,有好几个 ip 会无视 robots.txt 不停地爬虫。我 5MB 的 cgit 每天被爬 1GB 的流量,后来直接把这个网段禁了。
|
![]() |
14
xiyuesaves 5 天前
能不能通过识别 ua 来给他的语料里投毒?
|
15
zhlxsh 5 天前 via iPhone
@xiyuesaves 快进到买一堆 vps 给 openai 下毒打广告
|
![]() |
16
ragnaroks 4 天前
我靠,刚发帖子就看到你这个了,我最近也是被 chatgpt 爬了,不过我是 docker hub 镜像代理,全部服务器加起来差不多被爬了 9 TiB 流量
|
17
tfu OP |
![]() |
20
beyondstars 2 天前
怎么证实的确是来自 openai 的,user-agent 没用任何认证机制(任何 client 可以 claim 自己是任何 user-agent 不受约束),只能查到这个 ip 地址由 microsoft 宣告,也可能是 azure 上运行的爬虫实例,但未必是微软官方的。
|
![]() |
21
beyondstars 2 天前
s/没用任何/没有任何
|