OpenAI 是没钱买代理服务器吗?竟然来白嫖我的 GitHub/ArXiv 镜像服务器爬取数据用于训练 GPT

6 天前
 tfu

由于众所周知的原因,国内访问 Github 和 ArXiv 比较缓慢,于是乎我就搭建了一个镜像服务器用于加速访问,主要是自用为主,也没咋宣传,谁成想竟然被 OpenAI 发现了,通过我的镜像服务器去爬取 Github 和 Arxiv 上的数据,于是乎就疯狂收到 Cloudflare 发送的告警邮件,起初还不太在意,觉得只是临时几天访问量多了些,过几天应该就好了,可是没想到过了几个星期还是每天不停的收到告警邮件,我顿时感觉不对劲,赶紧登录 Cloudflare 后台看了一下访问记录,不看不知道,一看吓一跳,好家伙,全是 OpenAI ( CloseAI )的 GPTBot 访问的,合着把我的镜像服务器当成了免费的代理使用了...(虽然我也是白嫖 Cloudflare 的 Workers 服务搭建的镜像服务器/手动狗头)

Log 截图

2695 次点击
所在节点    程序员
21 条回复
beyondstars
2 天前
s/没用任何/没有任何

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1142029

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX