V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
tfu
V2EX  ›  程序员

OpenAI 是没钱买代理服务器吗?竟然来白嫖我的 GitHub/ArXiv 镜像服务器爬取数据用于训练 GPT

  •  
  •   tfu · 6 天前 · 2687 次点击

    由于众所周知的原因,国内访问 Github 和 ArXiv 比较缓慢,于是乎我就搭建了一个镜像服务器用于加速访问,主要是自用为主,也没咋宣传,谁成想竟然被 OpenAI 发现了,通过我的镜像服务器去爬取 Github 和 Arxiv 上的数据,于是乎就疯狂收到 Cloudflare 发送的告警邮件,起初还不太在意,觉得只是临时几天访问量多了些,过几天应该就好了,可是没想到过了几个星期还是每天不停的收到告警邮件,我顿时感觉不对劲,赶紧登录 Cloudflare 后台看了一下访问记录,不看不知道,一看吓一跳,好家伙,全是 OpenAI ( CloseAI )的 GPTBot 访问的,合着把我的镜像服务器当成了免费的代理使用了...(虽然我也是白嫖 Cloudflare 的 Workers 服务搭建的镜像服务器/手动狗头)

    Log 截图

    21 条回复    2025-07-04 12:52:17 +08:00
    tyzandhr
        1
    tyzandhr  
       6 天前
    加个 robots.txt?
    skiy
        2
    skiy  
       6 天前
    @tyzandhr 好像这种爬虫无视 robots 规则的。之前看到过文章。
    totoro52
        3
    totoro52  
       6 天前
    @tyzandhr 爬虫可不在乎 robots 的
    moefishtang
        4
    moefishtang  
       6 天前
    这样的爬虫需要好好教训一下了😡
    BAN 掉 OpenAI 的 UA 好啦
    iisboy
        5
    iisboy  
       5 天前
    @totoro52 #3
    那这种乱爬违法不?
    404www
        6
    404www  
       5 天前
    镜像代码能发一下吗
    yafoo
        7
    yafoo  
       5 天前 via Android
    不止 openai 吧,现在是各种 ai 都来爬
    aloxaf
        8
    aloxaf  
       5 天前
    它不关心是不是代理,是个网站就会爬
    since2021
        9
    since2021  
       5 天前
    还是挺乖的,写了自己是 bot
    我一般把带 bot, spider 这类似的都拒绝了
    noyidoit
        10
    noyidoit  
       5 天前   ❤️ 2
    @iisboy 同样是被爬,对比美团和博客园的案例,可以得出结论:强者爬弱者“不违法”,弱者爬强者违法
    ljl024
        11
    ljl024  
       5 天前
    可是两个图里面给 url 打码,host 都不打码。是要转型做公益代理了吗?
    totoro52
        12
    totoro52  
       5 天前
    @iisboy 国内违法(数据脱敏的话很难定性),国外不知道
    xpy123993
        13
    xpy123993  
       5 天前
    这个网段有毒,有好几个 ip 会无视 robots.txt 不停地爬虫。我 5MB 的 cgit 每天被爬 1GB 的流量,后来直接把这个网段禁了。
    xiyuesaves
        14
    xiyuesaves  
       5 天前
    能不能通过识别 ua 来给他的语料里投毒?
    zhlxsh
        15
    zhlxsh  
       5 天前 via iPhone
    @xiyuesaves 快进到买一堆 vps 给 openai 下毒打广告
    ragnaroks
        16
    ragnaroks  
       4 天前
    我靠,刚发帖子就看到你这个了,我最近也是被 chatgpt 爬了,不过我是 docker hub 镜像代理,全部服务器加起来差不多被爬了 9 TiB 流量
    tfu
        18
    tfu  
    OP
       4 天前
    @ljl024 卧槽,没注意到图片里面还有个 host ,感谢提醒,今晚下班回家后就赶紧改掉
    404www
        19
    404www  
       4 天前
    @tfu #17 谢谢
    beyondstars
        20
    beyondstars  
       2 天前
    怎么证实的确是来自 openai 的,user-agent 没用任何认证机制(任何 client 可以 claim 自己是任何 user-agent 不受约束),只能查到这个 ip 地址由 microsoft 宣告,也可能是 azure 上运行的爬虫实例,但未必是微软官方的。
    beyondstars
        21
    beyondstars  
       2 天前
    s/没用任何/没有任何
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2682 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 13:35 · PVG 21:35 · LAX 06:35 · JFK 09:35
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.