假如我扒光了 XXX 网站的内容……会怎么样?

2024-09-28 10:37:36 +08:00
 craftx
文中的 XXX ,可以替换为任何一家网站。

首先假设:
1. XXX 是由一家中国大陆地区的商业公司建设和运营。——注意这里有两个重点,运营方是追求利润的公司,而且是中国大陆地区的公司(比如世纪佳缘那种)
2. 根据 XXX 的服务条款,XXX 用户发表的内容的版权均归 XXX 所有
3. XXX 有 robots.txt ,禁止爬虫
4. XXX 有反爬虫机制,比如限制单个 IP 的访问频率、验证码、滑块

然后假设,我扒光 XXX 的手段包括且不限于:
1. 伪造浏览器标识,或者直接使用无窗口浏览器模拟人类真实操作
2. 变换 IP 地址
3. 通过技术手段模拟人类真实操作去突破验证码、滑块等反爬虫机制

最后假设,我拿到 XXX 的全部内容后,用于下面的目的:
1. 训练深度学习语言模型,模型可能开源或闭源,训练目的可能是技术研究或者商业应用
2. 语言模型推理的外挂知识库,XXX 的内容可能直接原文插入到知识库,也可能经过清洗、分割、增强、重新合成后插入到知识库。——注意这里两个使用方式是有区别的,一个用原文,一个非原文

那么,会怎么样?
3770 次点击
所在节点    问与答
16 条回复
wclebb
2024-09-28 10:40:50 +08:00
参考纽约时报告 OpenAI 。
blackeeper
2024-09-28 11:03:06 +08:00
放心吧,只要你用于商业行为,严重影响到他,可以抓到你的。
XXX 的内容是有指纹标记的,不管你怎么清洗处理,总会有漏网之鱼。
找到一处标记,就可以锁定了
opengps
2024-09-28 11:03:40 +08:00
凡是擦边的,无论做不做,都不要拿出来公开说
opengps
2024-09-28 11:05:05 +08:00
你拿出来说无非是想分摊风险,但既然你要做这事了,风险都应当是你自己去承担,别人参与讨论也不是在帮你找越线边界
Greendays
2024-09-28 11:09:11 +08:00
首先这个网站得发现你的违法行为。
GG668v26Fd55CP5W
2024-09-28 11:18:15 +08:00
现在的各种大模型就是最大的爬虫,网站早就被扒了不知多少次了。
coderluan
2024-09-28 11:20:49 +08:00
那么你就是把来源删了的 new bing.
darkengine
2024-09-28 11:26:41 +08:00
2. 根据 XXX 的服务条款,XXX 用户发表的内容的版权均归 XXX 所有
3. XXX 有 robots.txt ,禁止爬虫
------

有了这两条,就看 xxx 公司能不能发现你爬数据,以及想不想搞你了。
esee
2024-09-28 13:03:23 +08:00
🌚大部分公司并不是只靠这个软件信息系统挣钱,真正支撑起来的是后面的业务团队,这个业务团队利用这些信息才能挣到钱,少了一方都没啥用。大部分程序员都会有一种错觉,把对方的功能或者网站或者资料复制一份过来,也能复刻出一个一样的挣钱模式
summerwar
2024-09-28 13:13:38 +08:00
我不觉得国内哪个网站的资料值得,当然,你获得了一堆资料,但是宣传的时候如果用了这家网站的资料作为噱头,而他们查完发现你并不在付费用户之中,那么你就有了一次难得的机会,去解释获取资料的合理途径。
NoOneNoBody
2024-09-28 13:15:51 +08:00
最近一个月扒了十几个站,正在等律师信,透过 tor 搭桥扒的
googlefans
2024-09-28 14:25:14 +08:00
可以随时告你
zerovoid
2024-09-28 20:17:34 +08:00
不会怎么样,这家公司只会把自己的技术风控部门给开除了
jackOff
2024-09-28 21:04:20 +08:00
哪怕你爬了了诈骗网站内容警察也可以抓你,除非你有所谓的重大立功。否则你的行为就是爬虫犯罪
wnpllrzodiac
2024-09-28 22:14:55 +08:00
你被网站扒光。。。
flynaj
2024-09-29 01:45:46 +08:00
你说的就是百度,中文网站很多就是这样被百度干死的。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1076497

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX