关于爬虫的风险,请大家给我点意见

2024-07-16 15:05:30 +08:00
 pol

事情是这样的 公司想推销自己的产品,但这些东西基本上都需要投标才行

那么我们一个小公司,是不知道有那些老板需要采购,那么就想到去 xx 投标招标网,这种数据聚合平台(平台提供了付费 api ,老板感觉贵)找客户

由于他们手动一个个复制粘贴慢,就想让我们这里的 java 开发写爬虫来拿数据(电话,名字,地址)

上面是故事背景

我想的是,这种公司性质的爬虫,算不算商用,会不会有法律风险。

其他公司的爬虫工程师是怎么操作的,他们不会有风险吗,或者是有没有什么规避的方法

如果不开发爬虫,使用 rpa 那种自动化工具来爬数据,会不会有风险呢。(用 rpa 的话,风险是公司还是开发者还是 rpa 工具)

2692 次点击
所在节点    问与答
27 条回复
yzding
2024-07-16 15:14:43 +08:00
被发现了就违法, 没被发现就不违法. 是你公司的,你还是别趟了
datehoer
2024-07-16 15:38:14 +08:00
1. 被发现了就要进去,电话姓名算敏感数据了。gov 别碰,伸手必被抓。
2. 看公司性质,有些公司没事,但大多数没资质的都会完蛋,一告一个准。基本上就是挂代理。
3. 看来你不理解爬虫啊,使用别人的工具不也是爬取数据么。风险主要是个人其实,反正被抓的程序员基本上都要判几缓几。
luzihang
2024-07-16 15:41:05 +08:00
看影响。是否影响 C 端的日常生活,是否对 B 端造成大量经济损失或者不正常竞争。
luzihang
2024-07-16 15:42:45 +08:00
RPA 是封装给市场的概念。本质还是那些技术。
pol
2024-07-16 15:43:55 +08:00
@datehoer 资质这个东西具体指的是什么,我不太了解,确实我也认为我们要的数据是敏感数据不太好。

我给公司写爬虫,被发现了,是开发者背锅吗?
pol
2024-07-16 15:50:37 +08:00
@luzihang #4 公司是想为了减少人力一行行看数据,肯定不会疯狂,不会导致对方服务不可用
spacebound
2024-07-16 15:54:19 +08:00
@pol #6 还是 1 楼那句话,被发现了就违法,没被发现就不违法,其他的自己衡量吧
Sayuri
2024-07-16 15:55:34 +08:00
尽量使用非国内服务商提供的境外 IP 来进行操作。
Sayuri
2024-07-16 15:56:37 +08:00
如果再避免风险,则尽量控制一下请求的频率,不要让对方网站收到大量请求而崩溃。
可以用 puppeteer-extra 。
teddy2725
2024-07-16 15:56:44 +08:00
电话姓名地址属于公民个人信息,很容易遭
elonlee
2024-07-16 15:58:52 +08:00
首先说结论: RPA 只是工具,违法主体是工具使用方.

如果要安全爬取建议使用代理爬取不要用公司或者家庭网络去爬
luzihang
2024-07-16 15:59:31 +08:00
@pol 内部效率优化,一般没什么问题。对代码质量提出了要求,写的优雅点,别那么粗暴。还有招投标,是有难度的。
luzihang
2024-07-16 16:00:27 +08:00
RPA 有点像低代码平台,用户间可以分享脚本。但是 RPA 平台又规避了场景用途的风险。
sagaxu
2024-07-16 16:01:25 +08:00
内部悄悄用,对方没法发现,那就不违法。但如果老板酒后在他的朋友面前吹牛,做了个系统很牛逼,不用付费也能用,那就呵呵了。

换个思路,做个浏览器插件,自动提取打开页面的联系信息,那就不是爬虫了。
datehoer
2024-07-16 16:07:29 +08:00
@pol
1. 资质:例如 某科研院所,某 xxx 单位。一般是跟国家沾边的
2. 显而易见,大家都有锅。
luzihang
2024-07-16 16:13:23 +08:00
电话,名字,地址,这几个字段,在招投标领域,都是非常敏感,值钱的。

先不论销售的推荐,打电话的推销方式是否合理。

比如你的 xx 投标招标网,也要购买 vip 才能访问吧,才能拿到数据。比如难度在数据是加密的,也有可能在程序化拿数据的时候,就被封了。
pol
2024-07-16 16:17:55 +08:00
@luzihang #16 对对对,我就是认为,不管是不是敏感信息,对于招标信息网这种来说 ,电话和名字地址这几个对于他们来说是核心, 并且人家也提供了 api 付费接口的情况下,我通过爬虫获取,一定是动了人家的利益了,那我认为被发现一点点就会被搞
luzihang
2024-07-16 16:35:50 +08:00
@pol 手动一个个复制粘贴慢,需求的疼点是慢,还是手动。如果是慢,那可能无解,去买 API 吧。如果是手动,那还可以开发介入下。
pol
2024-07-16 16:42:43 +08:00
@luzihang #18 更倾向于需要手动,慢点无所谓。刚刚刷 v 站看到我们要爬的网站竟然是 v 友的站点,在推广节点还有贴子呢😂
Jisxu
2024-07-16 17:27:21 +08:00
楼上也提到了,做个浏览器扩展/插件,对页面信息做自动化或者半自动化提取,控制好频次,这样可以规避。
然后这个扩展也不要公开,就用的几个人内部传播就好了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1057717

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX