关于爬虫的风险，请大家给我点意见

2024-07-16 15:05:30 +08:00

pol

事情是这样的公司想推销自己的产品，但这些东西基本上都需要投标才行

那么我们一个小公司，是不知道有那些老板需要采购，那么就想到去 xx 投标招标网，这种数据聚合平台（平台提供了付费 api ，老板感觉贵）找客户

由于他们手动一个个复制粘贴慢，就想让我们这里的 java 开发写爬虫来拿数据（电话，名字，地址）

上面是故事背景

我想的是，这种公司性质的爬虫，算不算商用，会不会有法律风险。

其他公司的爬虫工程师是怎么操作的，他们不会有风险吗，或者是有没有什么规避的方法

如果不开发爬虫，使用 rpa 那种自动化工具来爬数据，会不会有风险呢。（用 rpa 的话，风险是公司还是开发者还是 rpa 工具）

2692 次点击

所在节点

问与答

27 条回复

yzding

2024-07-16 15:14:43 +08:00

被发现了就违法, 没被发现就不违法. 是你公司的，你还是别趟了

datehoer

2024-07-16 15:38:14 +08:00

1. 被发现了就要进去，电话姓名算敏感数据了。gov 别碰，伸手必被抓。
2. 看公司性质，有些公司没事，但大多数没资质的都会完蛋，一告一个准。基本上就是挂代理。
3. 看来你不理解爬虫啊，使用别人的工具不也是爬取数据么。风险主要是个人其实，反正被抓的程序员基本上都要判几缓几。

luzihang

2024-07-16 15:41:05 +08:00

看影响。是否影响 C 端的日常生活，是否对 B 端造成大量经济损失或者不正常竞争。

luzihang

2024-07-16 15:42:45 +08:00

RPA 是封装给市场的概念。本质还是那些技术。

pol

2024-07-16 15:43:55 +08:00

@datehoer 资质这个东西具体指的是什么，我不太了解，确实我也认为我们要的数据是敏感数据不太好。

我给公司写爬虫，被发现了，是开发者背锅吗？

pol

2024-07-16 15:50:37 +08:00

@luzihang #4 公司是想为了减少人力一行行看数据，肯定不会疯狂，不会导致对方服务不可用

spacebound

2024-07-16 15:54:19 +08:00

@pol #6 还是 1 楼那句话，被发现了就违法，没被发现就不违法，其他的自己衡量吧

Sayuri

2024-07-16 15:55:34 +08:00

尽量使用非国内服务商提供的境外 IP 来进行操作。

Sayuri

2024-07-16 15:56:37 +08:00

如果再避免风险，则尽量控制一下请求的频率，不要让对方网站收到大量请求而崩溃。
可以用 puppeteer-extra 。

teddy2725

2024-07-16 15:56:44 +08:00

电话姓名地址属于公民个人信息，很容易遭

elonlee

2024-07-16 15:58:52 +08:00

首先说结论: RPA 只是工具,违法主体是工具使用方.

如果要安全爬取建议使用代理爬取不要用公司或者家庭网络去爬

luzihang

2024-07-16 15:59:31 +08:00

@pol 内部效率优化，一般没什么问题。对代码质量提出了要求，写的优雅点，别那么粗暴。还有招投标，是有难度的。

luzihang

2024-07-16 16:00:27 +08:00

RPA 有点像低代码平台，用户间可以分享脚本。但是 RPA 平台又规避了场景用途的风险。

sagaxu

2024-07-16 16:01:25 +08:00

内部悄悄用，对方没法发现，那就不违法。但如果老板酒后在他的朋友面前吹牛，做了个系统很牛逼，不用付费也能用，那就呵呵了。

换个思路，做个浏览器插件，自动提取打开页面的联系信息，那就不是爬虫了。

datehoer

2024-07-16 16:07:29 +08:00

@pol
1. 资质：例如某科研院所，某 xxx 单位。一般是跟国家沾边的
2. 显而易见，大家都有锅。

luzihang

2024-07-16 16:13:23 +08:00

电话，名字，地址，这几个字段，在招投标领域，都是非常敏感，值钱的。

先不论销售的推荐，打电话的推销方式是否合理。

比如你的 xx 投标招标网，也要购买 vip 才能访问吧，才能拿到数据。比如难度在数据是加密的，也有可能在程序化拿数据的时候，就被封了。

pol

2024-07-16 16:17:55 +08:00

@luzihang #16 对对对，我就是认为，不管是不是敏感信息，对于招标信息网这种来说，电话和名字地址这几个对于他们来说是核心，并且人家也提供了 api 付费接口的情况下，我通过爬虫获取，一定是动了人家的利益了，那我认为被发现一点点就会被搞

luzihang

2024-07-16 16:35:50 +08:00

@pol 手动一个个复制粘贴慢，需求的疼点是慢，还是手动。如果是慢，那可能无解，去买 API 吧。如果是手动，那还可以开发介入下。

pol

2024-07-16 16:42:43 +08:00

@luzihang #18 更倾向于需要手动，慢点无所谓。刚刚刷 v 站看到我们要爬的网站竟然是 v 友的站点，在推广节点还有贴子呢😂

Jisxu

2024-07-16 17:27:21 +08:00

楼上也提到了，做个浏览器扩展/插件，对页面信息做自动化或者半自动化提取，控制好频次，这样可以规避。
然后这个扩展也不要公开，就用的几个人内部传播就好了

第 1 页／共 2 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1057717

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.