爬虫现在有啥黑科技抓取法吗

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 235 天前的主题，其中的信息可能已经有所发展或是发生改变。

有没有类似 ai+rpa 批量抓取不用一个个写脚本的那种

爬虫

黑科技

AI+RPA

21 条回复 • 2025-06-13 17:11:38 +08:00

ration

235 天前

可以尝试一下这个 https://github.com/browser-use/browser-use

Dora112233

235 天前

crawlee+camoufox 值得学一下

Dora112233

235 天前

可以写通用规则写个 json ，然后解析 json 生成代码，打包成 docker 镜像，用 k8s/k3s 运行

googxuran

235 天前

@ration 用过这个感觉不太行啊，程序员还是 selemium 比较趁手。

wentx

235 天前

无头浏览器把整个 document 捞出来... 但是也可能被封 IP

jerrywaffle

235 天前

seleniumbase 可以单个 element 截图，隐秘模式

macaodoll

235 天前

简单的网站,可以直接用大模型生成,内部规范化的脚本,已经测试过了,

macaodoll

235 天前

另外调用浏览器的话 Java 推荐 jxbrowser(商业软件,但是就算最新的也可以破解),python 的话 DrissionPage

chengxiao

235 天前

爬虫的瓶颈不是账号和 ip 么?

andyskaura

235 天前

是不是想要类似这种东西？ https://cursor.directory/mcp/puppeteer

NoOneNoBody

235 天前

AI 的 web api 本身也是爬虫

现在能用上 AI 的可能是，自动判别网页需要获取的部分，以及爬去后的自动分类整理
后者严格说也不是爬虫的工作，而是后续工作，因为爬取工作是相同的，但如何分类则是不同的需求，同一批爬取结果也可能有很多不同的分类方法

整站 dump|siterip 然后 AI 提取？