爬虫现在有啥黑科技抓取法吗

ration

127 天前

可以尝试一下这个 https://github.com/browser-use/browser-use

Dora112233

127 天前

crawlee+camoufox 值得学一下

Dora112233

127 天前

可以写通用规则写个 json ，然后解析 json 生成代码，打包成 docker 镜像，用 k8s/k3s 运行

googxuran

127 天前

@ration 用过这个感觉不太行啊，程序员还是 selemium 比较趁手。

wentx

127 天前

无头浏览器把整个 document 捞出来... 但是也可能被封 IP

jerrywaffle

126 天前

seleniumbase 可以单个 element 截图，隐秘模式

macaodoll

126 天前

简单的网站,可以直接用大模型生成,内部规范化的脚本,已经测试过了,

macaodoll

126 天前

另外调用浏览器的话 Java 推荐 jxbrowser(商业软件,但是就算最新的也可以破解),python 的话 DrissionPage

chengxiao

126 天前

爬虫的瓶颈不是账号和 ip 么?

andyskaura

126 天前

是不是想要类似这种东西？ https://cursor.directory/mcp/puppeteer

NoOneNoBody

126 天前

AI 的 web api 本身也是爬虫

现在能用上 AI 的可能是，自动判别网页需要获取的部分，以及爬去后的自动分类整理
后者严格说也不是爬虫的工作，而是后续工作，因为爬取工作是相同的，但如何分类则是不同的需求，同一批爬取结果也可能有很多不同的分类方法

整站 dump|siterip 然后 AI 提取？

z1829909

126 天前

如果你说的 AI 是指大模型的话，爬虫的瓶颈在于 ip 指纹，账号，过验证码。这三个大模型都解决不了。

coderluan

126 天前

https://github.com/ScrapeGraphAI/Scrapegraph-ai

刚出来的时候我试过，不太好用，现在什么状态不太清楚。

thingingWoods

126 天前

众包才是爬虫的出路

pureGirl

126 天前

@z1829909 想用来抓那种没有门槛的网站，而且不需要挨个解析

pureGirl

126 天前

@thingingWoods 有推荐的接单平台吗

KING754

126 天前

这两天 selemium 抢个优惠券...各种问题.
确实感觉 IP 代理,才是最大的问题.

你动不动,就不能测了呀...........

YJi

126 天前

要抓什么数据？互联网文本数据我这有接口（包括抖快微小

WarlockMan

125 天前

爬虫没有黑科技，反而是反爬这边因为有钱有资本借助人工智能不断升级，datadom 反爬公司现在客户越来越多

jqk

52 天前

@YJi 老哥能不能留个联系方式有需求

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1122191

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.