有大佬用过 browser use 吗?效果怎么样?

17 天前
 guiyumin

似乎很火,但不知道效果如何

都用于什么方面呢?爬虫?

如果搞一个 app use 会有人用吗

2511 次点击
所在节点    程序员
11 条回复
BingoW
17 天前
之前用过,效果一般。现在用 codex 配合 chrome Devtools mcp ,效果挺不错的。你自己研究搞搞可以的,想商用赚钱就算了,因为大厂出新产品太快了,你细细打磨一年的产品,人家看到了觉得不错,分分钟出个替代品。
sacuba
17 天前
还有 nana browser ,都是反应太慢了,得有特定场景然后针对性微调模型之后才可用。
ygweric
17 天前
我研究过源码,写的很精妙。

用处主要是:智能助力、UI 测试,这样子成本可以和应届生的工资比较便宜很多。

爬虫不可能,非常慢,而且 token 的图片识别还是非常贵的,不划算。
yejjgo
17 天前
最开始尝试用来结合大模型做自动化测试,效果不稳定,后来换成生成自动化脚本再使用的方式还挺不错
guiyumin
17 天前
@yejjgo 嗯,对的,大模型还是不稳定
cz5424
17 天前
一般用来让 ai 调试网页进行 debug
coefu
17 天前
底层实现是用的 playwright ,只是把人看到的 web 页面上的 物件 利用 LLM 对话 映射到 playwright 里的组件,做的就是中间这层转换。实际效果不会太好。
gongym
17 天前
说到无头浏览器,我发现了这个好像很牛
https://github.com/lightpanda-io/browser
GiantHard
16 天前
我试了 playwright-mcp 跟 chrome-devtools-mcp ,主要场景是用 claude code 帮我执行 UI 测试,这俩 mcp 主要用 Accessbility API 给 LLM 描述页面的状态,在 playwright-mcp 中,这个功能叫 snapshot ;而现有的系统在可访问性方面做的不太好,以至于 GLM 4.5/Claude Sonnet 4 都会被很简单 UI 交互卡住,例如,滚动 Antd 4 Tree 组件的虚拟列表,我手动截图页面让 LLM 识别的话,LLM 都能知道应该用滚轮事件向下滚动,但如果只提供 Snapshot 的话,这些模型会被卡住很久并最终撂挑子。所以个人感觉在 UI 测试的场景中,还是基于视觉( screenshot )的方案更优。

最近再调研的时候,发现 Google 整了一个新的 Computer Use 模型,能够基于截图跟浏览器交互,看演示视频的效果还不错,但是限定只能用 gemini-2.5 的一个实验性版本。
Cheez
16 天前
@ygweric 你可能想错了。以前是 website -> 手写代码 -> data or error -> 再次手写代码
现在是 website -> AI 代码 -> data or error -> 再次 AI 代码

也就是说,是用 AI 来制作 website to data 的算法,而不是让 AI 去当这个“算法”。
andyJado
13 天前
@gongym 这个可以替换掉 bu 里的 chrome 吗?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1165258

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX