有大佬用过 browser use 吗？效果怎么样？

似乎很火，但不知道效果如何

都用于什么方面呢？爬虫？

如果搞一个 app use 会有人用吗

BingoW

17 天前

之前用过，效果一般。现在用 codex 配合 chrome Devtools mcp ，效果挺不错的。你自己研究搞搞可以的，想商用赚钱就算了，因为大厂出新产品太快了，你细细打磨一年的产品，人家看到了觉得不错，分分钟出个替代品。

sacuba

17 天前

还有 nana browser ，都是反应太慢了，得有特定场景然后针对性微调模型之后才可用。

ygweric

17 天前

我研究过源码，写的很精妙。

用处主要是：智能助力、UI 测试，这样子成本可以和应届生的工资比较便宜很多。

爬虫不可能，非常慢，而且 token 的图片识别还是非常贵的，不划算。

yejjgo

17 天前

最开始尝试用来结合大模型做自动化测试，效果不稳定，后来换成生成自动化脚本再使用的方式还挺不错

guiyumin

17 天前

@yejjgo 嗯，对的，大模型还是不稳定

cz5424

17 天前

一般用来让 ai 调试网页进行 debug

coefu

17 天前

底层实现是用的 playwright ，只是把人看到的 web 页面上的物件利用 LLM 对话映射到 playwright 里的组件，做的就是中间这层转换。实际效果不会太好。

gongym

17 天前

说到无头浏览器，我发现了这个好像很牛
https://github.com/lightpanda-io/browser

GiantHard

16 天前

我试了 playwright-mcp 跟 chrome-devtools-mcp ，主要场景是用 claude code 帮我执行 UI 测试，这俩 mcp 主要用 Accessbility API 给 LLM 描述页面的状态，在 playwright-mcp 中，这个功能叫 snapshot ；而现有的系统在可访问性方面做的不太好，以至于 GLM 4.5/Claude Sonnet 4 都会被很简单 UI 交互卡住，例如，滚动 Antd 4 Tree 组件的虚拟列表，我手动截图页面让 LLM 识别的话，LLM 都能知道应该用滚轮事件向下滚动，但如果只提供 Snapshot 的话，这些模型会被卡住很久并最终撂挑子。所以个人感觉在 UI 测试的场景中，还是基于视觉（ screenshot ）的方案更优。

最近再调研的时候，发现 Google 整了一个新的 Computer Use 模型，能够基于截图跟浏览器交互，看演示视频的效果还不错，但是限定只能用 gemini-2.5 的一个实验性版本。

Cheez

16 天前

@ygweric 你可能想错了。以前是 website -> 手写代码 -> data or error -> 再次手写代码
现在是 website -> AI 代码 -> data or error -> 再次 AI 代码

也就是说，是用 AI 来制作 website to data 的算法，而不是让 AI 去当这个“算法”。

andyJado

13 天前

@gongym 这个可以替换掉 bu 里的 chrome 吗？

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1165258

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.