如何能训练 AI 操作软件?

2024-09-04 12:01:26 +08:00
 wildmaker

发现一个需求,工作中要用多个仿真软件,软件操作重复性高,软件现成的接口几乎没有,求教有什么方法可以自动化?

看了看开源项目,依然没有思路,🤣

话说我觉得这需求可以商业化,不过容易被 AGI 一下子干死

能搞钱的需求太难找了,现在找到的需求都 TOO HARD ,无力吐槽

2556 次点击
所在节点    奇思妙想
14 条回复
3IOhG7M0knRu5UlC
2024-09-04 12:08:22 +08:00
RPA
sillydaddy
2024-09-04 12:51:05 +08:00
现在的大语言模型应该就可以做到。只需要开放给它通过 UI 操作软件的权限。

我最近正好也想找一个这样的工具,平时的开发工作,编码完成后,需要点击很多次 UI 来调试时,也可以用到。
line
2024-09-04 13:23:09 +08:00
要直接将屏幕内容输入给 AI 目前还是很难的,AI 自主再通过操作鼠标键盘操作 PC 。 这个难度相当于:操作二维世界的机械手。
Solix
2024-09-04 13:26:15 +08:00
通过无头浏览器操作,传统爬虫怎么搞的原理一样
iloveayu
2024-09-04 13:45:47 +08:00
1 楼正解,对接 UI Path 这类的 RPA 软件,应该是最快的。
windmoonwind
2024-09-04 13:51:19 +08:00
具体啥操作啊,如果就是规律的条件化操作,感觉你这需求按键精灵类的就能做到,用不着上大模型啊....
或者用这个水哥版 RPA
https://github.com/xlbljz/waterRPA
SWALLOWW
2024-09-04 14:35:09 +08:00
这么说我能大模型玩游戏啦
youyoumarco
2024-09-04 14:47:01 +08:00
按键精灵+1
wildmaker
2024-09-04 15:39:29 +08:00
@windmoonwind 不是路径严格的操作,需要根据结果判断下一步动作
cat9life
2024-09-04 16:02:29 +08:00
之前记得在 hackernews 上见过一款调用 chatgpt 来操作的软件。
windmoonwind
2024-09-04 16:14:16 +08:00
@SWALLOWW 今天刚看到一则新闻,有个团队趁热训练 AI 打黑悟空,死了 1000 多次,把第一关过去了...
lneoi
2024-09-04 16:49:38 +08:00
向大模型解释各个参数信息,然后返回参数数据,实际调整由另外的软件去操作
Baymaxbowen
2024-09-05 11:45:01 +08:00
web 端有类似工具吗,我想让设计个 agent ,来实现类似 UI 自动化的操作
rekulas
2024-09-16 23:01:15 +08:00
你这需求似乎 cradle 很适合 https://github.com/BAAI-Agents/Cradle

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1070144

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX