4o 的多模态怎么还没开放

2024-06-02 08:19:03 +08:00
 IndexOutOfBounds

现在好像还是单纯的文本模型

3241 次点击
所在节点    OpenAI
16 条回复
baoshuai33
2024-06-02 08:45:50 +08:00
前面有个回形针一样的就是可以传文件
kuhung
2024-06-02 08:46:29 +08:00
拍照问他也可以呀
crokily
2024-06-02 09:07:16 +08:00
拍照和语音一句句对话这些一直都有,但是像发布会上的那种实时对话还是没有发布。
也不知道啥猴年马月才会发布。
maolon
2024-06-02 09:09:37 +08:00
openai 的臭毛病,先把 hype train 搞出来,具体用户啥时候能体验,慢慢等灰度去吧。
开发者论坛上一堆问什么时候开放演示里功能的,答曰: 无可奉告(现在只给密切合作伙伴使用)
lDqe4OE6iOEUQNM7
2024-06-02 10:12:58 +08:00
语音内测要几周,全部上线还得几个月,看 Open Ai 公告,就是为了在谷歌之前发布,不然没亮点了,加上斯嘉丽控诉 opanai ,下架了一个声音,估计不知道要多久,好几周了
binaryify
2024-06-02 10:49:49 +08:00
图片可以识别的
shan1989
2024-06-02 11:40:20 +08:00
目前只能输出文字,无法直接输出图片这些吧
youngxhui838
2024-06-02 11:42:17 +08:00
我连 4o 都还没有灰度到
IndexOutOfBounds
2024-06-02 13:13:31 +08:00
@baoshuai33 @kuhung @crokily @binaryify 我猜现在的语音,图片都还不是原生多模态,比如语音是先转成文字再给 gpt 的,和原生多模态还不一样,信息会有损耗,比如声音的语气情绪
crokily
2024-06-02 13:55:17 +08:00
@IndexOutOfBounds 是不一样,发布会演示的是 RTC 实时对话,现在这个还得一句一句等候处理。
appsyb
2024-06-02 16:31:56 +08:00
4o 发布会就是为了狙击 Google I/O gemini 的
ufogxl
2024-06-02 21:37:30 +08:00
@shan1989 可以输出图片,还能利用 bing 搜索在线内容
18k
2024-06-02 22:29:07 +08:00
我的有了,就是没开会员限制文件次数
binaryify
2024-06-05 13:38:49 +08:00
@IndexOutOfBounds 语音还得等,但是图片我看是可以识别图片内容的,不只是文字,你给它几个西瓜的图,打上数字编号,他会告诉你哪个熟了可以买,给它发 k 线图,也会给你分析走势
IndexOutOfBounds
2024-06-05 23:11:25 +08:00
@binaryify 哦哦,我主要还是指原生多模态。这个应该是模型外挂了什么视觉识别?不是模型本身认识图片,Poe 上用 gpt3.5 也可以上传图片,但模型本身显然只能处理文字
binaryify
2024-06-06 10:05:55 +08:00
@IndexOutOfBounds #15 确实,现在感觉和发布会的就是买家秀和卖家秀的区别

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1046058

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX