关于手机/车机侧开发语音助手,本地部署 AI 小模型

11 小时 15 分钟前
 maokg
我想做一个语音助手,现在有两种场景,联网和断网。断网下我想部署一个端侧的小模型处理我的指令,不知道现在有哪些开源模型可以使用?
749 次点击
所在节点    程序员
15 条回复
coefu
11 小时 0 分钟前
想一想就行了,目前你这个想法整个业界也没有什么 80 分的方案。
Solix
10 小时 55 分钟前
???别闹了,7b 全精度显存需求:大约 28~32 G ,量化 8/16G 能运行,然后跑起来有啥用,它能搞指令遵循还是结构化?
maokg
10 小时 53 分钟前
@Solix 不用很复杂,断网环境下能识别到播放音乐、打开车窗这类简单指令就可以,但准确度可能要高一点
play78
10 小时 42 分钟前
如果只是固定单词指令,现在 AIOT 芯片和方案就有现成的。便宜的几毛钱的芯片就内置了。淘宝搜索“LED 语音灯”,准确率比大模型准非常多。
maokg
10 小时 40 分钟前
@play78 感谢,我了解一下
jacketma
9 小时 49 分钟前
自己部署这个就可以 huggingface.co/Qwen/Qwen2.5-Omni-7B
bigtear
9 小时 45 分钟前
小米的智驾用的是一个 128g 显存的 NVIDIA 开发版,你可以试试能不能调用它
otakustay
9 小时 40 分钟前
@Solix 车机有限场景下的指令遵循,Siri 的水平就够了,Siri 这方面可是纯端的,哪需要 7B 这么大规模
ca2oh4
9 小时 40 分钟前
固定指令的话,乐鑫都有成熟的方案可直接用了
imliuruiqi
9 小时 34 分钟前
非要本地的话也有一些量化后的小模型,但效果可能需要你自己实验一下 相关研究可以顺着 huggingface 的 smollm 去找: https://huggingface.co/blog/smollm
Tink
8 小时 28 分钟前
@maokg #3 单纯指令的话,看一下机芯智能的离线语音模块 su03t ,还有天问的 asr 系列,都可以满足。我在家里的智能家居控制用的都是这些
skallz
8 小时 28 分钟前
我觉得你这个方案就想错了,应该是做一个语音识别,然后根据关键词,去做对应的操作,而不是接入 llm 大模型。。。
me15000
8 小时 19 分钟前
@coefu 到处都能看到这个喷子,你到底懂不懂啊,不懂别瞎逼逼行不行
humminwang
8 小时 7 分钟前
gemma 3 270m 可以试试 500 多 MB 内存即可
wheat0r
7 小时 24 分钟前
我理解这个 OP 的这个逻辑,人是很复杂的,很多时候用户并不会给出指定的指令,确实需要端侧具有一定的思考能力。
比如用户可能并不会说“播放歌曲千万次的问”,而是说“给老子整个刘欢那个 ask 啥的歌”

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1161732

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX