我用本地语音模型做了个语音输入法,又快又好,不用填 API,完全免费(Windows/macOS)

5 天前
 smartmeng

最近我开发了一个名为 代体语音输入法 的小工具。它基于本地语音识别模型无需联网、无需填写 API Key 、完全免费使用


🎯 开发初衷

我最初创建这个工具,是为了更高效地与 AI (如 Claude 、ChatGPT 等)进行对话。
实践发现,语音输入的速度远快于打字,说完后文字几乎瞬时出现,整个交互过程非常流畅。

🧩 为何选择本地模型?

我曾尝试过多种语音输入方案,但它们普遍存在延迟高、需配置 Key 、收费昂贵等问题。
我们最初也做过依赖云端识别的版本,但发现实际使用中月成本往往达到一二十元
因此,我们决定转向本地模型,彻底解决这些问题。

⚡ 使用体验

我和朋友们已经深度使用了一段时间,体验非常出色:
本地语音识别的响应速度极快,一旦习惯了这种“说完即出字”的零延迟体验,就再也无法忍受云端识别需要等待数秒的滞后感。


📦 支持平台

无需联网、无需登录、安装即用。
欢迎试用,并期待您的反馈 🙌


📩 获取方式

扫描下方二维码添加我的微信,我会直接发送安装包给您:

请记得备注「语音输入法」

1806 次点击
所在节点    分享创造
15 条回复
Ericgood
5 天前
大佬用的什么模型呀?
smartmeng
5 天前
@Ericgood 具体模型暂时不方便透露,不过是本地部署的,不联网、识别速度非常快。
后面也会支持多种语音模型切换。
对电脑的要求不高,大部分机器都能流畅运行,准确率接近云端模型。
你可以先体验下效果,后面我们会再公开更多技术细节。
bigtear
5 天前
funasr 系列的模型还是 whisper ?
SayHelloHi
5 天前
感兴趣用的什么模型 😁
victor
4 天前
macOS -> 系统设置 -> 键盘 -> 听写,启用语音输入。延迟低、不收费、无需配置。
smartmeng
4 天前
@bigtear 用的 funasr 系列的模型,whisper 中文效果一般,速度也不行
smartmeng
4 天前
@SayHelloHi 用的 funasr 系列的模型,效果很好,欢迎试用体验
smartmeng
4 天前
@victor 确实,macOS 自带的听写已经挺方便了。
不过我们想做的不只是“语音转文字”——我们更希望让 AI 参与输入。

AI 不仅能帮你把语音快速变成文字,还能理解你要表达的意思,帮你优化、润色,甚至结合上下文和你的历史记忆,让输入更智能、更贴合你自己的表达习惯。

我们现在还在早期阶段,功能还不多,但方向是想在“输入”这个场景里,用 AI 做一些新的尝试。
也非常欢迎你来试试,并给我们提提建议 🙌
victor
4 天前
@smartmeng 我使用语音输入一般都是去做一些普通的聊天,不想打字的情况。比如现在这段话就是语音输入。它可以帮我补充标点符号,我只需要在输入完成之后简单地调整一下就能发送了。

你的方向是输入一大段没有经过思考的口语化语音文字后,希望 AI 精简和润色再发送。我现在只能是在 ChatGPT 当中做这个操作,再用 Chrome MCP 发送到我们现在的聊天窗口里面来,但是这种跨软件的协作只能局限在有限的几个软件中实现。

可能另外一条时间线上老罗的 TNT 最终版才是我想要的东西吧。
aero99
3 天前
我的 Mac mini 没有话筒,相对来说手机上使用语音输入的频率(场景)感觉更高
有时候回到家里就懒得打开 Mac 了,记事语音输入我是用 iPhone 的侧键调用快捷指令通过 whisper 的方式自动在备忘录产生语音转文字和原始语音文档,定期整理。
缺点是因为网络的原因,偶尔要切换节点,感觉离线的语音模型是我需要的,商店里试了几款准确率都不如 whisper 高
smartmeng
2 天前
@victor 我自己还有一个需求,就是希望语音输入的内容能被记录下来,有一个地方能看到这些数据。因为我觉得 AI 的进步非常大,很快就可以把这些数据可以用来干一些其他事情,甚至是后面可以辅助我更好的输入。
smartmeng
2 天前
@aero99 我们暂时是想先把电脑端做好,我们之前在手机上也做过语音记录相关的产品。甚至我们做了一个非常未来的产品。我们开发了一款 APP ,可以基于标准的蓝牙协议,让任何一个耳机变成记忆耳机。你只是你只要带上耳机,就可以全天候记录你听到的一切声音,并且通过 APP 转成文字,然后也可以让大模型来处理这些数据。但是我们觉得就是他这个全天候的记录的数据太多了,然后暂时没有找到一个好的场景。现在我们想把语音输入法这个场景先做好。我们现在先把电脑端做到极致,后面我们会做手机端。
visper
1 天前
之前测试的话,相对来说 sensevoicesmall 速度和准确率不错。
smartmeng
1 天前
@visper 确实不错
jwh199588
16 小时 53 分钟前
如果我想将语音模型通过 js 的方式注入进去,而不需要单独部署,用户打开浏览器就可以直接使用,使用的方式是将文字转语音,请问有哪些模型可以做到

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1163421

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX