我用本地语音模型做了个语音输入法，又快又好，不用填 API，完全免费(Windows/macOS)

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

爱意满满的作品展示区。

最近我开发了一个名为 代体语音输入法 的小工具。它基于本地语音识别模型，无需联网、无需填写 API Key 、完全免费使用。

🎯 开发初衷

我最初创建这个工具，是为了更高效地与 AI （如 Claude 、ChatGPT 等）进行对话。
实践发现，语音输入的速度远快于打字，说完后文字几乎瞬时出现，整个交互过程非常流畅。

🧩 为何选择本地模型？

我曾尝试过多种语音输入方案，但它们普遍存在延迟高、需配置 Key 、收费昂贵等问题。
我们最初也做过依赖云端识别的版本，但发现实际使用中月成本往往达到一二十元。
因此，我们决定转向本地模型，彻底解决这些问题。

⚡ 使用体验

我和朋友们已经深度使用了一段时间，体验非常出色：
本地语音识别的响应速度极快，一旦习惯了这种“说完即出字”的零延迟体验，就再也无法忍受云端识别需要等待数秒的滞后感。

📦 支持平台

Windows
macOS

代体语音输入法界面截图

无需联网、无需登录、安装即用。
欢迎试用，并期待您的反馈 🙌

📩 获取方式

扫描下方二维码添加我的微信，我会直接发送安装包给您：

微信二维码

请记得备注「语音输入法」

本地语音模型

语音输入法

无需联网

15 条回复 • 2025-10-10 09:09:58 +08:00

Ericgood

5 天前

大佬用的什么模型呀？

smartmeng

5 天前

@Ericgood 具体模型暂时不方便透露，不过是本地部署的，不联网、识别速度非常快。
后面也会支持多种语音模型切换。
对电脑的要求不高，大部分机器都能流畅运行，准确率接近云端模型。
你可以先体验下效果，后面我们会再公开更多技术细节。

bigtear

5 天前

funasr 系列的模型还是 whisper ？

SayHelloHi

5 天前

感兴趣用的什么模型 😁

victor

4 天前

macOS -> 系统设置 -> 键盘 -> 听写，启用语音输入。延迟低、不收费、无需配置。

smartmeng

4 天前

@bigtear 用的 funasr 系列的模型，whisper 中文效果一般，速度也不行

smartmeng

4 天前

@SayHelloHi 用的 funasr 系列的模型，效果很好，欢迎试用体验

smartmeng

4 天前

@victor 确实，macOS 自带的听写已经挺方便了。
不过我们想做的不只是“语音转文字”——我们更希望让 AI 参与输入。

AI 不仅能帮你把语音快速变成文字，还能理解你要表达的意思，帮你优化、润色，甚至结合上下文和你的历史记忆，让输入更智能、更贴合你自己的表达习惯。

我们现在还在早期阶段，功能还不多，但方向是想在“输入”这个场景里，用 AI 做一些新的尝试。
也非常欢迎你来试试，并给我们提提建议 🙌

victor

4 天前

@smartmeng 我使用语音输入一般都是去做一些普通的聊天，不想打字的情况。比如现在这段话就是语音输入。它可以帮我补充标点符号，我只需要在输入完成之后简单地调整一下就能发送了。

你的方向是输入一大段没有经过思考的口语化语音文字后，希望 AI 精简和润色再发送。我现在只能是在 ChatGPT 当中做这个操作，再用 Chrome MCP 发送到我们现在的聊天窗口里面来，但是这种跨软件的协作只能局限在有限的几个软件中实现。

可能另外一条时间线上老罗的 TNT 最终版才是我想要的东西吧。

aero99

3 天前

我的 Mac mini 没有话筒，相对来说手机上使用语音输入的频率（场景）感觉更高
有时候回到家里就懒得打开 Mac 了，记事语音输入我是用 iPhone 的侧键调用快捷指令通过 whisper 的方式自动在备忘录产生语音转文字和原始语音文档，定期整理。
缺点是因为网络的原因，偶尔要切换节点，感觉离线的语音模型是我需要的，商店里试了几款准确率都不如 whisper 高

smartmeng

2 天前

@victor 我自己还有一个需求，就是希望语音输入的内容能被记录下来，有一个地方能看到这些数据。因为我觉得 AI 的进步非常大，很快就可以把这些数据可以用来干一些其他事情，甚至是后面可以辅助我更好的输入。

smartmeng

2 天前

@aero99 我们暂时是想先把电脑端做好，我们之前在手机上也做过语音记录相关的产品。甚至我们做了一个非常未来的产品。我们开发了一款 APP ，可以基于标准的蓝牙协议，让任何一个耳机变成记忆耳机。你只是你只要带上耳机，就可以全天候记录你听到的一切声音，并且通过 APP 转成文字，然后也可以让大模型来处理这些数据。但是我们觉得就是他这个全天候的记录的数据太多了，然后暂时没有找到一个好的场景。现在我们想把语音输入法这个场景先做好。我们现在先把电脑端做到极致，后面我们会做手机端。

visper

1 天前

之前测试的话，相对来说 sensevoicesmall 速度和准确率不错。

smartmeng

1 天前

@visper 确实不错

jwh199588

12 小时 50 分钟前

如果我想将语音模型通过 js 的方式注入进去，而不需要单独部署，用户打开浏览器就可以直接使用，使用的方式是将文字转语音，请问有哪些模型可以做到