V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
smartmeng
V2EX  ›  分享创造

我用本地语音模型做了个语音输入法,又快又好,不用填 API,完全免费(Windows/macOS)

  •  3
     
  •   smartmeng · 5 天前 · 1789 次点击

    最近我开发了一个名为 代体语音输入法 的小工具。它基于本地语音识别模型无需联网、无需填写 API Key 、完全免费使用


    🎯 开发初衷

    我最初创建这个工具,是为了更高效地与 AI (如 Claude 、ChatGPT 等)进行对话。
    实践发现,语音输入的速度远快于打字,说完后文字几乎瞬时出现,整个交互过程非常流畅。

    🧩 为何选择本地模型?

    我曾尝试过多种语音输入方案,但它们普遍存在延迟高、需配置 Key 、收费昂贵等问题。
    我们最初也做过依赖云端识别的版本,但发现实际使用中月成本往往达到一二十元
    因此,我们决定转向本地模型,彻底解决这些问题。

    ⚡ 使用体验

    我和朋友们已经深度使用了一段时间,体验非常出色:
    本地语音识别的响应速度极快,一旦习惯了这种“说完即出字”的零延迟体验,就再也无法忍受云端识别需要等待数秒的滞后感。


    📦 支持平台

    • Windows
    • macOS

    代体语音输入法界面截图

    无需联网、无需登录、安装即用。
    欢迎试用,并期待您的反馈 🙌


    📩 获取方式

    扫描下方二维码添加我的微信,我会直接发送安装包给您:

    微信二维码

    请记得备注「语音输入法」

    15 条回复    2025-10-10 09:09:58 +08:00
    Ericgood
        1
    Ericgood  
       5 天前
    大佬用的什么模型呀?
    smartmeng
        2
    smartmeng  
    OP
       5 天前
    @Ericgood 具体模型暂时不方便透露,不过是本地部署的,不联网、识别速度非常快。
    后面也会支持多种语音模型切换。
    对电脑的要求不高,大部分机器都能流畅运行,准确率接近云端模型。
    你可以先体验下效果,后面我们会再公开更多技术细节。
    bigtear
        3
    bigtear  
       5 天前
    funasr 系列的模型还是 whisper ?
    SayHelloHi
        4
    SayHelloHi  
       5 天前
    感兴趣用的什么模型 😁
    victor
        5
    victor  
       4 天前
    macOS -> 系统设置 -> 键盘 -> 听写,启用语音输入。延迟低、不收费、无需配置。
    smartmeng
        6
    smartmeng  
    OP
       4 天前
    @bigtear 用的 funasr 系列的模型,whisper 中文效果一般,速度也不行
    smartmeng
        7
    smartmeng  
    OP
       4 天前
    @SayHelloHi 用的 funasr 系列的模型,效果很好,欢迎试用体验
    smartmeng
        8
    smartmeng  
    OP
       4 天前
    @victor 确实,macOS 自带的听写已经挺方便了。
    不过我们想做的不只是“语音转文字”——我们更希望让 AI 参与输入。

    AI 不仅能帮你把语音快速变成文字,还能理解你要表达的意思,帮你优化、润色,甚至结合上下文和你的历史记忆,让输入更智能、更贴合你自己的表达习惯。

    我们现在还在早期阶段,功能还不多,但方向是想在“输入”这个场景里,用 AI 做一些新的尝试。
    也非常欢迎你来试试,并给我们提提建议 🙌
    victor
        9
    victor  
       4 天前
    @smartmeng 我使用语音输入一般都是去做一些普通的聊天,不想打字的情况。比如现在这段话就是语音输入。它可以帮我补充标点符号,我只需要在输入完成之后简单地调整一下就能发送了。

    你的方向是输入一大段没有经过思考的口语化语音文字后,希望 AI 精简和润色再发送。我现在只能是在 ChatGPT 当中做这个操作,再用 Chrome MCP 发送到我们现在的聊天窗口里面来,但是这种跨软件的协作只能局限在有限的几个软件中实现。

    可能另外一条时间线上老罗的 TNT 最终版才是我想要的东西吧。
    aero99
        10
    aero99  
       3 天前
    我的 Mac mini 没有话筒,相对来说手机上使用语音输入的频率(场景)感觉更高
    有时候回到家里就懒得打开 Mac 了,记事语音输入我是用 iPhone 的侧键调用快捷指令通过 whisper 的方式自动在备忘录产生语音转文字和原始语音文档,定期整理。
    缺点是因为网络的原因,偶尔要切换节点,感觉离线的语音模型是我需要的,商店里试了几款准确率都不如 whisper 高
    smartmeng
        11
    smartmeng  
    OP
       2 天前
    @victor 我自己还有一个需求,就是希望语音输入的内容能被记录下来,有一个地方能看到这些数据。因为我觉得 AI 的进步非常大,很快就可以把这些数据可以用来干一些其他事情,甚至是后面可以辅助我更好的输入。
    smartmeng
        12
    smartmeng  
    OP
       2 天前
    @aero99 我们暂时是想先把电脑端做好,我们之前在手机上也做过语音记录相关的产品。甚至我们做了一个非常未来的产品。我们开发了一款 APP ,可以基于标准的蓝牙协议,让任何一个耳机变成记忆耳机。你只是你只要带上耳机,就可以全天候记录你听到的一切声音,并且通过 APP 转成文字,然后也可以让大模型来处理这些数据。但是我们觉得就是他这个全天候的记录的数据太多了,然后暂时没有找到一个好的场景。现在我们想把语音输入法这个场景先做好。我们现在先把电脑端做到极致,后面我们会做手机端。
    visper
        13
    visper  
       1 天前
    之前测试的话,相对来说 sensevoicesmall 速度和准确率不错。
    smartmeng
        14
    smartmeng  
    OP
       1 天前
    @visper 确实不错
    jwh199588
        15
    jwh199588  
       12 小时 50 分钟前
    如果我想将语音模型通过 js 的方式注入进去,而不需要单独部署,用户打开浏览器就可以直接使用,使用的方式是将文字转语音,请问有哪些模型可以做到
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2839 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 14:00 · PVG 22:00 · LAX 07:00 · JFK 10:00
    ♥ Do have faith in what you're doing.