V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
milestance
V2EX  ›  分享发现

技术类语音识别(会议记录)的工具推荐和讨论

  •  
  •   milestance · 2 天前 · 523 次点击
    最近在寻找比较好的可以做技术类语音识别(会议记录)的工具,主要下面几点诉求:
    1.比较好的支持 DICITION 自定义字典,例如很多专有名词,语音模型没有训练过
    2.需要能够比较好的识别中英文混合,具备识别 SPEAKER 的能力,识别正确率较高,至少能够作为 AI 润色的输入
    3.能够监听识别 MAC 上 APP 的语音流,例如微信,腾讯会议等


    个人尝试了下述方案:
    1.MAC WHISPER 评分 5.0
    使用了内置默认模型:openai-whisper-large3 600MB 版本和 Large v3 turbo ,效果不是特别好,英文勉强能识别部分,连中文都识别率不太高,支持 SPEAKER 区分,支持自定义字典,但是自定义字典貌似并未生效

    2.讯飞听见 评分 5.5
    付费使用了音频上传功能,效果比 MAC WHISPER 略好,自定义字典同样没有生效,脚本的编辑页面相对友好一些,中文仍然存在一些问题,比 MAC WHISPER 略好点

    3.通义听悟 评分 6.0
    唯一勉强能用的语音识别工具,只是勉强,自定义字典同样没有生效,界面和讯飞听见类似,中文英文效果都比上面两者好,但是离傻瓜式使用仍然有具体,文本仍然要手工调整很多

    看看大家有没有什么比较好的工具或者工作流,可以一起讨论一下。
    4 条回复    2025-09-06 14:46:54 +08:00
    yuanxing008
        1
    yuanxing008  
       2 天前
    其实这类工具最大的问题就是如何有效识别用户的不正确发音导致的识别异常,同一个专业术语单词 让十个人来发音可能会有三四种发音
    380cc
        2
    380cc  
       2 天前
    mac whisper 我用了好几年了,感觉这款听写效果越来越好,从一开始的 cpp 到现在用 kit V2,速度有提升,幻听有下降,非中文的听写质量非常不错。中文听写质量不行,可以在这个 app 里自定义国内 AI 运营商的 api 进行修改,诸如 deepseek, 通义千问,这样生成的中文效果还不错的。大模型不要选 v3 ,要选 v2 不含任何后缀的。
    565656
        3
    565656  
       2 天前
    chatgpt 有会议模式?
    milestance
        4
    milestance  
    OP
       1 天前
    之前看到在 LINUX.DO 有人推荐 GEMINI 2.5 PRO,这个我还没有测试,看有人反馈长时间音频不支持
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3618 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 00:49 · PVG 08:49 · LAX 17:49 · JFK 20:49
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.