技术类语音识别（会议记录）的工具推荐和讨论

最近在寻找比较好的可以做技术类语音识别（会议记录）的工具，主要下面几点诉求：
1.比较好的支持 DICITION 自定义字典，例如很多专有名词，语音模型没有训练过
2.需要能够比较好的识别中英文混合，具备识别 SPEAKER 的能力，识别正确率较高，至少能够作为 AI 润色的输入
3.能够监听识别 MAC 上 APP 的语音流，例如微信，腾讯会议等

个人尝试了下述方案：
1.MAC WHISPER 评分 5.0
使用了内置默认模型：openai-whisper-large3 600MB 版本和 Large v3 turbo ，效果不是特别好，英文勉强能识别部分，连中文都识别率不太高，支持 SPEAKER 区分，支持自定义字典，但是自定义字典貌似并未生效

2.讯飞听见评分 5.5
付费使用了音频上传功能，效果比 MAC WHISPER 略好，自定义字典同样没有生效，脚本的编辑页面相对友好一些，中文仍然存在一些问题，比 MAC WHISPER 略好点

3.通义听悟评分 6.0
唯一勉强能用的语音识别工具，只是勉强，自定义字典同样没有生效，界面和讯飞听见类似，中文英文效果都比上面两者好，但是离傻瓜式使用仍然有具体，文本仍然要手工调整很多

看看大家有没有什么比较好的工具或者工作流，可以一起讨论一下。

380cc

77 天前

mac whisper 我用了好几年了，感觉这款听写效果越来越好，从一开始的 cpp 到现在用 kit V2,速度有提升，幻听有下降，非中文的听写质量非常不错。中文听写质量不行，可以在这个 app 里自定义国内 AI 运营商的 api 进行修改，诸如 deepseek, 通义千问，这样生成的中文效果还不错的。大模型不要选 v3 ，要选 v2 不含任何后缀的。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1157368

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.