技术类语音识别(会议记录)的工具推荐和讨论

3 天前
 milestance
最近在寻找比较好的可以做技术类语音识别(会议记录)的工具,主要下面几点诉求:
1.比较好的支持 DICITION 自定义字典,例如很多专有名词,语音模型没有训练过
2.需要能够比较好的识别中英文混合,具备识别 SPEAKER 的能力,识别正确率较高,至少能够作为 AI 润色的输入
3.能够监听识别 MAC 上 APP 的语音流,例如微信,腾讯会议等


个人尝试了下述方案:
1.MAC WHISPER 评分 5.0
使用了内置默认模型:openai-whisper-large3 600MB 版本和 Large v3 turbo ,效果不是特别好,英文勉强能识别部分,连中文都识别率不太高,支持 SPEAKER 区分,支持自定义字典,但是自定义字典貌似并未生效

2.讯飞听见 评分 5.5
付费使用了音频上传功能,效果比 MAC WHISPER 略好,自定义字典同样没有生效,脚本的编辑页面相对友好一些,中文仍然存在一些问题,比 MAC WHISPER 略好点

3.通义听悟 评分 6.0
唯一勉强能用的语音识别工具,只是勉强,自定义字典同样没有生效,界面和讯飞听见类似,中文英文效果都比上面两者好,但是离傻瓜式使用仍然有具体,文本仍然要手工调整很多

看看大家有没有什么比较好的工具或者工作流,可以一起讨论一下。
572 次点击
所在节点    分享发现
4 条回复
yuanxing008
3 天前
其实这类工具最大的问题就是如何有效识别用户的不正确发音导致的识别异常,同一个专业术语单词 让十个人来发音可能会有三四种发音
380cc
3 天前
mac whisper 我用了好几年了,感觉这款听写效果越来越好,从一开始的 cpp 到现在用 kit V2,速度有提升,幻听有下降,非中文的听写质量非常不错。中文听写质量不行,可以在这个 app 里自定义国内 AI 运营商的 api 进行修改,诸如 deepseek, 通义千问,这样生成的中文效果还不错的。大模型不要选 v3 ,要选 v2 不含任何后缀的。
565656
3 天前
chatgpt 有会议模式?
milestance
2 天前
之前看到在 LINUX.DO 有人推荐 GEMINI 2.5 PRO,这个我还没有测试,看有人反馈长时间音频不支持

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1157368

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX