现阶段最优的语音转文本，文本转语音的方案是不是这两个呀

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 156 天前的主题，其中的信息可能已经有所发展或是发生改变。

GPT-SoVITS + FunASR 本地化部署、支持中英文、调研了下最优组合了吧

gpt-sovits

FunASR

本地化部署

23 条回复 • 2025-07-17 09:02:11 +08:00

tommyshelbyV2

156 天前

生产环境下不是

zoharSoul

156 天前

并发能支持多少呀?

momomoi

156 天前

@zoharSoul 我在确认最优方案啊

zoharSoul

156 天前

@momomoi #3 我就是问问这个方案性能怎么样呀

tool2dx

156 天前

"最优的语音转文本"

我自己测试下来,识别率最高的是多模态的 gemini 2.5 pro. 因为是思考模型, 不能实时语音录入, 但识别率很高.

FlashEcho

156 天前

GPT-SoVITS 疑似是有点古老了，可以看看 fish-speech 1.5 ，CosyVoice 3

Suinn

156 天前

@chesha1 CosyVoice 3 好像还没开源┭┮﹏┭┮

cq65617875

156 天前

funasr 那个识别率……

humbass

156 天前

funasr 在开源项目里头算可以的了
只是没有找到合适的 tts ，SoVITS 是否支持 websocket ？@ momomoi

w568w

156 天前

借楼问问现在识别率最高、延迟最低的本地部署语言转文字系统是什么？

hmxxmh

156 天前

gpt-sovits 是搞声音克隆比较好吧，魔搭上面 CosyVoice 比较火，也可以看看 chattts

312ybj

156 天前

k2 whisper 也能做本地部署。asr 还要看音频前端算法，这个对 wer 的影响很大，能看到的商用音频接口，肯定做了音频前端处理

Aixtuz

156 天前

用过 CosyVoice2.0 的 Demo ，感觉效果挺好的。
就是多音字和断句，偶尔有点问题。

Aixtuz

156 天前

语音转文本的话，用过通义听悟，个人用用签到送的量就差不多了。
除了人名和特殊名词以外的部分，准确率挺高了。而且比较方便点到哪、播到哪的校对。

jadeborner

156 天前

跟 minimax 比怎么样

Oats

156 天前

tts 的话 indextts 个人感觉不错

cccssss

156 天前

铜币送上，学习了

hurrytospring

156 天前

线上服务有比较好的吗

chenzi0103

156 天前

可以看下我写的实现了你说的而且识别率和播放都还可以
https://github.com/chengzi0103/SoulSpeak

用的是 funasr + cosyvoice2

momomoi

156 天前

@chenzi0103 好的感谢

kamikaze472

156 天前

没人推荐飞书吗, 我一直觉得飞书很好用了

zinco

156 天前

funasr 最近项目用了一下，生产上的实时语音识别，识别准确率 90%？总有一两个字识别不对，现在准备换线上的服务了

z4zr

156 天前

我尝试了 funasr+qwq3+indextts 这个组合 funasr 和 indextts 对资源要求都不高，速度和并发没有太大或者即时性太高的要求是可玩的