GPT-SoVITS + FunASR 本地化部署、支持中英文、调研了下 最优组合了吧
1
tommyshelbyV2 16 天前
生产环境下不是
|
![]() |
2
zoharSoul 16 天前
并发能支持多少呀?
|
![]() |
5
tool2dx 15 天前
"最优的语音转文本"
我自己测试下来,识别率最高的是多模态的 gemini 2.5 pro. 因为是思考模型, 不能实时语音录入, 但识别率很高. |
6
chesha1 15 天前
GPT-SoVITS 疑似是有点古老了,可以看看 fish-speech 1.5 ,CosyVoice 3
|
8
cq65617875 15 天前
funasr 那个识别率……
|
9
humbass 15 天前
funasr 在开源项目里头算可以的了
只是没有找到合适的 tts ,SoVITS 是否支持 websocket ?@ momomoi |
10
w568w 15 天前
借楼问问现在识别率最高、延迟最低的本地部署语言转文字系统是什么?
|
11
hmxxmh 15 天前
gpt-sovits 是搞声音克隆比较好吧,魔搭上面 CosyVoice 比较火,也可以看看 chattts
|
![]() |
12
312ybj 15 天前
k2 whisper 也能做本地部署。asr 还要看音频前端算法,这个对 wer 的影响很大, 能看到的商用音频接口,肯定做了音频前端处理
|
![]() |
13
Aixtuz 15 天前
用过 CosyVoice2.0 的 Demo ,感觉效果挺好的。
就是多音字和断句,偶尔有点问题。 |
![]() |
14
Aixtuz 15 天前
语音转文本的话,用过通义听悟,个人用用签到送的量就差不多了。
除了人名和特殊名词以外的部分,准确率挺高了。而且比较方便点到哪、播到哪的校对。 |
15
jadeborner 15 天前
跟 minimax 比怎么样
|
16
Oats 15 天前
tts 的话 indextts 个人感觉不错
|
17
cccssss 15 天前
铜币送上,学习了
|
18
hurrytospring 15 天前
线上服务有比较好的吗
|
19
chenzi0103 15 天前
|
![]() |
20
momomoi OP @chenzi0103 好的 感谢
|
21
kamikaze472 15 天前
没人推荐飞书吗, 我一直觉得飞书很好用了
|
![]() |
22
734694671 15 天前
funasr 最近项目用了一下,生产上的实时语音识别,识别准确率 90%?总有一两个字识别不对,现在准备换线上的服务了
|
23
z4zr 15 天前
我尝试了 funasr+qwq3+indextts 这个组合 funasr 和 indextts 对资源要求都不高,速度和并发没有太大或者即时性太高的要求 是可玩的
|