V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
momomoi
V2EX  ›  程序员

现阶段最优的语音转文本,文本转语音的方案是不是这两个呀

  •  
  •   momomoi · 16 天前 · 2661 次点击

    GPT-SoVITS + FunASR 本地化部署、支持中英文、调研了下 最优组合了吧

    23 条回复    2025-07-17 09:02:11 +08:00
    tommyshelbyV2
        1
    tommyshelbyV2  
       16 天前
    生产环境下不是
    zoharSoul
        2
    zoharSoul  
       16 天前
    并发能支持多少呀?
    momomoi
        3
    momomoi  
    OP
       15 天前
    @zoharSoul 我在确认最优方案啊
    zoharSoul
        4
    zoharSoul  
       15 天前
    @momomoi #3 我就是问问这个方案性能怎么样呀
    tool2dx
        5
    tool2dx  
       15 天前
    "最优的语音转文本"

    我自己测试下来,识别率最高的是多模态的 gemini 2.5 pro. 因为是思考模型, 不能实时语音录入, 但识别率很高.
    chesha1
        6
    chesha1  
       15 天前
    GPT-SoVITS 疑似是有点古老了,可以看看 fish-speech 1.5 ,CosyVoice 3
    Suinn
        7
    Suinn  
       15 天前
    @chesha1 CosyVoice 3 好像还没开源┭┮﹏┭┮
    cq65617875
        8
    cq65617875  
       15 天前
    funasr 那个识别率……
    humbass
        9
    humbass  
       15 天前
    funasr 在开源项目里头算可以的了
    只是没有找到合适的 tts ,SoVITS 是否支持 websocket ?@ momomoi
    w568w
        10
    w568w  
       15 天前
    借楼问问现在识别率最高、延迟最低的本地部署语言转文字系统是什么?
    hmxxmh
        11
    hmxxmh  
       15 天前
    gpt-sovits 是搞声音克隆比较好吧,魔搭上面 CosyVoice 比较火,也可以看看 chattts
    312ybj
        12
    312ybj  
       15 天前
    k2 whisper 也能做本地部署。asr 还要看音频前端算法,这个对 wer 的影响很大, 能看到的商用音频接口,肯定做了音频前端处理
    Aixtuz
        13
    Aixtuz  
       15 天前
    用过 CosyVoice2.0 的 Demo ,感觉效果挺好的。
    就是多音字和断句,偶尔有点问题。
    Aixtuz
        14
    Aixtuz  
       15 天前
    语音转文本的话,用过通义听悟,个人用用签到送的量就差不多了。
    除了人名和特殊名词以外的部分,准确率挺高了。而且比较方便点到哪、播到哪的校对。
    jadeborner
        15
    jadeborner  
       15 天前
    跟 minimax 比怎么样
    Oats
        16
    Oats  
       15 天前
    tts 的话 indextts 个人感觉不错
    cccssss
        17
    cccssss  
       15 天前
    铜币送上,学习了
    hurrytospring
        18
    hurrytospring  
       15 天前
    线上服务有比较好的吗
    chenzi0103
        19
    chenzi0103  
       15 天前
    可以看下我写的 实现了你说的 而且识别率和播放都还可以
    https://github.com/chengzi0103/SoulSpeak

    用的是 funasr + cosyvoice2
    momomoi
        20
    momomoi  
    OP
       15 天前
    @chenzi0103 好的 感谢
    kamikaze472
        21
    kamikaze472  
       15 天前
    没人推荐飞书吗, 我一直觉得飞书很好用了
    734694671
        22
    734694671  
       15 天前
    funasr 最近项目用了一下,生产上的实时语音识别,识别准确率 90%?总有一两个字识别不对,现在准备换线上的服务了
    z4zr
        23
    z4zr  
       15 天前
    我尝试了 funasr+qwq3+indextts 这个组合 funasr 和 indextts 对资源要求都不高,速度和并发没有太大或者即时性太高的要求 是可玩的
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5454 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 03:00 · PVG 11:00 · LAX 20:00 · JFK 23:00
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.