阿里巴巴 CosyVoice3-0.5b 开源了! 现邀请你来体验我做的 Windows 端本地 TTS 工具 3s 音频即可复刻音色 4gb 低显存占用!

3 天前
 Moear

阿里巴巴昨天刚开源了 CosyVoice3 ,属实是等了好久了 模型文件可以在huggingface或者modelscope上面下到

来自官方的宣传以及性能对比表格:

Fun-CosyVoice 3.0 是一个基于大型语言模型 (LLM) 的先进文本到语音 (TTS) 系统,在内容一致性、说话人相似度和韵律自然度方面超越了其前身 (CosyVoice 2.0)。它旨在实现零样本多语种野外语音合成。

主要特点

性能表格

Model Open-Source Model Size test-zh
CER (%) ↓
test-zh
Speaker Similarity (%) ↑
test-en
WER (%) ↓
test-en
Speaker Similarity (%) ↑
test-hard
CER (%) ↓
test-hard
Speaker Similarity (%) ↑
Human - - 1.26 75.5 2.14 73.4 - -
Seed-TTS - 1.12 79.6 2.25 76.2 7.59 77.6
MiniMax-Speech - 0.83 78.3 1.65 69.2 - -
F5-TTS 0.3B 1.52 74.1 2.00 64.7 8.67 71.3
Spark TTS 0.5B 1.2 66.0 1.98 57.3 - -
CosyVoice2 0.5B 1.45 75.7 2.57 65.9 6.83 72.4
FireRedTTS2 1.5B 1.14 73.2 1.95 66.5 - -
Index-TTS2 1.5B 1.03 76.5 2.23 70.6 7.12 75.5
VibeVoice-1.5B 1.5B 1.16 74.4 3.04 68.9 - -
VibeVoice-Realtime 0.5B - - 2.05 63.3 - -
HiggsAudio-v2 3B 1.50 74.0 2.44 67.7 - -
VoxCPM 0.5B 0.93 77.2 1.85 72.9 8.87 73.0
GLM-TTS 1.5B 1.03 76.1 - - - -
GLM-TTS RL 1.5B 0.89 76.4 - - - -
Fun-CosyVoice3-0.5B-2512 0.5B 1.21 78.0 2.24 71.8 6.71 75.8
Fun-CosyVoice3-0.5B-2512_RL 0.5B 0.81 77.4 1.68 69.5 5.44 75.0

看到性能表现这么好,今天就有点坐不住,在我之前原有的项目基础上升级了一波(把cosyvoice2模型升级到cosyvoice3 改了几个关键的推理用的代码),现在已经开源放出来了。项目地址在:https://github.com/Moeary/CosyVoiceDesktop

本项目的主要特性

✓ 完全本地部署,无需调用 API

✓ 支持 4 种推理模式:零样本复刻、精细控制、指令控制、语音修补(hotfix,cosyvoice3 新增)

✓ 界面简洁易用,零代码基础即可使用

✓ 支持计划任务批量生成,效果不好可以重 roll ,支持多语言文混合

✓ 国内用户可通过 ModelScope 直接下载模型

✓ 支持 CPU 运行,但有 NVIDIA 的 GPU 会更快(release 包已经内置带 pytorch+cuda 的环境了 理论来说从 20 系到 50 系的支持 cuda12.8 的显卡都能跑,至于为什么选这个是因为 50 系最低的 cuda 限制是 12.8😭)

本项目快速开始

  1. 下载 Release 包
  2. 双击 download_all_models.bat 自动下载模型(国内推荐 ModelScope 源)
  3. 运行 main.py 或双击 StartCosyVoice.bat
  4. 选择参考音频界面配置一下保存音频设置 → 输入文本 → 点击生成

本项目应用场景

可以用于视频配音、游戏 NPC 对白、有声书制作、教程旁白等。 项目还在不断完善中,欢迎各位提 Issue 和 PR !

对了,如果觉得有用的话可以给个 Star 支持一下~

1365 次点击
所在节点    分享创造
28 条回复
01802
3 天前
晚上回去试试看
root71370
3 天前
有没有好用的语音提取字幕的好用仓库呀
Moear
3 天前
@root71370 可以考虑一下[FunASR]( https://github.com/modelscope/FunASR) 里面带了很多 asr 模型可以直接导入使用,正好昨天新出了一个 FunASR nano 模型来着 做中文识别很不错,可惜暂时还不支持时间戳功能
noming
3 天前
怎么使用方言?是要自己找方言的示例文件然后放到 asset 文件夹后使用吗?
Moear
3 天前
@noming 不用找额外的示例文件 只需要使用指令模式 然后在后面的指令文本框里面输入使用方言(四川话 粤语 东北话之类的)就能输出方言了
Bantes
3 天前
没使用场景,只能自娱自乐了
Frankcox
3 天前
请问有比较简单的微调处理界面工具吗?我一直用 GPT-Sovits 就是因为他的微调比较简单,Zero-Shot 效果一般,我手头有几个小时的音源,想要微调下。
noming
3 天前
参考文本和参考音频必须要填吗?
Moear
3 天前
@noming 零样本复刻模式/修复模式下必须要填参考文本+参考音频(参考文本一定得是参考音频的完整文字部分) 指令模式/精细控制下必须要填参考音频
Moear
3 天前
@Frankcox 不知道 建议问问别人 gptsovits 没咋用过
Moear
3 天前
@Bantes 仁者见仁智者见智 可能是你对 tts 不感兴趣吧
noming
3 天前
谢谢!
Frankcox
3 天前
@Moear #10 我的意思是像 GPT-Sovits 一样,CosyVoice 有没有一个友好的微调界面。。。我记得上次看 CosyVoice 还要改代码。。。
avrillavigne
3 天前
不错
Moear
2 天前
@Frankcox 官方的暂时没有😂他只给了一个训练的 train.py 脚本,就是得自己改代码了
Xhack
2 天前
有没有 生成 Moss 的声音
MindMindMax
2 天前
求教 op ,本地部署的显卡是啥?速度怎样?
linstrong
2 天前
喜欢这种一键使用的,回去试试
Moear
2 天前
@Xhack 可以自行找一段 Moss 的 3s 到 10s 的无底噪的音频截取下来,来源可以是在 b 站搜一下[ [流浪地球①] MOSS/550W 语录/语音集 (自存)] 作为参考音频推理使用 现在的 tts 模型基本都支持了这种无训练方式复刻音色的功能了
Moear
2 天前
@MindMindMax 我自己的显卡是 4070m(笔记本 当做 4060ti 8gb 版本就行了) rtf(Real-Time Factor ,实时因子)大致在 0.8~1.6(越低越好 说明推理数值越快 rtf 是 1 的话就说明显卡花 1s 的算力可以推理出 1s 的音频来) 纯靠 cpu 的话我用 q1hy(13900hk es)的 rtf 大概是 10,30s 时间能推理出 3s 的音频来

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1179310

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX