阿里巴巴 CosyVoice3-0.5b 开源了! 现邀请你来体验我做的 Windows 端本地 TTS 工具 3s 音频即可复刻音色 4gb 低显存占用!

阿里巴巴昨天刚开源了 CosyVoice3 ，属实是等了好久了模型文件可以在huggingface或者modelscope上面下到

来自官方的宣传以及性能对比表格:

Fun-CosyVoice 3.0 是一个基于大型语言模型 (LLM) 的先进文本到语音 (TTS) 系统，在内容一致性、说话人相似度和韵律自然度方面超越了其前身 (CosyVoice 2.0)。它旨在实现零样本多语种野外语音合成。

语言覆盖范围: 覆盖 9 种常用语言（中文、英语、日语、韩语、德语、西班牙语、法语、意大利语、俄语），18+ 种中国方言/口音（广东、闽南、四川、东北、陕西、山西、上海、天津、山东、宁夏、甘肃等），同时支持多语种/跨语种零样本声音克隆。
内容一致性和自然度: 在内容一致性、说话人相似度和韵律自然度方面达到最先进的性能。
发音补全: 支持中文拼音和英文 CMU 音素的发音补全，提供更多的可控性，因此适用于生产使用。
文本规范化: 支持读取数字、特殊符号和各种文本格式，无需传统的前端模块。
双流式处理: 支持文本输入流和音频输出流，并在保持高质量音频输出的同时实现低至 150 毫秒的延迟。
指令支持: 支持多种指令，如语言、方言、情感、速度、音量等。

Model	Open-Source	Model Size	test-zh CER (%) ↓	test-zh Speaker Similarity (%) ↑	test-en WER (%) ↓	test-en Speaker Similarity (%) ↑	test-hard CER (%) ↓	test-hard Speaker Similarity (%) ↑
Human	-	-	1.26	75.5	2.14	73.4	-	-
Seed-TTS	❌	-	1.12	79.6	2.25	76.2	7.59	77.6
MiniMax-Speech	❌	-	0.83	78.3	1.65	69.2	-	-
F5-TTS	✅	0.3B	1.52	74.1	2.00	64.7	8.67	71.3
Spark TTS	✅	0.5B	1.2	66.0	1.98	57.3	-	-
CosyVoice2	✅	0.5B	1.45	75.7	2.57	65.9	6.83	72.4
FireRedTTS2	✅	1.5B	1.14	73.2	1.95	66.5	-	-
Index-TTS2	✅	1.5B	1.03	76.5	2.23	70.6	7.12	75.5
VibeVoice-1.5B	✅	1.5B	1.16	74.4	3.04	68.9	-	-
VibeVoice-Realtime	✅	0.5B	-	-	2.05	63.3	-	-
HiggsAudio-v2	✅	3B	1.50	74.0	2.44	67.7	-	-
VoxCPM	✅	0.5B	0.93	77.2	1.85	72.9	8.87	73.0
GLM-TTS	✅	1.5B	1.03	76.1	-	-	-	-
GLM-TTS RL	✅	1.5B	0.89	76.4	-	-	-	-
Fun-CosyVoice3-0.5B-2512	✅	0.5B	1.21	78.0	2.24	71.8	6.71	75.8
Fun-CosyVoice3-0.5B-2512_RL	✅	0.5B	0.81	77.4	1.68	69.5	5.44	75.0

看到性能表现这么好,今天就有点坐不住，在我之前原有的项目基础上升级了一波(把cosyvoice2模型升级到cosyvoice3 改了几个关键的推理用的代码)，现在已经开源放出来了。项目地址在：https://github.com/Moeary/CosyVoiceDesktop

✓ 完全本地部署，无需调用 API

✓ 支持 4 种推理模式：零样本复刻、精细控制、指令控制、语音修补(hotfix,cosyvoice3 新增)

✓ 界面简洁易用，零代码基础即可使用

✓ 支持计划任务批量生成,效果不好可以重 roll ，支持多语言文混合

✓ 国内用户可通过 ModelScope 直接下载模型

✓ 支持 CPU 运行，但有 NVIDIA 的 GPU 会更快(release 包已经内置带 pytorch+cuda 的环境了理论来说从 20 系到 50 系的支持 cuda12.8 的显卡都能跑,至于为什么选这个是因为 50 系最低的 cuda 限制是 12.8😭)

可以用于视频配音、游戏 NPC 对白、有声书制作、教程旁白等。项目还在不断完善中，欢迎各位提 Issue 和 PR ！

对了，如果觉得有用的话可以给个 Star 支持一下～