低成本 tts 方案

自己折腾个小工具, 需要克隆音色生成语音 tts(text-to-speech),主要要求:
1. 推理时间尽量实时(100 字符/10s)
2. 多音色支持
目前直接使用火山或者腾讯云的大模型,单个音色费用太贵了(>50),自己搭建 GPU 服务器也很贵(16G T4 约 1000/月),实时性也不太好
有没有比较低成本的方案推荐?

AoEiuV020JP

4 天前

你到底是要克隆音色还是要 tts ？
tts 最低成本的应该就是直接调用系统的 tts ，
克隆音色需要 AI 算力，就没有便宜的，一个小工具搞什么克隆音色，

8820670

4 天前

#3 说的对调用系统 TTS 是最方便的。
前段时间才做过： https://ex.noerr.eu.org/t/1153662#reply0
不过移动端支持其实挺一般的，具体得自己试试

8820670

4 天前

@8820670 另外就是 edge 浏览器有一套在线的 tts 有不少 github 开源的库可以直接调用。但是这种不一定能非常长期的使用。
搜 edge_tts

yulon

4 天前

我是 Mac mini 4 当副机，跑 GPT-SoVITS ，也就 3G 显存左右吧，看你要不要并行，并行还会多一点

chengz

4 天前

@AoEiuV020JP @8820670 我没说清楚,是自定义音色的 tts, 单纯 tts 是很便宜

chengz

4 天前

@AoEiuV020JP 自定义音色的 tts, 单纯 tts 是很便宜

Leon6868

4 天前

fish speech 、cosyvioce （ vllm ），本地部署，3060

glouhao

4 天前

我的显卡是 A770 16g 然后调整不好一直是 cpu

zenghx

4 天前

[VibeVoice 实现 90 分钟、多角色播客生成，拓展语音合成新边界]( https://www.microsoft.com/en-us/research/articles/vibevoice/) 这个怎么样

aishellphy

4 天前

用 f5-tts ，在 windows 电脑上跑，自带加速引擎，速度特别香

yulon

4 天前

@zenghx VibeVoice 听说显存要占十多 G ，没有音色，当普通 TTS 用，成本也太高了，适合公司用吧

jackOff

4 天前

买个有 4G 显存 3050 显卡的二手笔记本，基本上可以稳定高效跑 GPT-SoVITS

realJamespond

4 天前

配置最简单是 indextts,1066 batch2 能跑两章小说 batch3 一章，多音字直接拼音替换

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1155710

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.