低成本 tts 方案

5 天前
 chengz
自己折腾个小工具, 需要克隆音色生成语音 tts(text-to-speech),主要要求:
1. 推理时间尽量实时(100 字符/10s)
2. 多音色支持
目前直接使用火山或者腾讯云的大模型,单个音色费用太贵了(>50),自己搭建 GPU 服务器也很贵(16G T4 约 1000/月),实时性也不太好
有没有比较低成本的方案推荐?
3719 次点击
所在节点    程序员
34 条回复
yianing
4 天前
minimax 一个音色 10 块钱,合成声音的话 4 元/1w 汉字
TQQQ
4 天前
StyleTTS+Vocos ,开源的非自回归模型,可以直接部署在 cpu 服务器上,4090 上训练大概要一周左右。但是年头有点久了,效果比不上 cosyvoice/indextts 这些
bigtear
4 天前
微调 Kokoro TTS 吧,满足你的需求,速度快,可自定义音色(微调音色 pt 文件)
Huelse
4 天前
tcper
4 天前
自己搭完就会发现还是云服务便宜
looveh
4 天前
怎么没有 index-tts
looveh
4 天前
@looveh RTX 3090 实测 120 字不到 20s
pipi32167
4 天前
同推荐 minimax ,效果可以的。价格也不贵。
pipi32167
4 天前
@bigtear 之前 Kokoro 放出来的中文一言难尽。。。不过能微调 Kokoro 的话确实又快又好。
DefoliationM
4 天前
chrome 自带的不要钱,直接用 js 的 api 。
bigtear
4 天前
@pipi32167 #29 你用 1.1 新版的,很不错了已经,达到了 edge tts 的水平
cwcc
4 天前
我直接用 macOS 自带的个人声音生成自己的声音,也够用了。
yulon
4 天前
楼上那么多说 minimax ,早上试了下刚用几次就 504 了,没绷住
RobinHuuu
3 天前
试过手机 app/安卓端,可下载和使用离线模型,效果还行

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1155710

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX