V 友们好,最近想自己做一个 中文有声小说项目,希望呻吟自然流畅、语气生动、有停顿、笑声这些表达。 目标是 克隆自定义声音(我自己或一些受欢迎的配音),然后批量生成小说音频。
我目前查下来主要有两条思路:
快速上手路线(生成类)
高可控路线(训练类)
计划在本地用 PyTorch + CUDA 训练/推理,显存有限的话准备上 fp16 + LoRA + 梯度累积 等优化。
3060 12GB 或 3060Ti 8GB 能胜任 TTS / 声音克隆任务?
如果只做轻量微调(不从零训练),3060Ti 是否足够?
有没有人实际在本地跑过 Bark / VITS / Coqui-TTS / HiFi-GAN 这类项目?
对于“相声风格”的语音,有没有成熟的风格迁移或 prosody 控制方法?
能在家用机上稳定生成相声风格的有声小说音频,自己做声音模型和后期,长期迭代。
大家有做过类似声音克隆 / 本地 TTS 项目的,求分享经验和显卡选型建议 🙏
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.