想做有声小说声音克隆， 3060Ti 能扛得住吗？

11 天前

EasonIndie

V 友们好，最近想自己做一个 中文有声小说项目，希望呻吟自然流畅、语气生动、有停顿、笑声这些表达。目标是 克隆自定义声音（我自己或一些受欢迎的配音），然后批量生成小说音频。

💡 我的需求大致是：

先克隆/微调一个中文声音，让声音自然、不机械。
风格希望像相声那种“说学逗唱”的语气——要能控制节奏、停顿、情绪。
后期做有声小说输出

🖥️ 当前设备配置：

CPU：R5 5600G
内存：32GB DDR4
显卡：暂未购买，考虑 RTX 3060 （ 12GB ）或 RTX 3060Ti （ 8GB ）大概就是 2000 元价位的
系统：Windows / Ubuntu 都能装（开发环境可切换）

🔧 初步技术路线：

我目前查下来主要有两条思路：

快速上手路线（生成类）
- 使用 Suno Bark 或类似大模型，直接生成多情感中文语音；
- 适合先试效果、调节 prompt 实现“相声语气”；
- 缺点是声音不一定稳定、不可控。
高可控路线（训练类）
- 管线：Speaker Encoder → VITS / Coqui-TTS → HiFi-GAN ；
- 录制 20 ～ 60 分钟高质量音频做微调；
- 目标是克隆稳定音色、能生成自然语调的中文语音；
- 支持 prosody / style token 控制节奏语气。

计划在本地用 PyTorch + CUDA 训练/推理，显存有限的话准备上 fp16 + LoRA + 梯度累积 等优化。

❓ 想请教 V 友们：

3060 12GB 或 3060Ti 8GB 能胜任 TTS / 声音克隆任务？
- 听说显存容量在 TTS 场景下比算力更关键，想听下大家的实测经验。
如果只做轻量微调（不从零训练），3060Ti 是否足够？
有没有人实际在本地跑过 Bark / VITS / Coqui-TTS / HiFi-GAN 这类项目？
- 推理速度和显存占用大概怎样？
- 有没有推荐的显存优化技巧？
对于“相声风格”的语音，有没有成熟的风格迁移或 prosody 控制方法？

✅ 目标：

能在家用机上稳定生成相声风格的有声小说音频，自己做声音模型和后期，长期迭代。

大家有做过类似声音克隆 / 本地 TTS 项目的，求分享经验和显卡选型建议 🙏

1592 次点击

所在节点

24 条回复

Is0

11 天前

@wyd011011daniel 推荐 multitts,可以离线使用，用在线 tts 网不好的时候总是卡，这个感情没那么细腻，睡前听小说够用了。
http://t.me/MultiTTS_channel

renmu

11 天前

@EasonIndie 假设一个一百万字小说，你怎么标记？比如说现在是阴阳怪气，你的模型可以反映出来吗？

Ming5Ming

11 天前

试试 GPT-SoVITS ？

airw

11 天前

临时买算力推荐试试腾讯云的 HAI ，按小时计费，8TFLOPS 算力 16G 显存每小时 1.2 元，16TFLOPS 算力 2*16G 显存每小时 2.4 元，最高还有 30TFLOPS 算力 2*32G 显存 80G 内存的

第 2 页／共 2 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1164848

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX