想做有声小说声音克隆, 3060Ti 能扛得住吗?

11 天前
 EasonIndie

V 友们好,最近想自己做一个 中文有声小说项目,希望呻吟自然流畅、语气生动、有停顿、笑声这些表达。 目标是 克隆自定义声音(我自己或一些受欢迎的配音),然后批量生成小说音频。


💡 我的需求大致是:

  1. 先克隆/微调一个中文声音,让声音自然、不机械。
  2. 风格希望像相声那种“说学逗唱”的语气——要能控制节奏、停顿、情绪。
  3. 后期做有声小说输出

🖥️ 当前设备配置:


🔧 初步技术路线:

我目前查下来主要有两条思路:

  1. 快速上手路线(生成类)

    • 使用 Suno Bark 或类似大模型,直接生成多情感中文语音;
    • 适合先试效果、调节 prompt 实现“相声语气”;
    • 缺点是声音不一定稳定、不可控。
  2. 高可控路线(训练类)

    • 管线:Speaker Encoder → VITS / Coqui-TTS → HiFi-GAN ;
    • 录制 20 ~ 60 分钟高质量音频做微调;
    • 目标是克隆稳定音色、能生成自然语调的中文语音;
    • 支持 prosody / style token 控制节奏语气。

计划在本地用 PyTorch + CUDA 训练/推理,显存有限的话准备上 fp16 + LoRA + 梯度累积 等优化。


❓ 想请教 V 友们:

  1. 3060 12GB 或 3060Ti 8GB 能胜任 TTS / 声音克隆任务?

    • 听说显存容量在 TTS 场景下比算力更关键,想听下大家的实测经验。
  2. 如果只做轻量微调(不从零训练),3060Ti 是否足够?

  3. 有没有人实际在本地跑过 Bark / VITS / Coqui-TTS / HiFi-GAN 这类项目?

    • 推理速度和显存占用大概怎样?
    • 有没有推荐的显存优化技巧?
  4. 对于“相声风格”的语音,有没有成熟的风格迁移或 prosody 控制方法?


✅ 目标:

能在家用机上稳定生成相声风格的有声小说音频,自己做声音模型和后期,长期迭代。


大家有做过类似声音克隆 / 本地 TTS 项目的,求分享经验和显卡选型建议 🙏

1592 次点击
所在节点    机器学习
24 条回复
Is0
11 天前
@wyd011011daniel 推荐 multitts,可以离线使用,用在线 tts 网不好的时候总是卡,这个感情没那么细腻,睡前听小说够用了。
http://t.me/MultiTTS_channel
renmu
11 天前
@EasonIndie 假设一个一百万字小说,你怎么标记?比如说现在是阴阳怪气,你的模型可以反映出来吗?
Ming5Ming
11 天前
试试 GPT-SoVITS ?
airw
11 天前
临时买算力推荐试试腾讯云的 HAI ,按小时计费,8TFLOPS 算力 16G 显存每小时 1.2 元,16TFLOPS 算力 2*16G 显存每小时 2.4 元,最高还有 30TFLOPS 算力 2*32G 显存 80G 内存的

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1164848

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX