V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
pengxu980315
V2EX  ›  分享创造

做了一个基于大语言模型的语音转文字工具,中文用刚发布的 Qwen-TTS

  •  
  •   pengxu980315 · 1 天前 · 423 次点击

    项目简介

    • 目前海外的几个 TTS 产品其实都是直接调用 AWS 、微软或者 Google 的 TTS API ,11Labs 等自研的产品效果会比这些网站好一些。
    • 我测试了 Google 、OpenAI 发布的基于大语言模型的 TTS 模型,效果会更好一些,语音会更加流畅且像真人。而且还支持使用自然语言来控制大模型的语气,在某些场景下表现会很不错。
    • Google 、OpenAI 的模型对于中文的支持其实并不好,今天我看到 Qwen-TTS 发布了,所以我把它接进来,中文效果会比 Google 和 OpenAI 好很多。同时,中文目前还支持北京话、四川话和吴语,但吴语感觉效果一般。
    • 我增加了一些 AI 功能,比如翻译。可以直接在文本框输入中文,然后翻译成目标语言(比如法语),然后进行 TTS 转化,这样子让流程更自然一些。
    • 支持粤语,粤语这里目前用的是 OpenAI ,效果马马虎虎,我后面找找更好的模型接上去。
    • 支持多语言同时朗读,比如可以中英混杂,英法混杂等,都是 OK 的。
    • 可以调节 Vibe ,也就是语气,可以让大模型扮演海盗,或者拍卖员等等,配合上对于的文字会很有趣。因此我调用 AI 来进行文本的改写增强,使文本符合对于的 Vibe 内容。这个功能 Qwen TTS 不支持,所以中文没有上。其他语言效果还不错。
    • 目前免费,因为这些 API 的费用比传统的 TTS 模型高,我可能后面会设置一个每月的免费试用额度,目前限制的最大片段为 1000 字,欢迎大家试用~

    测试片段

    可以使用这个片段,选择 English ,把 Vibe 调到 Autioneer ,来试试效果~

    Ladies and gentlemen step right up! Woah—what a show we’ve got today! First on the block—a pristine vintage Rolex watch! Starting at $2,000—do I hear $2,500? $2,500 to the lady in red—thank you! Now $3,000—going once... twice... SOLD to the sharp-dressed man in the back! Next—hold onto your hats—a rare Picasso sketch! Opening bid $10,000—who’ll jump to $12,000? Don’t dawdle folks—this beauty won’t stick around! The crowd’s electric—let’s keep those bids rolling!
    

    网站

    https://www.ttsomni.com/

    感谢感谢!

    目前尚无回复
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   834 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 20:53 · PVG 04:53 · LAX 13:53 · JFK 16:53
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.