项目简介
- 目前海外的几个 TTS 产品其实都是直接调用 AWS 、微软或者 Google 的 TTS API ,11Labs 等自研的产品效果会比这些网站好一些。
- 我测试了 Google 、OpenAI 发布的基于大语言模型的 TTS 模型,效果会更好一些,语音会更加流畅且像真人。而且还支持使用自然语言来控制大模型的语气,在某些场景下表现会很不错。
- Google 、OpenAI 的模型对于中文的支持其实并不好,今天我看到 Qwen-TTS 发布了,所以我把它接进来,中文效果会比 Google 和 OpenAI 好很多。同时,中文目前还支持北京话、四川话和吴语,但吴语感觉效果一般。
- 我增加了一些 AI 功能,比如翻译。可以直接在文本框输入中文,然后翻译成目标语言(比如法语),然后进行 TTS 转化,这样子让流程更自然一些。
- 支持粤语,粤语这里目前用的是 OpenAI ,效果马马虎虎,我后面找找更好的模型接上去。
- 支持多语言同时朗读,比如可以中英混杂,英法混杂等,都是 OK 的。
- 可以调节 Vibe ,也就是语气,可以让大模型扮演海盗,或者拍卖员等等,配合上对于的文字会很有趣。因此我调用 AI 来进行文本的改写增强,使文本符合对于的 Vibe 内容。这个功能 Qwen TTS 不支持,所以中文没有上。其他语言效果还不错。
- 目前免费,因为这些 API 的费用比传统的 TTS 模型高,我可能后面会设置一个每月的免费试用额度,目前限制的最大片段为 1000 字,欢迎大家试用~
测试片段
可以使用这个片段,选择 English ,把 Vibe 调到 Autioneer ,来试试效果~
Ladies and gentlemen step right up! Woah—what a show we’ve got today! First on the block—a pristine vintage Rolex watch! Starting at $2,000—do I hear $2,500? $2,500 to the lady in red—thank you! Now $3,000—going once... twice... SOLD to the sharp-dressed man in the back! Next—hold onto your hats—a rare Picasso sketch! Opening bid $10,000—who’ll jump to $12,000? Don’t dawdle folks—this beauty won’t stick around! The crowd’s electric—let’s keep those bids rolling!
网站
https://www.ttsomni.com/
感谢感谢!