我做了一个能“演戏”的 AI 阅读器,支持多角色情感配音 + 自动生成人物关系图,求 V 友狠喷/建议

14 天前
 vinxu

Hi V2EX 的朋友们,

我是 CastReader 的独立开发者。今天想向大家介绍一下我最近折腾的一个产品,顺便求一波内测反馈。

  1. 为什么做这个?(The Why) 我自己是个重度播客和有声书用户,但一直有个痛点:现有的 TTS (文本转语音)工具要么声音太机械(听久了想睡),要么就是单纯的“朗读”,没有任何画面感。 特别是读一些大部头小说(比如《三体》或《冰与火之歌》)或者复杂的 PDF 文档时,听着听着就容易走神,而且经常搞不清“这句话是谁说的”或者“这人是谁”。

于是我就想:能不能用 LLM 把书“重构”一下,让它不仅能被“听”,还能被“看”?

  1. CastReader 是什么?(The What) 简单来说,它是一个可视化的 AI 阅读器。 网址: https://castreader.ai (无需绑卡,Web 端直接可用)

它和传统 TTS 的区别在于:

🎭 它是“演”出来的: 不是单纯的音频流,而是会生成带有动画人物的视频。你可以看到角色在屏幕上对口型“说话”,增强沉浸感。

🗣️ 智能分角 (Speaker Diarization): 利用 LLM 分析上下文,识别当前是谁在说话,并自动分配符合人设的声音(比如给反派分配低沉的嗓音,给主角分配激昂的嗓音)。

🕸️ 自动人物关系图 (Entity Extraction): (这是我个人最喜欢的功能) 读长篇小说时,AI 会实时分析并生成人物关系图谱。再也不用担心读到一半忘记“这人是谁的二大爷”了。

  1. 技术实现 (The How)目前后端主要用了 [Python/Next.js]主要还是用 vibe coding ,通过 LLM 做文本的语义分析和实体提取,然后对接了 kokoro 的语音生成的 pipeline ,最后通过 banana pro 渲染动画层。 目前的难点主要在于由文字转动画的口型同步率,还在持续优化中。

  2. 现状与不足 目前产品还是 MVP 阶段:

动画的流畅度可能还不够完美。

有时候 LLM 对情绪的判断会有点偏差。

目前主要支持 PDF 和 EPUB 。

非常期待大家的反馈,无论是由于 Bug 还是对功能的吐槽,我都照单全收! 感谢!🙏

1013 次点击
所在节点    分享创造
2 条回复
greatghoul
14 天前
看起来很酷,之前在番茄小说体验过类似的。
pheyer
13 天前
有点意思,支持英语小说吗?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1176486

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX