我做了一个能“演戏”的 AI 阅读器，支持多角色情感配音 + 自动生成人物关系图，求 V 友狠喷/建议

Hi V2EX 的朋友们，

我是 CastReader 的独立开发者。今天想向大家介绍一下我最近折腾的一个产品，顺便求一波内测反馈。

为什么做这个？(The Why) 我自己是个重度播客和有声书用户，但一直有个痛点：现有的 TTS （文本转语音）工具要么声音太机械（听久了想睡），要么就是单纯的“朗读”，没有任何画面感。特别是读一些大部头小说（比如《三体》或《冰与火之歌》）或者复杂的 PDF 文档时，听着听着就容易走神，而且经常搞不清“这句话是谁说的”或者“这人是谁”。

于是我就想：能不能用 LLM 把书“重构”一下，让它不仅能被“听”，还能被“看”？

CastReader 是什么？(The What) 简单来说，它是一个可视化的 AI 阅读器。网址： https://castreader.ai (无需绑卡，Web 端直接可用)

它和传统 TTS 的区别在于：

🎭 它是“演”出来的：不是单纯的音频流，而是会生成带有动画人物的视频。你可以看到角色在屏幕上对口型“说话”，增强沉浸感。

🗣️ 智能分角 (Speaker Diarization)：利用 LLM 分析上下文，识别当前是谁在说话，并自动分配符合人设的声音（比如给反派分配低沉的嗓音，给主角分配激昂的嗓音）。

🕸️ 自动人物关系图 (Entity Extraction)：（这是我个人最喜欢的功能）读长篇小说时，AI 会实时分析并生成人物关系图谱。再也不用担心读到一半忘记“这人是谁的二大爷”了。

技术实现 (The How)目前后端主要用了 [Python/Next.js]主要还是用 vibe coding ，通过 LLM 做文本的语义分析和实体提取，然后对接了 kokoro 的语音生成的 pipeline ，最后通过 banana pro 渲染动画层。目前的难点主要在于由文字转动画的口型同步率，还在持续优化中。
现状与不足目前产品还是 MVP 阶段：

动画的流畅度可能还不够完美。

有时候 LLM 对情绪的判断会有点偏差。

目前主要支持 PDF 和 EPUB 。

非常期待大家的反馈，无论是由于 Bug 还是对功能的吐槽，我都照单全收！感谢！🙏