英语文本音频按句自动对齐的有推荐的吗?

139 天前
 afkool
有清晰的发音音频 + 对应的文本
用 fastwhisper 。他是自动生成文本的,有些许错误。
用了个 gentle ,但是他是以单词为基准对齐的。
有没有什么库可以自动切分句子,然后对齐?类似歌词那种。
1324 次点击
所在节点    Local LLM
8 条回复
halliday
139 天前
Google speech to text api 可以
NoOneNoBody
139 天前
github 有语音 to 字幕生成的,你搜字幕相关
panhongx
139 天前
试过 whisper.cpp 的 large-v3-turbo 模型,自动按句切分效果很好。
bigtear
139 天前
whisperx 甚至能按单词对齐,你可以试试,它用的也是一个专门的模型
afkool
139 天前
@panhongx 这个能用我提供的文本吗?我看了下文档并问了下 ai,他好像是自己生成文本的。我担心生成的某些单词不太对。(毕竟我已经有文本了,就不需要机器自动识别了)
barnetime
136 天前
我也有这个需求, 自己写了个页面 https://repeat-reading-explorer.pages.dev/
afkool
135 天前
@barnetime 这个是自动识别的还是用的自己的文本?这个声音还可以。是开源模型还是第三方呢?
barnetime
135 天前
文本是识别的, 音频是出版社网站下载的

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1129580

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX