偶尔有转录和翻译字幕的需求,于是写了个 使用 ffmpeg(wasm) + whisper 语音转文字 + 大模型翻译字幕的 *网页工具

23 天前
 heimoshuiyu
起因是偶尔需要帮同事转录字幕,或者自己看一些没有字幕的电影想要高质量的双语字幕。

网上转了一圈基本都是需要安装客户端,下载模型。我想这是发个 API 就能解决的事情,网页就能做吧。于是写了个网页。并且加入了 ffmpeg(wasm),提前把媒体转录成 16kHZ 单声道 opus 格式,降低网络传输压力。

后面发现自己想要使用大模型翻译字幕,网上转了一圈发现大部分是使用 LLM 一句一句翻译,完全没有利用到 LLM 结合上下文语境做翻译的优势。于是自己实现了一版,一次翻译 10 条字幕。

前端部署在 vercel 了 https://whisper-web-one.vercel.app/
前端代码开源在 https://github.com/heimoshuiyu/whisper-web
后端是自建的 https://github.com/heimoshuiyu/whisper-fastapi 在 4060ti 上使用 large-v2 模型,或者使用其他任何兼容 OpenAI API whisper 格式的后端都可以

显卡闲着也是闲着免费提供给有需要的朋友使用,不过我还在能不能靠这个赚点零食钱,如果有需要稳定 API 或者自建需要技术支持的可以联系我 wx hmsy39
1119 次点击
所在节点    分享创造
5 条回复
shoaly
23 天前
这个是要把整个电影传上去吗?
heimoshuiyu
23 天前
@shoaly 如果你选择了整个电影的话,那么它会在本地调用 FFMPEG,先把电影转换成很小的音频,然后再上传到 API 。
shoaly
23 天前
感觉这玩意应该是一个本地项目才对, 不然通过网页传一个 2g 的电影 属实有点浪费时间和资源了.
heimoshuiyu
23 天前
@shoaly 会先通过本地 ffmpeg.wasm 压成大约 50m 的音频( 2 个小时)再上传的啦
340746
22 天前
可以再加一个用 uvr5 去除背景音,提高识别准确度

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1140284

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX