V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
heimoshuiyu
V2EX  ›  分享创造

偶尔有转录和翻译字幕的需求,于是写了个 使用 ffmpeg(wasm) + whisper 语音转文字 + 大模型翻译字幕的 *网页工具

  •  
  •   heimoshuiyu · 23 天前 · 1115 次点击
    起因是偶尔需要帮同事转录字幕,或者自己看一些没有字幕的电影想要高质量的双语字幕。

    网上转了一圈基本都是需要安装客户端,下载模型。我想这是发个 API 就能解决的事情,网页就能做吧。于是写了个网页。并且加入了 ffmpeg(wasm),提前把媒体转录成 16kHZ 单声道 opus 格式,降低网络传输压力。

    后面发现自己想要使用大模型翻译字幕,网上转了一圈发现大部分是使用 LLM 一句一句翻译,完全没有利用到 LLM 结合上下文语境做翻译的优势。于是自己实现了一版,一次翻译 10 条字幕。

    前端部署在 vercel 了 https://whisper-web-one.vercel.app/
    前端代码开源在 https://github.com/heimoshuiyu/whisper-web
    后端是自建的 https://github.com/heimoshuiyu/whisper-fastapi 在 4060ti 上使用 large-v2 模型,或者使用其他任何兼容 OpenAI API whisper 格式的后端都可以

    显卡闲着也是闲着免费提供给有需要的朋友使用,不过我还在能不能靠这个赚点零食钱,如果有需要稳定 API 或者自建需要技术支持的可以联系我 wx hmsy39
    5 条回复    2025-06-23 09:36:42 +08:00
    shoaly
        1
    shoaly  
       23 天前
    这个是要把整个电影传上去吗?
    heimoshuiyu
        2
    heimoshuiyu  
    OP
       23 天前 via Android
    @shoaly 如果你选择了整个电影的话,那么它会在本地调用 FFMPEG,先把电影转换成很小的音频,然后再上传到 API 。
    shoaly
        3
    shoaly  
       23 天前
    感觉这玩意应该是一个本地项目才对, 不然通过网页传一个 2g 的电影 属实有点浪费时间和资源了.
    heimoshuiyu
        4
    heimoshuiyu  
    OP
       23 天前
    @shoaly 会先通过本地 ffmpeg.wasm 压成大约 50m 的音频( 2 个小时)再上传的啦
    340746
        5
    340746  
       22 天前 via Android   ❤️ 1
    可以再加一个用 uvr5 去除背景音,提高识别准确度
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2936 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 14:02 · PVG 22:02 · LAX 07:02 · JFK 10:02
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.