开源一个使用 gemini-pro 解析抖音视频内容并转文字的一个小东西

2024-01-11 09:33:06 +08:00
 xyy003

开源地址:https://github.com/disingn/cliptalk 支持:

由于没啥时间,就没写 web 界面,后续有时间会完成 web 界面,以及兼容 gpt4v 和更多的视频平台

ps:本人菜鸡,水平有限,大佬勿喷!

3207 次点击
所在节点    分享创造
21 条回复
taxue67marx
2024-01-11 09:43:01 +08:00
不错啊,写个小程序调用你写的接口,有空试试
simo
2024-01-11 10:10:54 +08:00
赞一个
不过,抖音接口那个,bogus 一直固定就行?
tool2d
2024-01-11 10:13:28 +08:00
看了源代码,表示脑洞很大。新知识又增加了。
xyy003
2024-01-11 10:35:26 +08:00
@taxue67marx 好 写的比较水
xyy003
2024-01-11 10:35:58 +08:00
@tool2d 之前有个外国的博主使用 4v 来分析视频 跟风尝试了一下
xyy003
2024-01-11 10:36:55 +08:00
@simo 不知道后面变不变 抖音去水印那部分是我 copy 别人的
unco020511
2024-01-11 11:36:14 +08:00
star 了.视频转文本是啥意思,是指总结视频内容吗,还是指视频中语音识别自动添加字幕
xinyana
2024-01-11 12:42:55 +08:00
@unco020511 看了源码,根据视频截图分析内容,非常好的思路!
xyy003
2024-01-11 12:51:50 +08:00
@unco020511 截取视频帧然后使用 gemini-pro-vision 进行识别分析内容,最后使用 gemini-pro 整理整个视频的内容
mjchow
2024-01-11 14:27:20 +08:00
这个是截取了视频部分 jpeg 图片来进行分析,如果图片少的话是不是分析会不大准确? 不过确实是挺好的思路,厉害!
xyy003
2024-01-11 14:41:21 +08:00
@mjchow 大致的效果还可以,可以把切片再细致一点 现在我是 5s 截取一次
kylebing
2024-01-11 15:14:37 +08:00
你头像是个什么玩意,看着挺有意思的。
xyy003
2024-01-11 15:20:03 +08:00
@kylebing v2 的吗 ai 生成的一个机器人骷髅头
kylebing
2024-01-11 15:24:39 +08:00
@xyy003 啊,我以为是一个数码产品的外观图。
xyy003
2024-01-11 15:25:53 +08:00
@kylebing 哈哈哈哈
dada88xyxy
2024-01-12 11:34:47 +08:00
我一直想搞一个,用 ai 来读短视频,然后做一个网页,把短视频里面的文字抽出来,放在网页上面,页面的底部就可以跳转到原视频。痛点是解决搜索问题,很多时候其实视频里面有谈到我想要的关键词,但是无奈视频搜不精确,如果把视频的文字都抽出来,应该可以
xyy003
2024-01-12 13:20:17 +08:00
@dada88xyxy 把音频提取出来,然后转录。后面我写个对应的接口好了
Hozoy
2024-01-12 15:05:33 +08:00
如果抽帧识别的话,感觉会不太准确,同类的通义听悟是先把视频转文字,再从文字提取信息总结。。我感觉两个结合起来效果会更好
xyy003
2024-01-13 08:13:27 +08:00
@Hozoy 可以 这个会加上
xyy003
2024-01-13 08:13:56 +08:00
@Hozoy 一开始是针对那种只有画面的视频 哈哈哈哈哈

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1007696

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX