测试了几个 OCR

263 天前
 pxiphx891
今天下载了一个 DVD 视频,字幕格式为 dvd_subtitle ,字幕锯齿感严重,因此想利用 OCR 把字幕识别成文字。
于是我在 github 找到了这么一个项目: https://github.com/vincrichard/VobSub-ML-OCR ,运行之后,发现自带的 easyocr 效果不太好,所以就又找了几个 ocr 的项目测试。
这是原图:


这是使用飞桨 PP-OCRv4 的效果(测试地址: https://aistudio.baidu.com/community/app/91660/webUI ):
高效率模型方案


高精度模型方案


这是使用微信提取出来的 OCR 测试的效果(来源于 https://ex.noerr.eu.org/t/1120897 ):
"ocr_response": [
{
"bottom": 391.0640563964844,
"left": 199.8789825439453,
"rate": 0.9488778710365295,
"right": 513.5093383789062,
"text": "那麽我无论如何",
"top": 349.4739685058594
},
{
"bottom": 429.15313720703125,
"left": 220.19375610351562,
"rate": 0.9376645088195801,
"right": 492.0656433105469,
"text": "都要噌试一下",
"top": 392.0796813964844
}
]

这是使用阿里云百炼(地址: https://help.aliyun.com/zh/model-studio/models#55c81ba3ccgct )通义千问 OCR qwen-vl-ocr-latest 识别的结果:
2974 次点击
所在节点    分享发现
20 条回复
Doraemontree
263 天前
是不是繁体的不好识别
ShenZhen
263 天前
综合哪个好用?
pxiphx891
263 天前
@Lucoie 通义千问 OCR 和微信 OCR 效果都很好,飞桨不行
docx
263 天前
如果是简体呢
pxiphx891
263 天前
@docx 如果是简体,所有模型都是秒杀
ha1o
263 天前
想问下,假设识别率 100%,后续是要把原字幕完全替换一遍生成新字幕吗?那岂不是要输入加载原字幕的视频?
SakuraYuki
263 天前
苹果自带的这个好像还行
pxiphx891
263 天前
@SakuraYuki 这是什么软件?
pxiphx891
263 天前
@ha1o VobSub-ML-OCR 这个项目是可以生成 srt 的,可以了解一下
BluePadge
263 天前

Google AI Studio 中的 Gemini pro 2.5 识别结果
PRStarDust
262 天前
试了一下 RapidOCR-API ,直接跳过了繁体哈哈哈
```json
{
"0": {
"dt_boxes": [
[
206,
354
],
[
513,
355
],
[
513,
392
],
[
206,
390
]
],
"rec_txt": "那我无论如何",
"score": "0.9971"
},
"1": {
"dt_boxes": [
[
228,
394
],
[
490,
394
],
[
490,
430
],
[
228,
430
]
],
"rec_txt": "都要试一下",
"score": "0.9877"
}
}
```
rqYzyAced2NbD8fw
262 天前
要不是现在的 vision llm 无法返回每个字的坐标,传统 OCR 估计直接被淘汰了
因为就算是人眼,识别文字也要靠上下文。比方说有些人可能会把蘿蔔看成葡萄。但是如果我说,“我要用蘿蔔插你屁眼囉”,那这两个字是什么一眼就明白了
icemaple
262 天前
一直在用 abbyy
SakuraYuki
262 天前
@pxiphx891 #8 bob ,调用自带的 ocr 接口
Mar5
262 天前
现在 OCR 我都丢给 Gemini ,我儿子小学 5 年级,字很差的 400 字作文 OCR 就错了 3 个字
obeyatonce
261 天前
api 调用百度高精度 ocr 的识别结果:那麽我无论如何都要嘈试一下
zggsong
260 天前


微信 OCR 还是很好用的
lozzow
260 天前
可以尝试拆字后识别再重新合并,会有包不错的提升
iorilu
258 天前
@zggsong 这是什么项目阿, 自己部署的吗, 求分享
zggsong
257 天前

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1122600

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX