这样是否可以保证 OCR 识别率接近百分之 100

95 天前
 Suinn

受前段时间看过的一篇帖子启发,同时用 ocr 和视觉大模型进行识别,结果相同的才输出,输出质量感觉会非常高,缺陷是可能存在没输出的情况

8653 次点击
所在节点    程序员
48 条回复
AutumnVerse
95 天前
这不就是多源对比纠错吗?

完整方案应该是这样的,3 个源 ocr 对比,如果有 2 个源一样,就直接取用,3 个全都不一样,丢给大模型或人工纠错。

纠错结果丢给 ocr 模型二次训练
MIUIOS
95 天前
我遇到你这个问题,我的做法是 OCR 出来后丢给 llm 大模型去修复
malusama
95 天前
直接 ocr 丢给 LLM 修复呗。 你这样一致的能有多少,准确率上去了不得看看能召回多少吗?
你这都没有多少是输出一致的吧
AutumnVerse
95 天前
@Julaoshi 不可能,机器学习网络参数是固定的,无论你什么尺寸,前向传播前都会 resize 成固定尺寸

你觉得识别率高了仅仅是插针拉伸裁剪之类的算法导致识别结果不一样了而已,从算法原理上放大不可能影响识别率
Insolitude
95 天前
调用过 Google 的 ai ocr 的接口,效果感觉还不如本地的 ocr ,,可能手写体 ai 会更好点。让 llm 优化传统 ocr 的结果,感觉是个不错的思路。目前我用的本地 ocr 主要就中文的标点会识别成英文标点的问题,发给 llm 很容易解决。
Folder
95 天前
@Julaoshi 模型目标尺寸训练时定死了. 即使是动态 shape, 但同样的设置下模型接收的输入尺寸就是一样的.
8355
95 天前
@Suinn #2 那如果是这样的话,大模型产生幻觉了导致大模型返回的错误值,此时安业务逻辑无法识别了那怎么处理?
canteon
95 天前
人工校对
tusj
95 天前
先 OCR 识别生成文本结果,再大模型对文本纠正一下低级错误。这样组合怎样?
IlIl
95 天前
月薪 3000 招个大学生人工识别
kingofzihua
95 天前
@hccsoul326 你这个最靠谱
AlexBob
95 天前
100% 目前任何的技术方案都实现不了。能上 90%已经优秀了。专门场景识别的,特定数据训练能达到 99%往上
cvooc
95 天前
很久之前研究过 ocr, 然后自己训练. 是个金融项目反爬很厉害, 让 OCR 识别, 只识别数字然后导入到"老板自己的秘密算法"里出结果, 结果 OCR 不是很理想正确率 97/98 左右速度也慢, 完了老板还是不满意, 因为金融项目数字很多人工校对很麻烦, 折腾了快三月, 图片二值化,图在切碎些全全搞了, 最后切成了一个数字一张几 B 的图片.

在看之前编写的一堆规则把图片都切的细碎了, 一咬牙一跺脚,把所有图片的数字像素转成了字符串硬编码(类似 X 黑 X 白 X 黑 X 白这种字符串), 然后花了两天跑了下数据看有没有遗漏的没记下的像素组成, 结果识别率 100%(因为没走 OCR 直接比字符串). 速度还快以前转 OCR 一张小图 2~3 秒,现在 30 张图 2~3 秒.

这应该也算"要么识别准"的一种方案了,不过只适合固定来源的数字识别.
Suinn
95 天前
@billbob 目前这个方案虽然无限降低了召回率,但几乎也过滤了所有假阳性的情况,现在比较头疼的点确实在于没法论证能达到百分百的准确率,直觉上来说总感觉就是无限逼近 100%😂
Suinn
95 天前
@retrocode o(* ̄▽ ̄*)ブ感谢分享,这个思路确实很新颖
showonder
95 天前
你这不如多换几个技术路线不同的 OCR ,效率更高还更便宜
Suinn
95 天前
@showonder 其实还是不太一样,说到底 ocr 本质基本是特征提取+分类,但 vlm 是有语义空间的,这种融合的说服力其实比单纯 ocr 的叠加要强上不少
kinkin666
95 天前
要不试试先 ocr ,再连图带字(甚至可以包含文字流的坐标位置)一起给多模态的大模型归纳一下,
ocr 效率可能高,但是归纳能力不大好吧,大模型可以直接把扫出来的东西归纳成结构化数据(几级标题、表格列表、水印页码都能识别出来),这点通用 ocr 比不了
mingtdlb
95 天前
你自己都讲了“输出质量感觉会非常高,缺陷是可能存在没输出的情况”,那还说啥呢

100 个样本,本来 vlm 能识别 80%,ocr 只能 50%,结果你输出就成 50% 了
hmxxmh
95 天前
感觉存在几个问题:1 、成本 2 、速度 3 、如果完全一致才输出,要求太严苛了,错一个标点就不输出

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1160962

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX