现在是不是 AI 都淘汰了 OCR 了？

搜索了一遍竟然上一个帖子在去年。。。。现在如果是单张很方便，扔给 Chatgpt4o 或者 claude 。但是对多张 pdf 就不友好了。或者觉得大材小用？？有人有解决方案么？

gxt92

2024-07-02 21:59:09 +08:00

我觉得 OCR 变成了 AIGC 的前置处理流程或者说一部分了，而不是被淘汰

lovestudykid

2024-07-02 23:25:25 +08:00

@gxt92 #1 现在多模态模型应该是直接处理图片，而不是 OCR 了再处理

SkywalkerJi

2024-07-02 23:47:35 +08:00

yolo5 之类的模型不知道能不能有突破。

lekai63

2024-07-02 23:50:44 +08:00

还是用回 OCR 呗

jr55475f112iz2tu

2024-07-02 23:54:42 +08:00

要经典的，有白描 https://baimiao.uzero.cn/
要开源的，有 Umi-OCR https://github.com/hiroi-sora/Umi-OCR
如果你说要更底层的，那就是 Umi-OCR 上用的 PaddleOCR https://github.com/PaddlePaddle/PaddleOCR

maolon

2024-07-03 00:09:05 +08:00

实际上主流的 rag 开源项目，比如网易的 qanything ，ocr 依然是主力识别的手段，单纯用多模态有两个问题一是太慢，二是不够稳定

RiESA

2024-07-03 09:10:23 +08:00

但是 AI 又没眼睛,怎么去"看"图片呢? 不也得依赖 OCR 之类的东西来读取图片

Imr

2024-07-03 09:25:44 +08:00

@czfy 还有 https://github.com/tesseract-ocr/tesseract ，不少开源 rag 用

paidaxtis

2024-07-03 11:04:37 +08:00

首先 OCR 也是 AI
其次目前 VL 大模型对传统 OCR 任务还是比较一般,更适合非结构化的 OCR 任务
最后 VL 大模型做 OCR 太贵了,成本是几十上百倍.目前没看到有同行敢直接换的

DjvuLee

2024-07-03 12:38:59 +08:00

单纯的 OCR 确实是的，主要是缺少语义，导致有一些识别不了。

比如 Apple Notes 里面的 checkbox 就很容易识别为字母 O 。但是大模型有语义之后可能就能识别出这个是一个 checkbox 。

我们正好做了一些这个方面的尝试，有兴趣可以看看我们的产品 ScreenAI： https://ex.noerr.eu.org/t/1054303

maemolee

2024-07-03 21:12:33 +08:00

OCR 是一个应用场景吧？就是图片内文字提取。你通过传统手段或者 AI 手段实现，都没关系，都能达成一样的目的，甚至 AI 还给 OCR 场景提升了使用体验。

xuanjiangsara

2024-07-04 00:22:57 +08:00

@lovestudykid 我觉得你说的对。我没有证据支持，但是就是感觉 AI 肯定用了 OCR ，但是记得看了个新闻说用 AI 识别烧焦的古迹，我觉得就是绝对不是 OCR 识别后才给下一道 AI 继续做这么简单

xuanjiangsara

2024-07-04 00:27:51 +08:00

@maemolee 因为有一个 AI 接手了，我就可以扔掉 N 个本地 ocr apps 。步骤越少越好。

xuanjiangsara

2024-07-04 00:30:37 +08:00

@paidaxtis 我觉得 ocr 本身的 AI 就像黑与白游戏里的宠物的智能。仿佛很 AI 。但是某个场合就降维弱智折腾你。但你说的，说白了还是。。。贵。哈哈，万恶之源

xuanjiangsara

2024-07-04 00:33:35 +08:00

@DjvuLee Apple Notes 还有这么蠢的时候？！用多少没留意过。我那天先看到你们的产品帖子了，只是我还没买 mac 。倒是很期待等 APPLE Intelligence 打磨好了，我想看你们怎么跟系统对接好。一定效率刚刚的。

xuanjiangsara

2024-07-04 00:35:01 +08:00

@czfy
@Imr 看过这几个，一直没装。这回看看如何。曾装了个熊猫 ocr 对接各种国内大公司，感觉麻烦。

ko1haha

2024-07-05 17:55:07 +08:00

有道、谷歌翻译相机实时 ocr 有可能用多模态？速度没那么快吧。强强配合才是王道。

ChanKc

250 天前

ocr 准确度比多模态高，但是只能做特定的任务，比如识别文字内容、识别人脸、区分猫狗
多模态更通用但是准确率比较有限，容易有幻觉。如果是做应用的话可以先传统 ocr 做画面主体识别，得到的主体内容再喂给多模态。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1054358

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.