V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  Sh1xin  ›  全部回复第 1 页 / 共 1 页
回复总数  10
8 天前
回复了 Sh1xin 创建的主题 程序员 私有化部署 OCR 解决方案请教
@tool2dx 你那边漏字的场景方便详细说下嘛;我试了 5 页 PDF 包含表格和多行文本,可以正常提取表格内容
8 天前
回复了 Sh1xin 创建的主题 程序员 私有化部署 OCR 解决方案请教
@youyouzi ollama 。但是我不知道具体细节,运维帮我在弄
8 天前
回复了 Sh1xin 创建的主题 程序员 私有化部署 OCR 解决方案请教
感谢各位指导🙏,目前在线验证 Qwen2.5-VL-32B 识别效果非常好,除了部分数字场景千分位和小数点识别错误,其他都 OK 。私有化部署验证中
8 天前
回复了 Sh1xin 创建的主题 程序员 私有化部署 OCR 解决方案请教
@beginor 一般的多模态大模型识别文本准确率不如 OCR 吧,我这边对精准度要求比较高。所以考虑 OCR 识别后 LLM 分析内容获取
8 天前
回复了 Sh1xin 创建的主题 程序员 私有化部署 OCR 解决方案请教
@apkapb https://github.com/PaddlePaddle/PaddleOCR/discussions/16114
PaddleOCR 感觉已经很好了,可惜差一点点
8 天前
回复了 Sh1xin 创建的主题 程序员 私有化部署 OCR 解决方案请教
@bigtear 私有化部署的多模态大模型直接识别图片效果不好,信息安全角度没法使用 api 调用市面上先进方案
8 天前
回复了 Sh1xin 创建的主题 程序员 私有化部署 OCR 解决方案请教
@Ipsum @ersic 刚试了 wxocr 的效果,很差....文字识别错误,多检测框重合。至少 Paddle 文字识别全部正确
8 天前
回复了 Sh1xin 创建的主题 程序员 私有化部署 OCR 解决方案请教
@test00001 gemini 不是开源的,没法私有化部署,不考虑。之前也试过直接发给 GPT O3 模型,识别效果特别好。可惜没法私有化部署。直接把图片发送给 gemma 3 27b 的话,识别的文字错误率太高,不可用
8 天前
回复了 Sh1xin 创建的主题 程序员 私有化部署 OCR 解决方案请教
@xomix 我是想让 OCR 识别出来的结果。直接发送给 AI ,根据提示词可以获得我所需要的内容。但是现在部分场景检测框重合,OCR 输出的格式就错了,AI 识别有问题
8 天前
回复了 Sh1xin 创建的主题 程序员 私有化部署 OCR 解决方案请教
@ersic 好的,我试一下这个 OCR 效果
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1037 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 10ms · UTC 23:05 · PVG 07:05 · LAX 16:05 · JFK 19:05
Developed with CodeLauncher
♥ Do have faith in what you're doing.