Sh1xin 最近的时间轴更新
Sh1xin

Sh1xin

V2EX 第 223763 号会员,加入于 2017-03-30 18:33:52 +08:00
今日活跃度排名 7085
Sh1xin 最近回复了
7 天前
回复了 Sh1xin 创建的主题 程序员 私有化部署 OCR 解决方案请教
@tool2dx 你那边漏字的场景方便详细说下嘛;我试了 5 页 PDF 包含表格和多行文本,可以正常提取表格内容
7 天前
回复了 Sh1xin 创建的主题 程序员 私有化部署 OCR 解决方案请教
@youyouzi ollama 。但是我不知道具体细节,运维帮我在弄
7 天前
回复了 Sh1xin 创建的主题 程序员 私有化部署 OCR 解决方案请教
感谢各位指导🙏,目前在线验证 Qwen2.5-VL-32B 识别效果非常好,除了部分数字场景千分位和小数点识别错误,其他都 OK 。私有化部署验证中
7 天前
回复了 Sh1xin 创建的主题 程序员 私有化部署 OCR 解决方案请教
@beginor 一般的多模态大模型识别文本准确率不如 OCR 吧,我这边对精准度要求比较高。所以考虑 OCR 识别后 LLM 分析内容获取
7 天前
回复了 Sh1xin 创建的主题 程序员 私有化部署 OCR 解决方案请教
@apkapb https://github.com/PaddlePaddle/PaddleOCR/discussions/16114
PaddleOCR 感觉已经很好了,可惜差一点点
8 天前
回复了 Sh1xin 创建的主题 程序员 私有化部署 OCR 解决方案请教
@bigtear 私有化部署的多模态大模型直接识别图片效果不好,信息安全角度没法使用 api 调用市面上先进方案
8 天前
回复了 Sh1xin 创建的主题 程序员 私有化部署 OCR 解决方案请教
@Ipsum @ersic 刚试了 wxocr 的效果,很差....文字识别错误,多检测框重合。至少 Paddle 文字识别全部正确
8 天前
回复了 Sh1xin 创建的主题 程序员 私有化部署 OCR 解决方案请教
@test00001 gemini 不是开源的,没法私有化部署,不考虑。之前也试过直接发给 GPT O3 模型,识别效果特别好。可惜没法私有化部署。直接把图片发送给 gemma 3 27b 的话,识别的文字错误率太高,不可用
8 天前
回复了 Sh1xin 创建的主题 程序员 私有化部署 OCR 解决方案请教
@xomix 我是想让 OCR 识别出来的结果。直接发送给 AI ,根据提示词可以获得我所需要的内容。但是现在部分场景检测框重合,OCR 输出的格式就错了,AI 识别有问题
8 天前
回复了 Sh1xin 创建的主题 程序员 私有化部署 OCR 解决方案请教
@ersic 好的,我试一下这个 OCR 效果
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5462 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 19ms · UTC 03:12 · PVG 11:12 · LAX 20:12 · JFK 23:12
Developed with CodeLauncher
♥ Do have faith in what you're doing.