Sh1xin

V2EX 第 223763 号会员，加入于 2017-03-30 18:33:52 +08:00

今日活跃度排名 7085

程序员 • Sh1xin • 7 天前 • 最后回复来自 beginor

58

Sh1xin 最近回复了

7 天前

@tool2dx 你那边漏字的场景方便详细说下嘛；我试了 5 页 PDF 包含表格和多行文本，可以正常提取表格内容

7 天前

@youyouzi ollama 。但是我不知道具体细节，运维帮我在弄

7 天前

感谢各位指导🙏，目前在线验证 Qwen2.5-VL-32B 识别效果非常好，除了部分数字场景千分位和小数点识别错误，其他都 OK 。私有化部署验证中

7 天前

@beginor 一般的多模态大模型识别文本准确率不如 OCR 吧，我这边对精准度要求比较高。所以考虑 OCR 识别后 LLM 分析内容获取

7 天前

8 天前

@bigtear 私有化部署的多模态大模型直接识别图片效果不好，信息安全角度没法使用 api 调用市面上先进方案

8 天前

@Ipsum @ersic 刚试了 wxocr 的效果，很差....文字识别错误，多检测框重合。至少 Paddle 文字识别全部正确

8 天前

@test00001 gemini 不是开源的，没法私有化部署，不考虑。之前也试过直接发给 GPT O3 模型，识别效果特别好。可惜没法私有化部署。直接把图片发送给 gemma 3 27b 的话，识别的文字错误率太高，不可用

8 天前

@xomix 我是想让 OCR 识别出来的结果。直接发送给 AI ，根据提示词可以获得我所需要的内容。但是现在部分场景检测框重合，OCR 输出的格式就错了，AI 识别有问题

8 天前

@ersic 好的，我试一下这个 OCR 效果