V2EX › Sh1xin 的所有回复 › 第 1 页 / 共 1 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

8 天前

@tool2dx 你那边漏字的场景方便详细说下嘛；我试了 5 页 PDF 包含表格和多行文本，可以正常提取表格内容

8 天前

@youyouzi ollama 。但是我不知道具体细节，运维帮我在弄

8 天前

感谢各位指导🙏，目前在线验证 Qwen2.5-VL-32B 识别效果非常好，除了部分数字场景千分位和小数点识别错误，其他都 OK 。私有化部署验证中

8 天前

@beginor 一般的多模态大模型识别文本准确率不如 OCR 吧，我这边对精准度要求比较高。所以考虑 OCR 识别后 LLM 分析内容获取

8 天前

8 天前

@bigtear 私有化部署的多模态大模型直接识别图片效果不好，信息安全角度没法使用 api 调用市面上先进方案

8 天前

@Ipsum @ersic 刚试了 wxocr 的效果，很差....文字识别错误，多检测框重合。至少 Paddle 文字识别全部正确

8 天前

@test00001 gemini 不是开源的，没法私有化部署，不考虑。之前也试过直接发给 GPT O3 模型，识别效果特别好。可惜没法私有化部署。直接把图片发送给 gemma 3 27b 的话，识别的文字错误率太高，不可用

8 天前

@xomix 我是想让 OCR 识别出来的结果。直接发送给 AI ，根据提示词可以获得我所需要的内容。但是现在部分场景检测框重合，OCR 输出的格式就错了，AI 识别有问题

8 天前

@ersic 好的，我试一下这个 OCR 效果