Dify LLM 视觉参数问题请教

64 天前

Sh1xin

Dify 的 LLM 节点中视觉参数只能选择开始的文件吗。如果是 PDF 格式的，如何进行视觉识别呢，我测试直接传入文件没法获取正常结果。如果是每页 PDF 转成图片。那 LLM 如何进行选择转图片后的参数，我试了直接在提示词里面输入图片转的 base64 也不行

1545 次点击

所在节点

3 条回复

mrbananaeros

63 天前

不是，开始节点中的参数也是可以的。
PDF 目前不支持 OCR ，所以纯图片的 PDF 会读出来是空的。可以用别的插件，minerU 试试

Sh1xin

61 天前

@mrbananaeros 感谢，另外还有个问题想请教下：如果开始节点上传的图片需要处理后再调用大模型识别。那如何做呢。我测试代码节点生成的类型好像都没法在 LLM 的视觉中获取

mrbananaeros

61 天前

@Sh1xin 因为代码节点生成的格式不是 File 格式的，我建议你写一个插件去处理图片，因为插件是可以返回 File 类型的。

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.