Dify LLM 视觉参数问题请教

64 天前
 Sh1xin
Dify 的 LLM 节点中视觉参数只能选择开始的文件吗。如果是 PDF 格式的,如何进行视觉识别呢,我测试直接传入文件没法获取正常结果。如果是每页 PDF 转成图片。那 LLM 如何进行选择转图片后的参数,我试了直接在提示词里面输入图片转的 base64 也不行
1545 次点击
所在节点    程序员
3 条回复
mrbananaeros
63 天前
不是,开始节点中的参数也是可以的。
PDF 目前不支持 OCR ,所以纯图片的 PDF 会读出来是空的。可以用别的插件,minerU 试试
Sh1xin
61 天前
@mrbananaeros 感谢,另外还有个问题想请教下:如果开始节点上传的图片需要处理后再调用大模型识别。那如何做呢。我测试代码节点生成的类型好像都没法在 LLM 的视觉中获取
mrbananaeros
61 天前
@Sh1xin 因为代码节点生成的格式不是 File 格式的,我建议你写一个插件去处理图片,因为插件是可以返回 File 类型的。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1154286

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX