我猜测这是几个 AI 弱点的集合:
1 。特殊 Unicode 字符需要用多个 token 表达,AI 并没有学过写字,所以并不能像真人一样一眼看出➁➂➃➄➅都是什么。它只能通过网上的文章学会这是带圈的数字,但是每个字符是几我想除了 Unicode 码表里的描述,并没有很多其他的文章费力去一一列举,所以 AI 其实没有学会。AI 看这个 prompt 就像你问没学过阿拉伯文的人这个数是啥:١٢٣٥٦。
2 。这个图很好,食物的边界不是很明显,材质也不是很好用语言描述。这直击多模态模型底层使用 token 来“理解”这个图形的架构缺陷。所有标错的都是没有理解到底哪个是点心。以图二为例,它明显认为奶黄色块的是点心。
3. 容易被上下文中不重要但是很明确的内容带偏。因为提示里有吃掉,但它没有理解➀是什么,于是就又做了一次吃掉。
@
chanssl 我觉得你给的提示词太过于提示了,其实 AI 只是抓住了左上角和 6 ,后面的应该和楼主原提示词一样没有理解。我猜你上传一个其他的图片,同样的提示词它也是这么标注。