Meta 发布了 V-JEPA 2 模型,杨立昆终于打了个翻身仗?

50 天前
 sillydaddy
杨立昆( Yann LeCun )言必称 V-JEPA 2 世界模型,断言 LLM 必将失败。

他给的理由,最关键的一个,是 LLM 只是在大量文字上,做表面意义上的统计工作,也就是它无法理解内层的含义。更进一步,他说出 LLM 这种预测下一个 token 的方式,比如无法从「文字」推广到「图片」和「视频」上,因为前者(文字)是有限,是离散的,而后者(颜色)是无限的,是连续的。

好吧,现在他们终于发布了 V-JEPA 2 ,说它才是会取代 LLM ,并登顶 AGI 宝座的王者。

确实 V-JEPA 2 的效果不错。不过,它真的跟 LLM 有什么区别吗?

杨立昆说他非常早以前,就在尝试通过预测下一帧或者缺失的帧(块),这种无监督的方式,来训练,希望获得能对底层物理原理有所领悟的「世界模型」。但都失败了。按照他的说法,预测像素是徒劳的,因为太底层了,太多的像素细节对于模型获取物理直觉并没有意义。

然后当 LLM 出现后,他开始不遗余力批评它,说它是统计学,说它学不到内在规律,说它缺乏底层物理基础的支撑。可是,现在的 V-JEPA 2 ,我看了一下它的原理,它确实不再从像素去预测了,而是从将像素抽象之后得到的“潜空间”或者说“特征空间”去做预测。然后杨立昆说,V-JEPA 2 得到了关于底层物理的直觉。

可是,这跟他自己所说的多么矛盾啊。

他说从像素上预测,很难成功,现在他说 V-JEPA 2 从更抽象的空间中去预测,就得到了底层物理的直觉。可他批评 LLM 时,却说 LLM 只是在做一些文字的统计,学不到底层的关联。这就奇怪了,难道语言、文字不正是对现实世界的抽象吗?哦,在他的抽象空间做预测就是在获取「世界模型」,在文字这个抽象空间做预测,就是在做「统计」。多么双标啊。

之前 Ilya 就说杨立昆说的世界模型跟 LLM 没有什么不同,现在也有人评价说 V-JEPA 2 没有任何新的东西。我觉得确实是,在潜空间中做预测,OpenAI 的 Sora 早就已经在做了。即使是 LLM ,它也是将文字转到嵌入向量,在那个空间做的预测。我看不出 V-JEPA 2 有任何不同的地方,让杨立昆的双标能够成立。

下面是杨立昆接受的一个小时的采访,对他的观点有比较详细的阐述,非常好的一个采访。

同时,也可以看出他被采访者询问某些问题时的闪躲:

<amp-youtube data-videoid="5t1vTLU7s40" layout="responsive" width="480" height="270"></amp-youtube>
1960 次点击
所在节点    分享发现
11 条回复
NotLongNil
50 天前
这个问题,必须通过数学去证明,而不是通过一些文字或对话去判断
sillydaddy
50 天前
@NotLongNil 用什么数学证明,我还从来没听过数学可以证明像深度学习这样的东西。上面的对比还不够明显吗?
杨立昆就是一个笑话。倒不是说他不懂,而是他对 LLM 装傻充愣的样子。
nomagick
50 天前
你引用的这些他的言论,对着呢啊,很难去反对啊

Latent space 就是比文本空间什么像素空间靠谱啊,Latent space 是学习出来的,文本空间像素空间却是人类定义的, 文本空间能表示的事物好比整数,latent space 能表示的事物好比实数

一个值用整数表示和用实数表示,精度上是不是差了十万八千里呢
NotLongNil
50 天前
@nomagick 我还没听过用言论来判断事实的
sillydaddy
49 天前
> “Latent space 就是比文本空间什么像素空间靠谱啊,Latent space 是学习出来的”
LLM 有哪一点不符合? LLM 的嵌入向量不是学习得到的吗? LLM 有直接用高维的文字空间去做训练吗?
这都是初学者都知道的基本常识了,杨立昆他非要说自己的才是真理,其他的都是垃圾。看看他怎么评价 Sora 的?再看看他怎么评价自家的 V-JEPA 的。
sillydaddy
49 天前
nomagick
49 天前
@sillydaddy 你没理解,LLM 在持续“推理”的过程中需要不断向文本 round down, 相对的就是“推理”过程全部在 latent space 完成,最后再向文本 round down.
你多看一下 diffusion model 就好。

这种国际上大学科的学界泰斗,从来不是沽名钓誉之辈,尤其是在他的本专业里,就算再网红,也是有实学的。
这和华人圈是不一样的。不需要过度批判。
wyntalgeer
49 天前
向量空间也是空间,确实没什么本质上的不同,但方向毕竟是不同的,像素比文字的内容更丰富,细节更饱满,这一点毋庸置疑的

实际上应该保守看好 V-JEPA 2 ,也许现行版本优势不大,但潜力无穷。因为文字的高度凝练性,导致概率空间比像素小得多,可能性也就小很多,上限必然比像素要小

虽然概念炒作的概率比较大,可能只是在给资本叙事,但就像 CloseAI 当年给微软谈的一样,没有算力怎么能造出 ChatGPT 来呢?像素推演比文字推演需要的算力多太多了,让他搞吧!

AI 需要百花齐放,这是好事,LeCun 还是牛的,希望他能成
wyntalgeer
49 天前
@wyntalgeer 即使 LeCun 的这套方法能成,也达不到 AGI 的高度,就像我们造不出媲美人类的机器人一样,虚拟的 AGI 也同样造不出硅基人类

真正的硅基人类必须是基于硅基肢体的自进化 AI ,至少能像人类一样具备可控制的躯体、可进化的 AI 大脑,然后它就能实现人类实现不了的“我有双翅膀就好了”“我身高三尺就好了”“我有鳃就爽了”,他们的 AI 大脑在适应躯体的过程中,可以根据本体去拓展出“翅膀”“腿长”“呼吸系统”并安装到本体上,这才是完美的硅基生命
catazshadow
49 天前
还是不要在这玩意上浪费时间的好
sillydaddy
49 天前
@nomagick >““推理”的过程中需要不断向文本 round down”
感谢你的提醒,我确实没有注意到这点。我需要再去研究下。
不过,我可以提出 2 点反驳:
1 是大语言模型的训练,本身是在潜空间中进行的,这点上是没有问题吧?如果说 V-JEPA 2 通过训练获得了「世界模型」。那么说大语言模型没有获得任何语言深层的含义,就是极其不公平的。
2 是根据上面的理解,一个已经通过语言训练获得了「世界模型」的 LLM ,在推理时,尽管是自回归的,我从直觉上觉得,它不会因为什么每一步都向文本 round down ,就失去某些核心能力,变成一种「统计」。你说呢?

当然,上面的第 2 点,还需要我进一步去推理一下。但第 1 点,无论如何,也足以支持对杨立昆关于大语言模型只是「统计模型」立场的反驳。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1138535

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX