V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
sillydaddy
V2EX  ›  分享发现

Meta 发布了 V-JEPA 2 模型,杨立昆终于打了个翻身仗?

  •  
  •   sillydaddy · 48 天前 · 1959 次点击
    这是一个创建于 48 天前的主题,其中的信息可能已经有所发展或是发生改变。
    杨立昆( Yann LeCun )言必称 V-JEPA 2 世界模型,断言 LLM 必将失败。

    他给的理由,最关键的一个,是 LLM 只是在大量文字上,做表面意义上的统计工作,也就是它无法理解内层的含义。更进一步,他说出 LLM 这种预测下一个 token 的方式,比如无法从「文字」推广到「图片」和「视频」上,因为前者(文字)是有限,是离散的,而后者(颜色)是无限的,是连续的。

    好吧,现在他们终于发布了 V-JEPA 2 ,说它才是会取代 LLM ,并登顶 AGI 宝座的王者。

    确实 V-JEPA 2 的效果不错。不过,它真的跟 LLM 有什么区别吗?

    杨立昆说他非常早以前,就在尝试通过预测下一帧或者缺失的帧(块),这种无监督的方式,来训练,希望获得能对底层物理原理有所领悟的「世界模型」。但都失败了。按照他的说法,预测像素是徒劳的,因为太底层了,太多的像素细节对于模型获取物理直觉并没有意义。

    然后当 LLM 出现后,他开始不遗余力批评它,说它是统计学,说它学不到内在规律,说它缺乏底层物理基础的支撑。可是,现在的 V-JEPA 2 ,我看了一下它的原理,它确实不再从像素去预测了,而是从将像素抽象之后得到的“潜空间”或者说“特征空间”去做预测。然后杨立昆说,V-JEPA 2 得到了关于底层物理的直觉。

    可是,这跟他自己所说的多么矛盾啊。

    他说从像素上预测,很难成功,现在他说 V-JEPA 2 从更抽象的空间中去预测,就得到了底层物理的直觉。可他批评 LLM 时,却说 LLM 只是在做一些文字的统计,学不到底层的关联。这就奇怪了,难道语言、文字不正是对现实世界的抽象吗?哦,在他的抽象空间做预测就是在获取「世界模型」,在文字这个抽象空间做预测,就是在做「统计」。多么双标啊。

    之前 Ilya 就说杨立昆说的世界模型跟 LLM 没有什么不同,现在也有人评价说 V-JEPA 2 没有任何新的东西。我觉得确实是,在潜空间中做预测,OpenAI 的 Sora 早就已经在做了。即使是 LLM ,它也是将文字转到嵌入向量,在那个空间做的预测。我看不出 V-JEPA 2 有任何不同的地方,让杨立昆的双标能够成立。

    下面是杨立昆接受的一个小时的采访,对他的观点有比较详细的阐述,非常好的一个采访。

    同时,也可以看出他被采访者询问某些问题时的闪躲:

    11 条回复    2025-06-14 21:28:25 +08:00
    NotLongNil
        1
    NotLongNil  
       48 天前
    这个问题,必须通过数学去证明,而不是通过一些文字或对话去判断
    sillydaddy
        2
    sillydaddy  
    OP
       48 天前
    @NotLongNil 用什么数学证明,我还从来没听过数学可以证明像深度学习这样的东西。上面的对比还不够明显吗?
    杨立昆就是一个笑话。倒不是说他不懂,而是他对 LLM 装傻充愣的样子。
    nomagick
        3
    nomagick  
       48 天前   ❤️ 1
    你引用的这些他的言论,对着呢啊,很难去反对啊

    Latent space 就是比文本空间什么像素空间靠谱啊,Latent space 是学习出来的,文本空间像素空间却是人类定义的, 文本空间能表示的事物好比整数,latent space 能表示的事物好比实数

    一个值用整数表示和用实数表示,精度上是不是差了十万八千里呢
    NotLongNil
        4
    NotLongNil  
       48 天前
    @nomagick 我还没听过用言论来判断事实的
    sillydaddy
        5
    sillydaddy  
    OP
       48 天前
    > “Latent space 就是比文本空间什么像素空间靠谱啊,Latent space 是学习出来的”
    LLM 有哪一点不符合? LLM 的嵌入向量不是学习得到的吗? LLM 有直接用高维的文字空间去做训练吗?
    这都是初学者都知道的基本常识了,杨立昆他非要说自己的才是真理,其他的都是垃圾。看看他怎么评价 Sora 的?再看看他怎么评价自家的 V-JEPA 的。
    sillydaddy
        6
    sillydaddy  
    OP
       48 天前
    nomagick
        7
    nomagick  
       48 天前   ❤️ 1
    @sillydaddy 你没理解,LLM 在持续“推理”的过程中需要不断向文本 round down, 相对的就是“推理”过程全部在 latent space 完成,最后再向文本 round down.
    你多看一下 diffusion model 就好。

    这种国际上大学科的学界泰斗,从来不是沽名钓誉之辈,尤其是在他的本专业里,就算再网红,也是有实学的。
    这和华人圈是不一样的。不需要过度批判。
    wyntalgeer
        8
    wyntalgeer  
       48 天前
    向量空间也是空间,确实没什么本质上的不同,但方向毕竟是不同的,像素比文字的内容更丰富,细节更饱满,这一点毋庸置疑的

    实际上应该保守看好 V-JEPA 2 ,也许现行版本优势不大,但潜力无穷。因为文字的高度凝练性,导致概率空间比像素小得多,可能性也就小很多,上限必然比像素要小

    虽然概念炒作的概率比较大,可能只是在给资本叙事,但就像 CloseAI 当年给微软谈的一样,没有算力怎么能造出 ChatGPT 来呢?像素推演比文字推演需要的算力多太多了,让他搞吧!

    AI 需要百花齐放,这是好事,LeCun 还是牛的,希望他能成
    wyntalgeer
        9
    wyntalgeer  
       48 天前
    @wyntalgeer 即使 LeCun 的这套方法能成,也达不到 AGI 的高度,就像我们造不出媲美人类的机器人一样,虚拟的 AGI 也同样造不出硅基人类

    真正的硅基人类必须是基于硅基肢体的自进化 AI ,至少能像人类一样具备可控制的躯体、可进化的 AI 大脑,然后它就能实现人类实现不了的“我有双翅膀就好了”“我身高三尺就好了”“我有鳃就爽了”,他们的 AI 大脑在适应躯体的过程中,可以根据本体去拓展出“翅膀”“腿长”“呼吸系统”并安装到本体上,这才是完美的硅基生命
    catazshadow
        10
    catazshadow  
       48 天前 via Android
    还是不要在这玩意上浪费时间的好
    sillydaddy
        11
    sillydaddy  
    OP
       48 天前
    @nomagick >““推理”的过程中需要不断向文本 round down”
    感谢你的提醒,我确实没有注意到这点。我需要再去研究下。
    不过,我可以提出 2 点反驳:
    1 是大语言模型的训练,本身是在潜空间中进行的,这点上是没有问题吧?如果说 V-JEPA 2 通过训练获得了「世界模型」。那么说大语言模型没有获得任何语言深层的含义,就是极其不公平的。
    2 是根据上面的理解,一个已经通过语言训练获得了「世界模型」的 LLM ,在推理时,尽管是自回归的,我从直觉上觉得,它不会因为什么每一步都向文本 round down ,就失去某些核心能力,变成一种「统计」。你说呢?

    当然,上面的第 2 点,还需要我进一步去推理一下。但第 1 点,无论如何,也足以支持对杨立昆关于大语言模型只是「统计模型」立场的反驳。
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   992 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 18:51 · PVG 02:51 · LAX 11:51 · JFK 14:51
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.