1
NotLongNil 48 天前
这个问题,必须通过数学去证明,而不是通过一些文字或对话去判断
|
![]() |
2
sillydaddy OP @NotLongNil 用什么数学证明,我还从来没听过数学可以证明像深度学习这样的东西。上面的对比还不够明显吗?
杨立昆就是一个笑话。倒不是说他不懂,而是他对 LLM 装傻充愣的样子。 |
![]() |
3
nomagick 48 天前 ![]() 你引用的这些他的言论,对着呢啊,很难去反对啊
Latent space 就是比文本空间什么像素空间靠谱啊,Latent space 是学习出来的,文本空间像素空间却是人类定义的, 文本空间能表示的事物好比整数,latent space 能表示的事物好比实数 一个值用整数表示和用实数表示,精度上是不是差了十万八千里呢 |
4
NotLongNil 48 天前
@nomagick 我还没听过用言论来判断事实的
|
![]() |
5
sillydaddy OP > “Latent space 就是比文本空间什么像素空间靠谱啊,Latent space 是学习出来的”
LLM 有哪一点不符合? LLM 的嵌入向量不是学习得到的吗? LLM 有直接用高维的文字空间去做训练吗? 这都是初学者都知道的基本常识了,杨立昆他非要说自己的才是真理,其他的都是垃圾。看看他怎么评价 Sora 的?再看看他怎么评价自家的 V-JEPA 的。 |
![]() |
6
sillydaddy OP |
![]() |
7
nomagick 48 天前 ![]() @sillydaddy 你没理解,LLM 在持续“推理”的过程中需要不断向文本 round down, 相对的就是“推理”过程全部在 latent space 完成,最后再向文本 round down.
你多看一下 diffusion model 就好。 这种国际上大学科的学界泰斗,从来不是沽名钓誉之辈,尤其是在他的本专业里,就算再网红,也是有实学的。 这和华人圈是不一样的。不需要过度批判。 |
![]() |
8
wyntalgeer 48 天前
向量空间也是空间,确实没什么本质上的不同,但方向毕竟是不同的,像素比文字的内容更丰富,细节更饱满,这一点毋庸置疑的
实际上应该保守看好 V-JEPA 2 ,也许现行版本优势不大,但潜力无穷。因为文字的高度凝练性,导致概率空间比像素小得多,可能性也就小很多,上限必然比像素要小 虽然概念炒作的概率比较大,可能只是在给资本叙事,但就像 CloseAI 当年给微软谈的一样,没有算力怎么能造出 ChatGPT 来呢?像素推演比文字推演需要的算力多太多了,让他搞吧! AI 需要百花齐放,这是好事,LeCun 还是牛的,希望他能成 |
![]() |
9
wyntalgeer 48 天前
@wyntalgeer 即使 LeCun 的这套方法能成,也达不到 AGI 的高度,就像我们造不出媲美人类的机器人一样,虚拟的 AGI 也同样造不出硅基人类
真正的硅基人类必须是基于硅基肢体的自进化 AI ,至少能像人类一样具备可控制的躯体、可进化的 AI 大脑,然后它就能实现人类实现不了的“我有双翅膀就好了”“我身高三尺就好了”“我有鳃就爽了”,他们的 AI 大脑在适应躯体的过程中,可以根据本体去拓展出“翅膀”“腿长”“呼吸系统”并安装到本体上,这才是完美的硅基生命 |
10
catazshadow 48 天前 via Android
还是不要在这玩意上浪费时间的好
|
![]() |
11
sillydaddy OP @nomagick >““推理”的过程中需要不断向文本 round down”
感谢你的提醒,我确实没有注意到这点。我需要再去研究下。 不过,我可以提出 2 点反驳: 1 是大语言模型的训练,本身是在潜空间中进行的,这点上是没有问题吧?如果说 V-JEPA 2 通过训练获得了「世界模型」。那么说大语言模型没有获得任何语言深层的含义,就是极其不公平的。 2 是根据上面的理解,一个已经通过语言训练获得了「世界模型」的 LLM ,在推理时,尽管是自回归的,我从直觉上觉得,它不会因为什么每一步都向文本 round down ,就失去某些核心能力,变成一种「统计」。你说呢? 当然,上面的第 2 点,还需要我进一步去推理一下。但第 1 点,无论如何,也足以支持对杨立昆关于大语言模型只是「统计模型」立场的反驳。 |