关于大模型原理的感叹

22 天前
 YanSeven
有时候使用 LLM ,对于其输出,尽管看了一下科普,了解一点什么“本质上是知识压缩”,“预测下一个 token”,“概率”等等。

但是仍然觉得很神奇,大语言模型这个东西在我的感性上,觉得比图像大模型和视频大模型神奇多了。

可能就像“不会数理化,觉得什么都是魔法”一样。我不知道大模型的具体的内部逻辑。

真的是看着它的输出,觉得有点神奇。
11009 次点击
所在节点    程序员
79 条回复
thinszx
22 天前
@YanSeven 我自己的理解是,从统计学的角度出发,深度学习模型拟合的是数据集的高维分布,我们可以假设不管模型大小,深度学习模型的权重都由很多个不同分布的低维高斯分布构成,同样地,我认为人类对于世界的拟合也可以看作很多个高斯分布的复杂组合,即不管是语言、图像还是什么模态,都可以看做是人类对世界的 embedding ,大模型之所以能涌现,是因为输入的人类对世界的 embedding 足够多,因此帮助了大模型将自己的输入输出空间对齐到了人类对世界的拟合维度,你可以认为是因为大模型真的认识到了世界,所以才会出现涌现的现象,当然语言只是对世界的片面描述,这也是为什么李飞飞等人转向了世界模型,用机器人在真实世界的强化学习过程来帮助大模型真的认识世界
thinszx
22 天前
@LaurelHarmon 我指的是最基本的先验后验的学习过程,理解和生成一个是学习分布一个主要是从学习后分布采样那肯定是不一样的,但我觉得不管是自监督强化学习最本质的贝叶斯出发的想法是不变的
forisra
22 天前
虽然现在的大模型因为上下文问题和原始论文《 attention is all you need 》的那个模型已经天差地别,但在理解大模型上看关于这个论文解析也差不多了。

原始论文就没必要看了,这个论文表达不怎么样,可能是当时的谷歌工程师一直做 NLP 很多表达没有照顾其他领域的人。画的图也比较抽象。我觉得看李沐的论文解析,或者看看 3Blue1Brown 的视频理解都行: <amp-youtube data-videoid="wjZofJX0v4M" layout="responsive" width="480" height="270"></amp-youtube>
sillydaddy
22 天前
@TabGre #18 我发的完整链接是 3blue1brown 的一个播放列表(关于机器学习的),不止包含上面那个视频,可惜链接被自动截断了,可以在 3blue1brown 频道的播放列表里面找到这个列表,包含了 7 ,8 个神经网络的视频,非常通俗易懂。
Rickkkkkkk
22 天前
高维下空间稀疏,不会过拟合
zhanying
22 天前
还有一个很神奇的思维实验,和 llm 原理勉强能靠上边,粘贴过来给大家看看:


“中国脑是心灵哲学中的一个思想实验,探讨了如果每个中国人被要求使用电话或对讲机模拟大脑中一个神经元的动作,会发生什么情况。对讲机模拟连接神经元的轴突和树突。这会使中国人整体像大脑一样具有思想或意识吗?”
visper
22 天前
是啊,太神奇了。感觉就这么一个预测下一个 token, 在参数量上来后,竟然直接给涌现出这样的能力,遵循指令,写代码等。难以想象。
815377546
22 天前
@sillydaddy #14 感谢分享
monway
22 天前
@IndexOutOfBounds 好东西
lscho
22 天前
@cmdOptionKana 神经元。。。LLM 的核心就是神经网络,结构都是参考人脑的神经元
sunice
22 天前
@cmdOptionKana #19 自然选择
flyooh
22 天前
可以读一下吴军写的《数学之美》上面讲得更基础。
henix
22 天前
个人认为可以类比到输入法,输入法也是在预测“你前面说了这些,然后最可能说什么”
chenY520
22 天前
@IndexOutOfBounds 什么配置可以玩这个?
IndexOutOfBounds
22 天前
@chenY520 我是 mac mini m4 ,内存占用不大,理论都能跑时间长短而已
lifei6671
22 天前
训练 AI 模型并不是“把知识塞进机器”,而是“让机器学会规律”。
模型文件中不存储事实,而是存储事实之间的结构性相似与概率模式。
它不能“知道”,但能模拟知道。
它没有“理解”,但能逼真地产生理解的表现。
当你与 AI 对话时,你看到的是:
一台高维函数机器,在数学空间里对语言的概率进行实时采样。
这既是它的局限,也是它的奇迹。
chenY520
22 天前
@IndexOutOfBounds #35 我用 N 卡跑的话,大概要多少显存资源
kevan
22 天前
推理确实神奇。游戏里的 Transformer 更 NB
kevan
22 天前
IndexOutOfBounds
22 天前
@chenY520 #37 3060 应该就行,可以先试试,运行时会预估训练时间
如果太长,可以尝试减少模型参数,反正补全句子有基本语法结构就差不多,不用追求效果,主要是学原理

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1174606

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX