关于大模型原理的感叹

22 天前
 YanSeven
有时候使用 LLM ,对于其输出,尽管看了一下科普,了解一点什么“本质上是知识压缩”,“预测下一个 token”,“概率”等等。

但是仍然觉得很神奇,大语言模型这个东西在我的感性上,觉得比图像大模型和视频大模型神奇多了。

可能就像“不会数理化,觉得什么都是魔法”一样。我不知道大模型的具体的内部逻辑。

真的是看着它的输出,觉得有点神奇。
11000 次点击
所在节点    程序员
79 条回复
thinszx
22 天前
原理其实从 bert 甚至从 lstm 、一维 cnn 起就没变过,之后 chatgpt 是量变引起质变的验证,感兴趣可以看看一维 cnn 做时序预测相关的工作就知道了
whoosy
22 天前
大模型的调参对专门研究 LLM 算法的人,也像是一个黑盒,很多时候依赖经验主义和大量的实验探索。
YanSeven
22 天前
@thinszx 这里说的“量变”到“质变”说的是“涌现”吗。但是,仍然比较好奇,怎么就涌现了,为什么会涌现。
cmdOptionKana
22 天前
确实很神奇。但也有很多人感受不到这种神奇。我就见过有些人对魔术也感受不到神奇的,他们会认为 “哦,虽然我看不破,但反正就是你用了某种方法骗我,仅此而已”。LLM 也一样,有些人会感觉“反正你们是专家,你们把这个研究出来是应该的”,甚至还会嫌弃 LLM 太笨,鄙视一番。
maplezzz
22 天前
我也觉得很神奇,能不能理解为 LLM 从训练知识里归纳出了一个参数量足够大足够多的语言推理函数,通过用户的输入和这个函数以此来预测接下来的输出
DICK23
22 天前
确实是长久的积累引起的质变。AI 概念很在就被提出了,昨天还刷到了辛顿博士一九八几年的时候演示图形识别技术的微博,确实挺震撼的
czkm1320
22 天前
目前宇宙本质是数学来着,ai 一个字一个字根据概率和相关性往外输出文字,本质都是统计学,数学算法集大成
nno
22 天前
@YanSeven
还找不到真正原因。都是些猜测,比如系统论的猜测:系统复杂性上来之后就会带来新的特性
而且说是涌现,但和真实智能还是有差距的;
dog82
22 天前
就是一个超级大型的矩阵,通过前向学习和反向传播使这个大矩阵更准确。
高等数学+线性代数就够了
risan
22 天前
你可以了解一下“涌现”,会有自己的答案的
xtreme1
22 天前
这不是前两年的日经话题么, 主流的一个观点是(我的总结不一定准确), 人类自己的"学习理解"就是在压缩信息, 即找到最短的编码方式, 而这和"预测哪个字最可能出现", 在数学上是同一回事. 相关文章可以搜索 Compression is Intelligence.
jonsmith
22 天前
AI 炼丹师,LLM 的内部逻辑是未解之谜。
meihuanyu88x
22 天前
知道了原理以后,依旧会觉得它是魔法.
sillydaddy
22 天前
你不是一个人。即使是如杨立昆或辛顿这样的行业内专家,也不理解。大模型就是一个黑盒。辛顿是这样解释 LLM 的:你把文字转为另一个空间的向量,这个向量表达了文字的各种 feature ,然后这个向量经过了 LLM 的复杂操作,输出一个同样表达各种 feature 的新向量。这就是“理解”的含义。

可以看一下 3blue1brown 相关的科普视频,****几千万次****的播放量:
<amp-youtube data-videoid="wjZofJX0v4M" layout="responsive" width="480" height="270"></amp-youtube>&list=PLZHQObOWTQDNU6R1_67000Dx_ZCJB-3pi&index=7
IndexOutOfBounds
22 天前
@meihuanyu88x 这个同感,我自己撸了个玩具模型,过程中问了很多 Why ,依然不敢说有很透彻的了解,不过也正常可解释性目前也还只是研究方向

https://github.com/glidea/tinygpt
ShinichiYao
22 天前
你不需要知道大脑是怎么工作的,你只要照着上帝的设计把它通过电路模拟出来就行了
apkapb
22 天前
我突然想到:

0-1 是最难的,现在 AI 已经过了 0-1 了,这会导致大量的企业投入巨量资金来研究,以后肯定会越来越好的。
TabGre
22 天前
@sillydaddy 地址好像不全
cmdOptionKana
22 天前
@ShinichiYao “上帝的设计”是指什么?
LaurelHarmon
22 天前
“原理从 Bert 甚至从 lstm..没变过”这样说不对,bert 是判别模型,gpt 是生成模型,压根不是一个路子。BERT 属于走了岔路,跟当前的生成模型进步没啥关联。

真正一步一个脚印的基石是
AlexNet(2012 ,横空出世,证明了神经网络有用)
word2vec ( 2013 ,文字到向量,文字也能打上神经网络便车)
Attention 机制用于机器翻译( 2014,发明 Attention 机制,简单有效,天才的创新)
Attention 用于文本蕴含( 2016 ,加入全盘 Attention ,Transformer 的灵感源泉与雏形)
ResNet ( 2016 ,残差链接,支持深度网络)<---中国人在 LLM 发展浪潮中为数不多的原创性贡献--->
Attention is All you need (2016 ,抛弃 LSTM ,彻底采用纯 Attention(Transformer),划时代工作)
GPT-1 ( 2018 使用 Transformer 做生成,小有成就)
GPT-2.5, GPT3.5, ChatGPT(接下来这些就是 Scaling law 了,这才是量变引起质变)
所以不仅仅量变引起质变,还是一步一个台阶走上来的
其中走了很多网路(例如 BERT , 抛弃了很多旧时代的东西例如 LSTM ,CNN )

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1174606

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX