现在是不是也没什么人想去深入学习 AI 的源码级知识了

57 天前
 oukichi

没有 AI 的时代,网上很多“手撸一个 XXX”的教程和帖子。 现在感觉好像已经很少有人从底层的数学和模型开始讲那种深入浅出的教学了。 是我被信息茧了,还是真的咩有了? 如果有的话可以给我推荐一下吗? 或者感兴趣的话要一起学一下子吗?

3863 次点击
所在节点    程序员
24 条回复
InkStone
57 天前
我想有两个原因
1. 现在的大模型还是基于 transformer 的架构,之前的教程仍然有效。
2. 现在想深入了解源码的人不需要教程,可以直接问 AI
jacketma
57 天前
一般人微调大模型、做 Agent 就够了,底层知识搞清楚了,没数据没算力,练空气啊
kapaseker
57 天前
现代人做事主要讲究性价比,如果研究底层能够给你带来更多的好处——收入。那么完全可以去研究。但是现实情况是,你即使研究底层了,干的活儿还是调用高层 API ,性价比极低
wyntalgeer
57 天前
巧妇难为无米之炊,你有卡吗?
Jinnrry
57 天前
性价比太低,我以前深入学过,学过后发现,其实没啥用,自己也捣鼓不出来一个新模型,自己最多把别人的模型拿来改改参数喂数据就行了。

改参数过于玄学,基本上就是瞎几把试,喂数据又没技术含量,因此基本上就是只要大概懂原理,根本不需要学各种公式怎么推导出来的也能干活。

其实跟写代码没区别,也没几个人研究 cpu 编译器运行原理啊
sentinelK
57 天前
因为越来越多人认清了,机器学习 AI 基础设施,是极少数团队才能做的高度垂直领域。
一开始关注度高,是因为猎奇。真正对知识体系感兴趣的人很少。

即便退一万步说,你感兴趣,基于成本原因你也只能做一些小打小闹。
你跟着中航学造火箭,流体力学、空气动力学、导航技术学了一溜够,最后只能自己拿摔炮做实验,是个人也坚持不下来吧?

所以一旦猎奇程度降低,就没有流量了。没流量,曝光度也就少了。
NoOneNoBody
57 天前
硬件所限,AI 没怎么研究,但是机器学习倒是越玩越多
Cheons
57 天前
Ai 深入了解需要学习数学,这怎么学?
HTravel
57 天前
AI 怎么手撸?别说个人了,中小公司连显卡都买不起。即使你买得起训练显卡,你有清北数物奥赛金牌保送生的智力水平吗?没的话能撸出啥,刚出就严重落后。你既不会基于你自己撸出的 AI 做实用工具,也不可能基于你撸出的 AI 做 AI2.0 技术迭代,也就是说,你撸出的 AI 没有任何价值,除了浪费你的时间。

AI 就放弃吧,让全球真正智力顶尖的那些人去搞,荣耀是他们的,他们可以上史书,我甚至认为实现 AGI 的人比牛顿还要牛逼。牛顿让我们可以科学的认识世界,AGI 让我们像造物主一样创造世界。我们普通人的价值就是使用 AI 。

撸操作系统、编译器同理,也没见哪家公司招聘考核这个。
cvbnt
57 天前
没法利益驱动,个人买的卡算力和大厂比起来连蚂蚁都算不上,能做出来什么?买卡的钱不如买 api ,至少用 api 生成的图片和视频还有人看
fcten
57 天前
https://github.com/karpathy/nanoGPT
https://github.com/jingyaogong/minimind

karpathy 有很好的视频教程,有兴趣可以自己搜一下看看
pusheax
57 天前
大概是发展的必然规律?不需学习底层技术就可以直接编写上层应用不见得是坏事。
有点像上个世纪网络技术的发展,最开始的研究者需要探索传输介质、线路编码、调制与载波这种底层技术。
待到底层技术成熟,后来的开发者就只需要思考如何编写实际的应用程序,而不必操心数据要用什么算法转换成电信号了。
wei2629
57 天前
屠龙技
mikilo
57 天前
不知道你说的源码级是哪个方面的. 如果是指手推基础的 bp, kl divergence, vae, diffusion , 手写 cnn, rnn, transformer, vit 的话, x 上还是挺多的. inference 加速的话不就更多了, flash attention, linear attention, 感觉天天都有新东西...
TimePPT
57 天前
@wei2629 屠龙技+1

现在的问题是,如果不做底层研究,你就算知道底层原理能手撸,也没啥用,10B 以下参数的模型,几年前训练 pipeline 就很成熟了,100B 以上的大模型,你没数据没算力知道底层原理照样没法训——这跟你知道原子弹制造原理,但没离心机搞不出高浓缩铀是一个道理。

所以你看现在大多高校科研机构做大模型研究,都是跟大厂合作了,高校自己的资源根本不够玩大模型的。
iorilu
57 天前
看你干啥, 除非你想自己训练大模型

如果只是为了找工作, 或者自己搞产品

底层并没那么重要, 还是多花时间做实际东西更重要
YsHaNg
57 天前
基本都是推 karpathy 别的书也有 d2l.ai <amp-youtube data-videoid="VMj-3S1tku0" layout="responsive" width="480" height="270"></amp-youtube>&list=PLAqhIrjkxbuWI23v9cThsA9GvCAUhRvKZ
iOCZS
57 天前
分层分工提高了效率,降低了门槛。
rus4db
57 天前
兴趣是第一驱动。
没卡不是理由,只是验证原理的话,CPU 一样能训。
我自己就训了个 56M 参数的超小模型,会说人话,这就足够了。
https://github.com/bd4sur/Nano
prosgtsr
57 天前
多年前跟着教程手撸过机器学习算法
这些东西跟业务框架源码最大的区别在于,这些工具其实是数学模型,不理解数学模型光看源码不知道他在干啥,而知道了数学模型不看代码也可以使用,用起来优化的知识其实也是数学知识,跟懂不懂源码关系不大。

后来的神经网络、cnn 啥的乃至后来的大模型我就一窍不通了,已经多年不接触了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1142509

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX