大模型发展到当前，让我对事物的发展有一些体会

从 2016 年 AlphaGo 战胜李世石，让 AI 这个概念成为了科技的热点话题，于是 17 年阿里成立了达摩院，让大家对 AI 又有了更高的期待，但是后面大家发现 AI 还是无法被规模化的应用到各类业务场景中，更多的还是一些图像识别、搜索推荐等，达摩院的慢慢落幕也能够反应这个阶段发展趋势。这个阶段我觉得主要是两方面不满足导致 AI 无法发展起来：
1 、AI 能力本身不具备普世价值，得不到普通大众的认可，更多的是资本用来包装商业的装饰品，导致大众从 PR 听到看到的和实际体验的 AI 存在很大差别，甚至会觉得这东西有点脑残，而被 AI 深度赋能的搜索推荐，还存在隐私合规擦边的情况
2 、AI 并没有激发工程架构的配套演进，这个是基础能力不能被规模化应用的重要因素，工程架构是将某一项能力普及的关键，因为他可以填补基础能力和实际业务场景的差距，不管是理解成本、建设成本还是集成效率。

而当 2022 年 11 月 30 日 ChatGPT 问世，让普通大众第一次感受到了 AI 是智能的，甚至怀疑背后是不是有一位人类的大师，因为这个时候 AI 给到的并不是人类制定好的决策树反馈，而是可以理解非结构化的信息，并且进行思维和推理，这就具备了上面说的第一条，让大众能够觉得 AI 的存在，是一个智体的存在，而不是设定好的规则。

这个时候最先收益的是那些被称作为“AI 布道师”的网上卖课的群体，他们把 AI 包装成为人类的未来，同时也在贩卖一些 AI 对人类的焦虑，从而能够博取大家的关注，我理解这是一个新生事物被大众关注的正常策略和手段。可能他们确实具备超过常人的超前眼光，也不排除中间某些人是在跟势吃红利。

作为这个阶段 AI 的第二个受益者是大模型算法工程师，这一两年大家看到行业里面都在争夺大模型的算法大牛，比如某厂不惜竞业协议挖走另一个厂的一号位，比如某长空降某个行业大牛，又比如某厂对一些人员连升几级等等，这些算法工程师的个人身价上可能实现了几倍甚至十倍的增长。如果把 AI 当做是一个新的时代到来，这些大模型算法工程师就是在构建这个时代的基石，让大模型成为下个时代的基建，所以各大厂才会舍得去砸钱投到这些人身上。有些项目可能还是 PPT ，会由于某些 AI 大牛的加入，就可以拿到数千万美金的天使轮，因为资本是最敏锐的，他们需要把手里的资金尽快锚定新时代的资产上，从而实现资本的升值。这个阶段对于这些大模型算法工程师来说，是有一些注重个人英雄主义的，因为一个模型的成功与否，确实是会由于某一两个人决定，这个是和上个互联网时代比较大的区别。

在回看本次 AI 的变化，会发现这次 AI 的推进不单纯是学术的热点，也有实际的产品，同时更重要的是，有衍生出与 AI 配套的工程技术架构，比如早期的 openai 的 function call ，RAG 架构的演进，再到这一两年新起的 MCP ，以及衍生出了多 agent 架构，以及之上有接近产品级的应用方案，比如 dify ，还有近期比较火的 manus 、coding assistant 等，这些工程架构的进化极大的促进了 AI 走进实际生活，也让 AI 能力被普及，可以应用到千行百业。

截止当前，大模型的发展过程是符合一个新生事物发展规律的，就好比互联网、移动互联网发展起来一样，最开始都是从实验室走出来的新的技术，随着布道者去普及大众对他们的理解和认知，然后叠加工程技术架构的演进，帮助这项技术逐步发展成熟，达到应用普及。从利益受众全体上看，是呈现出喇叭状的，这个原因是，新的技术随着工程技术的演进，会降低大众参与创新的技术门槛，会引入更多的创业者参与，产生很多以 AI 为基础的应用（不管是 tob 还是 toc ），从而扩大行业的建设者，最终由于这个行业的新起，里面的参与建设的各类角色最终也都会享受这个新技术下的时代红利。

最为个体怎么看待这次大模型带来的 AI 时代？我觉得就是让自己参与进去，不要想自己能够对这个时代产生多大的价值，不管你是参与到这类的项目中，还是基于 AI 场景的应用进行创业，甚至卖课，先把自己扔到这个时代洪流中，就算随波逐流也行。因为一个时代的红利只会给到参与里面的建设者，不管你是拧螺丝定，还是造飞机大炮。

作为互联网时代的工程同学，我们应该想的更多的是针对 AI 应该构建怎样的工程技术架构。可以从场景出发去思考，比如社会中哪些是可以基于当前的 ai 能够结合的，像当前流行的 RAG 知识库解决方案，还是 dify 这种 workflow 集成体，都是针对 AI 衍生的新的工程技术架构。核心的切入点是通过工程技术填补大模型基建和社会场景的缝隙。

MidCoder

49 天前

@coefuqin 首先感谢你的指点，确实对于大模型内部的细节和模型能力本身的迭代演进方面了解不多，这方面确实受限于当前的视野所约束。这里想表达的是，作为一名非大模型领域的人员，当前的 AI 和之前有什么区别，以及站在当前我们应该要做什么，特别是作为一个互联网的工程同学。
我觉得去和专业的大模型算法去拼算法的网络结构和训练细节，并不是我们所擅长的，特别是从事互联网工程很多年的同学，所以作为这样一个角色，站在当前这个环境下，我们应该做什么是我想阐述的。

当然我觉得随着未来模型能够被规模化的应用，覆盖更多的场景。posttrain 会是比较关键的，包括前段时间 deepseek 的出现，也体现出了 RLHF 的重要性，包括采用什么策略进行 RLHF （是 REFL 还是 DPO ，还是 deepseek 提出的 GRPO ），怎么进行好的 SFT 或者 RLHF ，都和更加高质量的数据相关，或者说针对未来要进行垂类的精调，是要有更好的垂类行业数据，这样可以提升模型对垂类行业的理解和模型结果的准确率。而对比 pretrain ，可能会趋于收敛，受限于它本身的训练成本很大，对比 posttrain ，pretrain 更多的是让模型具备更大的上线去提供后续模型能力的无限可能。所以如果未来能够提供更加低成本和更加高效的 posttrain 基建，加上可以快速收集整理垂类行的高质量数据，可以加速模型在各行业的高质量落地。