neteroster
8 天前
1. 你的指代太宽泛以至于无法给出切题的答案。请注意 ChatGPT 是产品不是模型。模型的能力是一个复杂的事情,各自有各自擅长的地方,例如 ChatGPT o3 擅长多轮搜索,Claude 擅长编码 agent ,Gemini 擅长长文本召回和多模态等等。
2. 目前总体来说御三家( OpenAI, Anthropic, Google )还是比国内的模型领先一大截的。不过还是那个问题,在会用且了解模型能力的情况下差距才能体现。
3. 虽然御三家基本上都对自己的模型架构守口如瓶,但是几乎可以肯定的是他们都基于一种非常基础且重要的组件 Transformer (由 Google 在 2017 年的论文 Attention is All You Need 提出)。在此基础上模型的其他组成会有一些差别,例如是 dense 模型或是 MoE 模型(目前推测御三家基本都在用 MoE, 其中 Gemini 在技术报告中直接说了,Deepseek V3 / R1 也是 MoE ),其他地方也会有些许差别。还有就是训练,除了训练数据量还有数据筛选清洗合成管线等等,以及各种训练参数,后训练(包括重强化学习用于训练推理模型)方案等等,这些也多属于独家秘方,就算是 Deepseek 这种开放团队在这方面公开的信息也是少之又少,更不用说商业模型了。