国内大模型与 chatgpt

8 天前
 AlfredNing

小白关于国内大模型有几个疑问

  1. 国内这么多的模型:通义系列,豆包、deepseek 等 与 chatgpt 有什么样的区别。(目前看来 chatgp 已经有收费版本,国内大部分免费)
  2. 如果要用 AI 做一些事情,用国外的还是国内比较好。
  3. 想知道为什么模型不同的底层原理是什么,除了训练的数据量之外。(希望能够用通俗易懂的话来解释)
1182 次点击
所在节点    问与答
9 条回复
donaldturinglee
8 天前
小白可以不考虑第三点,前两点取决你的目的是要做什么
neteroster
8 天前
1. 你的指代太宽泛以至于无法给出切题的答案。请注意 ChatGPT 是产品不是模型。模型的能力是一个复杂的事情,各自有各自擅长的地方,例如 ChatGPT o3 擅长多轮搜索,Claude 擅长编码 agent ,Gemini 擅长长文本召回和多模态等等。

2. 目前总体来说御三家( OpenAI, Anthropic, Google )还是比国内的模型领先一大截的。不过还是那个问题,在会用且了解模型能力的情况下差距才能体现。

3. 虽然御三家基本上都对自己的模型架构守口如瓶,但是几乎可以肯定的是他们都基于一种非常基础且重要的组件 Transformer (由 Google 在 2017 年的论文 Attention is All You Need 提出)。在此基础上模型的其他组成会有一些差别,例如是 dense 模型或是 MoE 模型(目前推测御三家基本都在用 MoE, 其中 Gemini 在技术报告中直接说了,Deepseek V3 / R1 也是 MoE ),其他地方也会有些许差别。还有就是训练,除了训练数据量还有数据筛选清洗合成管线等等,以及各种训练参数,后训练(包括重强化学习用于训练推理模型)方案等等,这些也多属于独家秘方,就算是 Deepseek 这种开放团队在这方面公开的信息也是少之又少,更不用说商业模型了。
ferock
7 天前
没太大区别,qwen3 已经很聪明了,只是国内没有对软件付费的习惯,搞付费了活不下去
HENQIGUAI
7 天前
这个问题三言两语回答不清楚,我的总结是都用,多用就知道效果如何了,然后想深入原理的话可能要专门学一下了。
xinyu391
7 天前
国内还在竞争,肯定会提供免费的产品。
flynaj
7 天前
这些 ai 都是基于 Google 2017 年发表论文《 Attention is All You Need 》,没有多大区别,你就把 ai 当做一个人,国内的中文知识要多一些,看你要做什么来选择。
Kenshiro
7 天前
国内的宣传性高于实用性,自己体验下来就是不行,特别是吹的天花乱坠的 DS 和豆包,动不动就做很荒谬的自圆其说和恶意推定
sosme
7 天前
对大部分普通用户来说,差距很小
hafuhafu
7 天前
2. 看你的问题的领域。有些领域差距挺大的。正常问答、问代码可能差距还没这么大。比如我前阵子闲着无聊就给自己库存的 ACG 壁纸自动 tag 写回文件方便分类,因为出来的 tag 都是英文或者罗马音,不可避免要批量翻译成中文。我试了一下主流 LLM ,差距还是蛮明显的。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1141839

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX