Llama 4 发布以及其引起的争议

169 天前
 neteroster

叠甲:我知道本文内容可能有些看起来像是大模型生成的,不过实际上是纯手工写的...


昨天( 2025 年 4 月 6 日),Meta 宣布开源(开放权重) LLama 系列的最新作 LLama 4 ,包含三个版本:

Llama 4 Scout

Llama 4 Maverick

Llama 4 Behemoth


初看下来,许多人会认为开源这两个模型又是长上下文,又是以低成本超过 4o / DS V3 ,理所应当是一个强大,至少有许多亮点的模型。然而,事实却完全不同:

很快,用户发现在 LMArena 上测试的中号模型 Maverick 和公开权重的模型在语言风格上差别很大,甚至都不像同一个模型

这时,有部分用户猜测这是因为模型提供商的推理配置不正确,应当等待修复。

随后,更多基准测试对开源的两款模型进行了测试:

Aider Polyglot Benchmark

Aider 是一个开源的编程 Agent ,Polyglot Benchmark 是他们制作的多语言大模型基准。这一基准被认可度还是较高的。

...
claude-3-7-sonnet-20250219 (no thinking)    60.4%
o3-mini (high)                              60.4%
DeepSeek V3 (0324)                          55.1%
...
Qwen2.5-Coder-32B-Instruct                  16.4%
Llama 4 Maverick                            15.6%
...

长上下文理解测试

Fiction.liveBench for Long Context Deep Comprehension 测试了两款模型的长上下文表现

其他测试

许多用户、组织在个人数据集上进行了测试,结果大致一样。


这些测试,加上许多用户的实际体验反馈证明:Llama 4 远没有其宣传的优秀,甚至可以说看起来不像这个现在时候发布的模型。

那么问题来了,这样一个模型( Maverick )究竟为何能在 LMArena 上拿下第二名呢。


首先来看看 Arena 评分的原理:访问 LMArena 的用户被要求与两个身份被隐去的大模型对话,并选择他们认为更优秀的那个。选择完毕后,两个模型的身份会被揭示,并且得到的数据用于计算大模型的排名和得分。

尽管 LMArena 在此前已经受到不少批评,认为其“更看重模型的输出格式和风格,而不是实际能力”,但是仍然在大模型评分领域受到较广泛的认同,因为他不像传统评分那样可以提前在测试集上进行训练,提高模型的表现。


经过各种讨论和研究,用户发现,原来并不是提供商的配置有问题,而是 Meta 开源出来的版本和 Arena 上的版本确有区别

具体来说,送 Arena 测的是 Meta 针对聊天专门微调的 Maverick 模型。他被训练地非常兴奋、激动以提高用户的新鲜感,从而提高得分。但是这样做使得模型的日常问答几乎不可用:光是说一句“你好”模型都会回复几千 Tokens ,并且在知识问答中产生大量幻觉(想体验的可以直接去竞技场 Direct Chat 栏目测试)。


目前这种行为已经引起了对 Meta 的广泛批评。

1648 次点击
所在节点    OpenAI
5 条回复
Chaidu
169 天前
使用大语言模型生成的就是大语言模型生成的,叠甲没用 /doge
wyntalgeer
169 天前
实测拉了
tool2dx
169 天前
Llama4 有两个大问题,第一他抛弃了粉丝的本地显卡步骤欲望(请问普通玩家,谁有能装下 109B 参数的 GPU )

第二按照收费大模型的 API 调用标准,它的性能远远比不上同期 2025 发布的几个大模型。

开源开了个寂寞,还不如 gemma3/phi4 可玩性高。
FgHh07ObvBiST5po
169 天前
实测拉垮
Kisesy
168 天前
原因是这个

Llama4 的训练存在严重问题已经向 GenAI 提交辞职
https://www.1point3acres.com/bbs/thread-1122600-1-1.html

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1123672

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX