感觉一些人对 claude 3.7 sonnet 有误解，以为是编程领域最强的模型。

184 天前

tool3d

其实只是“某种意义”上的最强。编程分两种，一种是 CURD 工程化，也就是 claude 3.7 sonnet 擅长的领域，用朴实无华的编程技能，把整个页面写完善，出成品，这是 claude 3.7 的强项。

另一种编程领域，是竞赛制编程，和数学推理能力很接近，在这一点上 o3-mini-high 要明显强过 claude 3.7 ，所以 claude 3.7 编程专项领域的跑分，看起来并不算太亮眼。

下图是最新的编程竞赛跑分，3.7 连 deepseek r1 都没能打过，实在很遗憾。但是论项目开发，claude 3.7 舍我其谁！

8406 次点击

所在节点

Claude

48 条回复

wanniwa

184 天前

嗯，都是牛马，谁关心竞赛制编程。所以 claude 3.7 他就是编程领域最强

clemente

184 天前

找顺手的模型就好了. 没必要必须选最好的. 未来每个公司的模型 taste 都不一样.肯定会细分的

1. 提示词对输出的提升可能更重要
2. 还是根据自我感觉来吧 benchmark 都是玩具定向微调数据+蒸馏能让 8b 跑上某个榜的前几

ly841000

184 天前

claude 后端不行，写个三缓冲都写不明白

09EdgqomQp5z019t

184 天前

chatgpt 排名强，体验拉

vopsoft

184 天前

可拉到吧
claude 能理解我要什么谁关心跑分甚至上边的图我都不愿意点开其他的差太远太远根本不值得一比

klo424

184 天前

claude 3.7 sonnet 是身边统计学最强，op 发的这个是真的统计学吧，哈哈哈哈

enchilada2020

184 天前

都说 Claude 强之前没啥感觉直到我拿 C 写了个内存泄漏一千来行代码丫直接给我准确定位并解决了

Cheez

184 天前

claude 在 Cursor 里面还好吧，能够一次对话调用多个工具。不知道是 Cursor 包装出来的，还是原生支持。

zgjldxdyt1

184 天前

别的不说，cursor 默认 claude 就说明了很多，专门做编程领域的，肯定调研测试了很多才做的模型选择。

RandyLuo

184 天前

https://livebench.ai/

C02TobNClov1Dz56

184 天前

claude 上下文 200k token
deepseek 64K token
这还比啥编程领域, 长上下文明显更有优势

AoEiuV020JP

184 天前

我们在意的是在 AI 编辑器领域哪个模型配合编辑器最能实现用户想要的效果和代码，用脚投票而不是某种跑分，

InkStone

184 天前

不仅写代码。我实测下来很多任务 claude 3.7 的表现都很好，包括但不仅限于特定领域的文本生成，SVG 绘图生成，复杂任务理解和操作等等。

HUZHUANGZHUANG

184 天前

我不关心什么跑分，我只关心谁用的顺手

Promtheus

184 天前

懂了 claude 3.7 最强

seven777

184 天前

数学和推理 Grok3 目前最强, 代码 Claude3.7 最强.
可以反驳,但我不接受.
"竞赛制编程"有什么明显的不同和特点?

iflint

184 天前

@enchilada2020 这么牛🐂

zekeluii

184 天前

寫代碼確實是 Claude 3.7 最強

windyboy

184 天前

奥林匹克信息竞赛题和实际的编程问题真不是一样的东西，虽然都叫做程序

cheng6563

184 天前

所以你整天竞赛还是整天 CURD ？

第 1 页／共 3 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1119002

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.