想自己本地跑大模型,学习大模型,做一些微调等操作,目前看到一款小主机在预算内, CPU AMD Ryzen Al Max+ 395,不知道这套配置是否适合用来学习大模型跑大模型,有没有懂的兄弟可以给点建议。

5 天前
 hmbb
CPU:AMD Ryzen Al Max+ 395 处理器(16 核心 32 线程,最大睿频 5.1GHz ,三级缓存 64MB)
显卡:AMD Radeon 8060S Graphics 40CUs
系统盘:M.2 2280 PCle4.0 x4(最大 4TB)*1
存储盘:M.2 2280 PCle4.0 x4(最大 4TB)*1
内存:128GB(16GB*8) LPDDR5x 8000MT/s (最大可分配 96GB 给显存)
接口:AC*1 + USB3.2(10Gbps)*2 + SD4.0 卡槽*1 + LAN 10Gbps(Intel E610)*2 + USB-C(10Gbps 数据)*1 + 3.5mm 音频插孔*2 + DP2.1 8k 60Hz*1 + HDMI2.1 8K 60Hz*1 + USB4(40Gbps/DP1.4)*2
无线网络:WIFI7 MT7925; 蓝牙 5.4
3625 次点击
所在节点    Local LLM
68 条回复
woojanelook
4 天前
a 卡没 cuda,你到多模态,图片这些就跑不了了
bigtear
4 天前
说实话这个配置跑跑推理当玩具还行,训练是别想了。起码上个自组 PC ,买点洋垃圾 nvidia 推理卡插上。

想要一万多整机的话可以看看王勇的懒猫微服算力舱,nvidia 芯片,64g 统一内存的机器。
hmbb
4 天前
@shuimugan 我研究一下
mewking
4 天前
@shuimugan 请问,GLM 4.5 Air 的 4bit 量化比较 Qwen3-30B-A3B BF16 如何?本地 code
hmbb
4 天前
@wnpllrzodiac 训练搞不了
hmbb
4 天前
@aqqwiyth 参数量大的虽然能跑但很慢
hmbb
4 天前
@misaki321 用这个卡组主机超预算了
hmbb
4 天前
@bigtear 我看看
dosmlp
4 天前
你研究的明白吗
hmbb
4 天前
@312ybj 暂时应该不会入手了
bitmin
4 天前
7840u 核显我自己用,跑 gptoss 20b 都够用了,qwen3 coder 30b 勉强跑

缺点是是能划分到 16G 显存,上下文大小限制在两万以下,要更大的上下文就得更大的显存,395 这种 cpu 就是用来解决这个问题的吧

这种 cpu 可以装在掌机里方便我随身带者到处跑
wnay
4 天前
当你问这些问题的时候就知道,你对大模型的知识了解很少,建议先学习基础知识比如部署,训练,微调至少概念弄明白了再做这些投入
当然你要是钱多,无所谓,干就完了
cornorj6
4 天前
本地模型只要复杂一点的问题就回答不了,不如调用 API 。本地模型有个优势,没有什么限制。我用的 openrouter ,调用 api 有频率限制,像一些简单的问题就可以用本地模型。我是 mac mini 4 ,跑的 14b
mandex
4 天前
挺好的,有钱就买,就算 AI 没搞成也可以当普通开发机器使用。
zx1w1w
4 天前
要么买 MacMini 32G 以上内存,要么买 5090D 32G 的。AMD 的别碰,或者直接上云租算力。
shuimugan
4 天前
@mewking 这个问题要看你写什么语言的,Qwen3 30B-A3B 没必要追求 BF16 ,Q6 就差不多了,我测 unsloth 的 Q6_K_XL 那档动态量化和 mlx 的 4bit DWQ 没啥区别,接入 Roo Code 自助完成一些 Node 和 Go 的任务都差不多,但是写 Rust 的话 Qwen3 Coder 30B-A3B 会在写了 50 多 K 上下文之后决定删除所有文件重头开始一个简单的版本…丢给 GLM 4.5 Air 4bit 就能完成而且修复一些 bug 都是点一下 Fix With Roo Code 就搞定了。

我本地 192GB 的 M2 Ultra 现在常驻内存的是 GLM 4.5 Air 4bit 和 gpt-oss-120B ,再留一个 mellum 做补全和 text-embedding-nomic-embed-text-v1.5 做代码 embedding
MaybeRichard
4 天前
导之前充了 1w 多玩大模型,还剩好几千用不完,有想玩的朋友 5 折出了,量大 3-4 折出,3060 到 A100 80G 都有,现成的公开项目也有都,开机即用,视觉、视频、LLM 模型都有 TWF5YmVSaWNoYXJk
BQsummer
4 天前
a 卡没 cuda, 推理有各种库, 自己训练模型就不行了
blackmont
4 天前
395+ 不太行,vllm RCom 好像还没适配,你要启动的话只能通过 llama 系列的衍生产品。不太建议购买,建议 CUDA 生态,或者租服务器。而且可以自己先去学一学再决定。
mewking
4 天前
@shuimugan 感谢详细的回复。看了看 GLM 4.5 Air 4bit 部署成本还是挺高,Qwen3 Coder 30B-A3B 如果是 Q6 ,DDR5 内存应该也能跑挺快~

这些小的本地模型对于 Java 和 C# 效果如何?想来应该是不如 js 和 py

C/C++,Rust 就更差?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1157170

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX