mac studio 跑大模型也就那样啊

78 天前
 guoguobaba

也就是个玩具的水平 mac studio m3 ultra, 512g 内存/显存,671b q4_k_m ,gpu 和内存都跑满了,10 几个 tokens/s

32b ,内存不算多,8%,但是 gpu 总是跑满,20 多个 tokens/s

如果在一台里加上嵌入和 rerank 模型(知识库标配),基本上都很卡

跑 obsidian 和 dify 的知识库,速度和我的 amd + 64g 内存+ 4060ti 16g 跑 14b 差不多。

3370 次点击
所在节点    Local LLM
26 条回复
coefuqin
78 天前
你可以五折出给我,我不嫌弃。🐶
dilidilid
78 天前
本来就那样,一个是 Mac 虽然显存大但是 TOPS 少,真跑大的模型算力上力不从心,另外一个是大部分主流模型都是专门给 CUDA 做优化,很少有人会考虑在 Mac 上跑起来怎么样。真要跑模型不如弄个 48G 的 4090
F281M6Dh8DXpD1g2
78 天前
671b 你跟 14b 比啊
guoguobaba
78 天前
@liprais 32b 没看到吗
littlewing
78 天前
M4 是不是会提升很大?
icyalala
78 天前
之前吹的是说这个小的单机上能加载 617b 模型,而其他消费级显卡显存不够,压根跑都跑不起来。
你 amd + 64g 内存跑个 617b 看看呢?
Awes0me
78 天前
那你为什么不跟 32b 比呢
yolyzhu
78 天前
本来就不快呀,NV 护城河还是有点含金量的……
JensenQian
78 天前
那当然
不然老黄的卡卖给谁啊
michaelzxp
78 天前
只是能跑最大模型,但是算力不行,所以没有想的那么好
june4
78 天前
@icyalala 之前有个文章,花 3w 组 768G 内存 amd pc 跑 617b Q8 ,CPU 硬跑 7 token/s 。这价格比 mac 少一倍,但速度也慢。
felixcode
78 天前
他们说了你真信啊,谁说的找谁呗
MacsedProtoss
78 天前
现在消费级硬件跑的本地模型就没一个效果够好的 个人使用没有必要本地 ai 意义很小
lululau
78 天前
@june4 少一半,少一倍就是零元购了
234ygg
78 天前
哈哈,那帮博主只字不提回答问题的时候吐出第一个字要多久,更不提上下文变长了之后的速度。。
目前综合来说,普通消费级产品里也就只有拿 4090 5090 跑跑显存占用 20GB 左右的那些 27b 32b 量化还行了,但是远比本地 32b 强的 gpt 4o 官方 api 都比自己跑的成本少至少便宜一个 0
zhanying
78 天前
目前来看,个人本地部署大模型最大的意义就是部署本身,换句话说就是图个折腾的过程😂
icyalala
78 天前
@june4 现在 LLM 推理大部分情况下瓶颈是显存带宽而不是算力。
A100/H100 那些显存都是贼贵的 HBM ,带宽都是几 TB/s ,MacStudio 512GB 带宽也就 800GB/s ,根本比不上
内存方案基本就是 ktransformers ,CPU/GPU 算力足够的时候,同样也是受限于内存带宽
PhDLuffy
78 天前
你这语言能力和逻辑表达是怎么回事,说的好像你那破 4060ti 跟 m3 ultra 一个水平
maolon
77 天前
q4km....你连 mac 的专属格式 mlx 都不肯跑在这里抱怨速度慢? mlx 好歹 r1 你速度能接近 18t/s, v3 能接近 20t/s
而且我也有理由相信你没解内存锁
neteroster
77 天前
本来就是玩具水平,你在期待些什么?

Mac 的优势只有一个,那就是能在 bs=1 和轻 prefill 负载下以相对好的性价比跑较大的模型,这是因为他的内存带宽高而计算能力相比起来非常非常低,因此就算 M3U 跑 r1 这种激活不到 40b 的 MoE 在真实工作负载下也就略高于 10tps ,上下文一长生成速度和 TTFT 更是难看。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1132571

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX