也就是个玩具的水平 mac studio m3 ultra, 512g 内存/显存,671b q4_k_m ,gpu 和内存都跑满了,10 几个 tokens/s
32b ,内存不算多,8%,但是 gpu 总是跑满,20 多个 tokens/s
如果在一台里加上嵌入和 rerank 模型(知识库标配),基本上都很卡
跑 obsidian 和 dify 的知识库,速度和我的 amd + 64g 内存+ 4060ti 16g 跑 14b 差不多。
![]() |
1
coefuqin 76 天前
你可以五折出给我,我不嫌弃。🐶
|
2
dilidilid 76 天前
本来就那样,一个是 Mac 虽然显存大但是 TOPS 少,真跑大的模型算力上力不从心,另外一个是大部分主流模型都是专门给 CUDA 做优化,很少有人会考虑在 Mac 上跑起来怎么样。真要跑模型不如弄个 48G 的 4090
|
![]() |
3
F281M6Dh8DXpD1g2 76 天前 via iPhone
671b 你跟 14b 比啊
|
![]() |
4
guoguobaba OP @liprais 32b 没看到吗
|
5
littlewing 76 天前
M4 是不是会提升很大?
|
![]() |
6
icyalala 76 天前 ![]() 之前吹的是说这个小的单机上能加载 617b 模型,而其他消费级显卡显存不够,压根跑都跑不起来。
你 amd + 64g 内存跑个 617b 看看呢? |
![]() |
7
Awes0me 76 天前 ![]() 那你为什么不跟 32b 比呢
|
![]() |
8
yolyzhu 76 天前
本来就不快呀,NV 护城河还是有点含金量的……
|
![]() |
9
JensenQian 76 天前
那当然
不然老黄的卡卖给谁啊 |
![]() |
10
michaelzxp 76 天前
只是能跑最大模型,但是算力不行,所以没有想的那么好
|
![]() |
11
june4 76 天前
@icyalala 之前有个文章,花 3w 组 768G 内存 amd pc 跑 617b Q8 ,CPU 硬跑 7 token/s 。这价格比 mac 少一倍,但速度也慢。
|
![]() |
12
felixcode 76 天前 via Android
他们说了你真信啊,谁说的找谁呗
|
13
MacsedProtoss 76 天前 via iPhone
现在消费级硬件跑的本地模型就没一个效果够好的 个人使用没有必要本地 ai 意义很小
|
15
234ygg 76 天前
哈哈,那帮博主只字不提回答问题的时候吐出第一个字要多久,更不提上下文变长了之后的速度。。
目前综合来说,普通消费级产品里也就只有拿 4090 5090 跑跑显存占用 20GB 左右的那些 27b 32b 量化还行了,但是远比本地 32b 强的 gpt 4o 官方 api 都比自己跑的成本少至少便宜一个 0 |
![]() |
16
zhanying 76 天前 via Android
目前来看,个人本地部署大模型最大的意义就是部署本身,换句话说就是图个折腾的过程😂
|
![]() |
17
icyalala 76 天前
@june4 现在 LLM 推理大部分情况下瓶颈是显存带宽而不是算力。
A100/H100 那些显存都是贼贵的 HBM ,带宽都是几 TB/s ,MacStudio 512GB 带宽也就 800GB/s ,根本比不上 内存方案基本就是 ktransformers ,CPU/GPU 算力足够的时候,同样也是受限于内存带宽 |
18
PhDLuffy 76 天前 ![]() 你这语言能力和逻辑表达是怎么回事,说的好像你那破 4060ti 跟 m3 ultra 一个水平
|
19
maolon 76 天前 via Android ![]() q4km....你连 mac 的专属格式 mlx 都不肯跑在这里抱怨速度慢? mlx 好歹 r1 你速度能接近 18t/s, v3 能接近 20t/s
而且我也有理由相信你没解内存锁 |
![]() |
20
neteroster 76 天前 via Android
本来就是玩具水平,你在期待些什么?
Mac 的优势只有一个,那就是能在 bs=1 和轻 prefill 负载下以相对好的性价比跑较大的模型,这是因为他的内存带宽高而计算能力相比起来非常非常低,因此就算 M3U 跑 r1 这种激活不到 40b 的 MoE 在真实工作负载下也就略高于 10tps ,上下文一长生成速度和 TTFT 更是难看。 |
![]() |
21
iamqk 75 天前
mac 就是内存/显存优势
算力不行而已,不如 nv 的旗舰显卡 ps:隔壁也看到了 |
22
jfsd2000 75 天前
全方位吊打 nv 的话苹果肯卖你也卖不到啊。
|
![]() |
23
moooookey 75 天前 via iPhone
苹果现在的东西,娱乐一下就行了,你可别真当生产力工具啊,对自己好点
|
![]() |
24
SakuraYuki 75 天前
别人说的明明是能在这个价位跑 671b 的模型,同价位显卡显存不够跑不起来,可从来没人说过 mac 跑大模型速度快的,毕竟没 cuda 加速,苹果那个 metal 生态没 cuda 好
|
![]() |
25
clemente 75 天前
速度不行 但是至少能用啊
|
26
fredweili 75 天前
能和消费级显卡比较,就不错了,至少不贵能买的到啊
|