mac studio 跑大模型也就那样啊 - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 214 天前的主题，其中的信息可能已经有所发展或是发生改变。

也就是个玩具的水平 mac studio m3 ultra, 512g 内存/显存，671b q4_k_m ，gpu 和内存都跑满了，10 几个 tokens/s

32b ，内存不算多，8%，但是 gpu 总是跑满，20 多个 tokens/s

如果在一台里加上嵌入和 rerank 模型（知识库标配），基本上都很卡

跑 obsidian 和 dify 的知识库，速度和我的 amd + 64g 内存+ 4060ti 16g 跑 14b 差不多。

26 条回复 • 2025-05-19 10:49:15 +08:00

1

coefu

214 天前

你可以五折出给我，我不嫌弃。🐶

2

dilidilid

214 天前

本来就那样，一个是 Mac 虽然显存大但是 TOPS 少，真跑大的模型算力上力不从心，另外一个是大部分主流模型都是专门给 CUDA 做优化，很少有人会考虑在 Mac 上跑起来怎么样。真要跑模型不如弄个 48G 的 4090

3

F281M6Dh8DXpD1g2

214 天前 via iPhone

671b 你跟 14b 比啊

4

guoguobaba

OP

214 天前

@liprais 32b 没看到吗

5

littlewing

214 天前

M4 是不是会提升很大？

6

icyalala

214 天前

1

之前吹的是说这个小的单机上能加载 617b 模型，而其他消费级显卡显存不够，压根跑都跑不起来。
你 amd + 64g 内存跑个 617b 看看呢？

7

Awes0me

214 天前

1

那你为什么不跟 32b 比呢

8

yolyzhu

214 天前

本来就不快呀，NV 护城河还是有点含金量的……

9

JensenQian

214 天前

那当然
不然老黄的卡卖给谁啊

10

michaelzxp

214 天前

只是能跑最大模型，但是算力不行，所以没有想的那么好

11

june4

214 天前

@icyalala 之前有个文章，花 3w 组 768G 内存 amd pc 跑 617b Q8 ，CPU 硬跑 7 token/s 。这价格比 mac 少一倍，但速度也慢。

12

felixcode

214 天前 via Android

他们说了你真信啊，谁说的找谁呗

13

MacsedProtoss

214 天前 via iPhone

现在消费级硬件跑的本地模型就没一个效果够好的个人使用没有必要本地 ai 意义很小

14

lululau

214 天前

@june4 少一半，少一倍就是零元购了

15

234ygg

214 天前

哈哈，那帮博主只字不提回答问题的时候吐出第一个字要多久，更不提上下文变长了之后的速度。。
目前综合来说，普通消费级产品里也就只有拿 4090 5090 跑跑显存占用 20GB 左右的那些 27b 32b 量化还行了，但是远比本地 32b 强的 gpt 4o 官方 api 都比自己跑的成本少至少便宜一个 0

16

zhanying

214 天前 via Android

目前来看，个人本地部署大模型最大的意义就是部署本身，换句话说就是图个折腾的过程😂

17

icyalala

214 天前

@june4 现在 LLM 推理大部分情况下瓶颈是显存带宽而不是算力。
A100/H100 那些显存都是贼贵的 HBM ，带宽都是几 TB/s ，MacStudio 512GB 带宽也就 800GB/s ，根本比不上
内存方案基本就是 ktransformers ，CPU/GPU 算力足够的时候，同样也是受限于内存带宽

18

PhDLuffy

214 天前

1

你这语言能力和逻辑表达是怎么回事，说的好像你那破 4060ti 跟 m3 ultra 一个水平

19

maolon

214 天前 via Android

1

q4km....你连 mac 的专属格式 mlx 都不肯跑在这里抱怨速度慢？ mlx 好歹 r1 你速度能接近 18t/s, v3 能接近 20t/s
而且我也有理由相信你没解内存锁

20

neteroster

214 天前 via Android

本来就是玩具水平，你在期待些什么？

Mac 的优势只有一个，那就是能在 bs=1 和轻 prefill 负载下以相对好的性价比跑较大的模型，这是因为他的内存带宽高而计算能力相比起来非常非常低，因此就算 M3U 跑 r1 这种激活不到 40b 的 MoE 在真实工作负载下也就略高于 10tps ，上下文一长生成速度和 TTFT 更是难看。

21

iamqk

214 天前

mac 就是内存/显存优势
算力不行而已，不如 nv 的旗舰显卡
ps：隔壁也看到了

22

jfsd2000

214 天前

全方位吊打 nv 的话苹果肯卖你也卖不到啊。

23

moooookey

214 天前 via iPhone

苹果现在的东西，娱乐一下就行了，你可别真当生产力工具啊，对自己好点

24

SakuraYuki

214 天前

别人说的明明是能在这个价位跑 671b 的模型，同价位显卡显存不够跑不起来，可从来没人说过 mac 跑大模型速度快的，毕竟没 cuda 加速，苹果那个 metal 生态没 cuda 好

25

clemente

213 天前

速度不行但是至少能用啊

26

fredweili

213 天前

能和消费级显卡比较，就不错了，至少不贵能买的到啊

关于 · 帮助文档 · 自助推广系统 · 博客 · API · FAQ · Solana · 5479 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 33ms · UTC 02:41 · PVG 10:41 · LAX 18:41 · JFK 21:41
♥ Do have faith in what you're doing.