mac studio 跑大模型也就那样啊

也就是个玩具的水平 mac studio m3 ultra, 512g 内存/显存，671b q4_k_m ，gpu 和内存都跑满了，10 几个 tokens/s

32b ，内存不算多，8%，但是 gpu 总是跑满，20 多个 tokens/s

如果在一台里加上嵌入和 rerank 模型（知识库标配），基本上都很卡

跑 obsidian 和 dify 的知识库，速度和我的 amd + 64g 内存+ 4060ti 16g 跑 14b 差不多。

dilidilid

78 天前

本来就那样，一个是 Mac 虽然显存大但是 TOPS 少，真跑大的模型算力上力不从心，另外一个是大部分主流模型都是专门给 CUDA 做优化，很少有人会考虑在 Mac 上跑起来怎么样。真要跑模型不如弄个 48G 的 4090

icyalala

78 天前

之前吹的是说这个小的单机上能加载 617b 模型，而其他消费级显卡显存不够，压根跑都跑不起来。
你 amd + 64g 内存跑个 617b 看看呢？

june4

78 天前

@icyalala 之前有个文章，花 3w 组 768G 内存 amd pc 跑 617b Q8 ，CPU 硬跑 7 token/s 。这价格比 mac 少一倍，但速度也慢。

MacsedProtoss

78 天前

现在消费级硬件跑的本地模型就没一个效果够好的个人使用没有必要本地 ai 意义很小

234ygg

78 天前

哈哈，那帮博主只字不提回答问题的时候吐出第一个字要多久，更不提上下文变长了之后的速度。。
目前综合来说，普通消费级产品里也就只有拿 4090 5090 跑跑显存占用 20GB 左右的那些 27b 32b 量化还行了，但是远比本地 32b 强的 gpt 4o 官方 api 都比自己跑的成本少至少便宜一个 0

zhanying

78 天前

目前来看，个人本地部署大模型最大的意义就是部署本身，换句话说就是图个折腾的过程😂

icyalala

78 天前

@june4 现在 LLM 推理大部分情况下瓶颈是显存带宽而不是算力。
A100/H100 那些显存都是贼贵的 HBM ，带宽都是几 TB/s ，MacStudio 512GB 带宽也就 800GB/s ，根本比不上
内存方案基本就是 ktransformers ，CPU/GPU 算力足够的时候，同样也是受限于内存带宽

PhDLuffy

78 天前

你这语言能力和逻辑表达是怎么回事，说的好像你那破 4060ti 跟 m3 ultra 一个水平

maolon

77 天前

q4km....你连 mac 的专属格式 mlx 都不肯跑在这里抱怨速度慢？ mlx 好歹 r1 你速度能接近 18t/s, v3 能接近 20t/s
而且我也有理由相信你没解内存锁

neteroster

77 天前

本来就是玩具水平，你在期待些什么？

Mac 的优势只有一个，那就是能在 bs=1 和轻 prefill 负载下以相对好的性价比跑较大的模型，这是因为他的内存带宽高而计算能力相比起来非常非常低，因此就算 M3U 跑 r1 这种激活不到 40b 的 MoE 在真实工作负载下也就略高于 10tps ，上下文一长生成速度和 TTFT 更是难看。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1132571

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.