V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
guoguobaba
V2EX  ›  Local LLM

mac studio 跑大模型也就那样啊

  •  
  •   guoguobaba · 76 天前 · 3363 次点击
    这是一个创建于 76 天前的主题,其中的信息可能已经有所发展或是发生改变。

    也就是个玩具的水平 mac studio m3 ultra, 512g 内存/显存,671b q4_k_m ,gpu 和内存都跑满了,10 几个 tokens/s

    32b ,内存不算多,8%,但是 gpu 总是跑满,20 多个 tokens/s

    如果在一台里加上嵌入和 rerank 模型(知识库标配),基本上都很卡

    跑 obsidian 和 dify 的知识库,速度和我的 amd + 64g 内存+ 4060ti 16g 跑 14b 差不多。

    26 条回复    2025-05-19 10:49:15 +08:00
    coefuqin
        1
    coefuqin  
       76 天前
    你可以五折出给我,我不嫌弃。🐶
    dilidilid
        2
    dilidilid  
       76 天前
    本来就那样,一个是 Mac 虽然显存大但是 TOPS 少,真跑大的模型算力上力不从心,另外一个是大部分主流模型都是专门给 CUDA 做优化,很少有人会考虑在 Mac 上跑起来怎么样。真要跑模型不如弄个 48G 的 4090
    F281M6Dh8DXpD1g2
        3
    F281M6Dh8DXpD1g2  
       76 天前 via iPhone
    671b 你跟 14b 比啊
    guoguobaba
        4
    guoguobaba  
    OP
       76 天前
    @liprais 32b 没看到吗
    littlewing
        5
    littlewing  
       76 天前
    M4 是不是会提升很大?
    icyalala
        6
    icyalala  
       76 天前   ❤️ 1
    之前吹的是说这个小的单机上能加载 617b 模型,而其他消费级显卡显存不够,压根跑都跑不起来。
    你 amd + 64g 内存跑个 617b 看看呢?
    Awes0me
        7
    Awes0me  
       76 天前   ❤️ 1
    那你为什么不跟 32b 比呢
    yolyzhu
        8
    yolyzhu  
       76 天前
    本来就不快呀,NV 护城河还是有点含金量的……
    JensenQian
        9
    JensenQian  
       76 天前
    那当然
    不然老黄的卡卖给谁啊
    michaelzxp
        10
    michaelzxp  
       76 天前
    只是能跑最大模型,但是算力不行,所以没有想的那么好
    june4
        11
    june4  
       76 天前
    @icyalala 之前有个文章,花 3w 组 768G 内存 amd pc 跑 617b Q8 ,CPU 硬跑 7 token/s 。这价格比 mac 少一倍,但速度也慢。
    felixcode
        12
    felixcode  
       76 天前 via Android
    他们说了你真信啊,谁说的找谁呗
    MacsedProtoss
        13
    MacsedProtoss  
       76 天前 via iPhone
    现在消费级硬件跑的本地模型就没一个效果够好的 个人使用没有必要本地 ai 意义很小
    lululau
        14
    lululau  
       76 天前
    @june4 少一半,少一倍就是零元购了
    234ygg
        15
    234ygg  
       76 天前
    哈哈,那帮博主只字不提回答问题的时候吐出第一个字要多久,更不提上下文变长了之后的速度。。
    目前综合来说,普通消费级产品里也就只有拿 4090 5090 跑跑显存占用 20GB 左右的那些 27b 32b 量化还行了,但是远比本地 32b 强的 gpt 4o 官方 api 都比自己跑的成本少至少便宜一个 0
    zhanying
        16
    zhanying  
       76 天前 via Android
    目前来看,个人本地部署大模型最大的意义就是部署本身,换句话说就是图个折腾的过程😂
    icyalala
        17
    icyalala  
       76 天前
    @june4 现在 LLM 推理大部分情况下瓶颈是显存带宽而不是算力。
    A100/H100 那些显存都是贼贵的 HBM ,带宽都是几 TB/s ,MacStudio 512GB 带宽也就 800GB/s ,根本比不上
    内存方案基本就是 ktransformers ,CPU/GPU 算力足够的时候,同样也是受限于内存带宽
    PhDLuffy
        18
    PhDLuffy  
       76 天前   ❤️ 1
    你这语言能力和逻辑表达是怎么回事,说的好像你那破 4060ti 跟 m3 ultra 一个水平
    maolon
        19
    maolon  
       76 天前 via Android   ❤️ 1
    q4km....你连 mac 的专属格式 mlx 都不肯跑在这里抱怨速度慢? mlx 好歹 r1 你速度能接近 18t/s, v3 能接近 20t/s
    而且我也有理由相信你没解内存锁
    neteroster
        20
    neteroster  
       76 天前 via Android
    本来就是玩具水平,你在期待些什么?

    Mac 的优势只有一个,那就是能在 bs=1 和轻 prefill 负载下以相对好的性价比跑较大的模型,这是因为他的内存带宽高而计算能力相比起来非常非常低,因此就算 M3U 跑 r1 这种激活不到 40b 的 MoE 在真实工作负载下也就略高于 10tps ,上下文一长生成速度和 TTFT 更是难看。
    iamqk
        21
    iamqk  
       75 天前
    mac 就是内存/显存优势
    算力不行而已,不如 nv 的旗舰显卡
    ps:隔壁也看到了
    jfsd2000
        22
    jfsd2000  
       75 天前
    全方位吊打 nv 的话苹果肯卖你也卖不到啊。
    moooookey
        23
    moooookey  
       75 天前 via iPhone
    苹果现在的东西,娱乐一下就行了,你可别真当生产力工具啊,对自己好点
    SakuraYuki
        24
    SakuraYuki  
       75 天前
    别人说的明明是能在这个价位跑 671b 的模型,同价位显卡显存不够跑不起来,可从来没人说过 mac 跑大模型速度快的,毕竟没 cuda 加速,苹果那个 metal 生态没 cuda 好
    clemente
        25
    clemente  
       75 天前
    速度不行 但是至少能用啊
    fredweili
        26
    fredweili  
       75 天前
    能和消费级显卡比较,就不错了,至少不贵能买的到啊
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   930 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 22:52 · PVG 06:52 · LAX 15:52 · JFK 18:52
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.