1 
                    
                    neteroster      262 天前 via Android    1. 都用这些设备了不用 sglang 跑去用 ollama 这种干啥 
                2. 没多大并发占用当然不会高,bs=1 decode 是显存带宽瓶颈。  | 
            
     2 
                    
                    zhuwd   OP @neteroster 感谢!!小白刚上手,搜了下都是用 ollama 在部署,这就去看一下 sglang 
                 | 
            
     3 
                    
                    hertzry      262 天前 via iPhone 
                    
                    NVLink 需要专门的硬件交换机,你这 PCIe 版用不了。 
                 | 
            
     4 
                    
                    TimeNewRome      262 天前 
                    
                    deepseek 对 IO 要求很高。楼主的 token 输出慢,多半是因为 IO 传输存在瓶颈。 
                所以最好的解决办法,应该是换成 NVLINK 而不是继续用 PCIE 。 PCIE 通道数有上限,会严重拖慢 IO 速度。  | 
            
     5 
                    
                    liuyuncai      262 天前 
                    
                    被多机互联的通信带宽限制了,而且你这个是 PCIE 的,GPU 通信也被限制了 
                 | 
            
     6 
                    
                    cpstar      262 天前 
                    
                    谁给的勇气判定“理论上性能是足够的”? 
                这 8 台,还不知道单台多少块 A100 ,就算是 8 块,总共 64 块。那么首先单台的八卡联合工作问题不大,总共可用显存 320G ,可以上 q8 甚至 fp16 量化,但是 671b 够不到。 然后就是 8 台机器协同,基本上 PCIE 的不要想了。如果是 8 卡的情况,还需要 8 条 PCIE 插槽给每个显卡配套一张 IB 卡,然后 IB 组网还需要至少 8 台交换机(也许更多,具体方案没有细算过)。反正是 PCIE 版的基本就放弃机间组网,玩一玩本机多卡协同就到头了。然后如果需要机器协同,请去查找 SXM 版的 A100 。  | 
            
     8 
                    
                    scys      262 天前 
                    
                    看运行环境的占用情况和参考 Ollama 的 issue 讨论 8xA100 相关就明白。 
                 | 
            
     9 
                    
                    apuslilie      262 天前 
                    
                    好奇去了解了一下 NVlink ,感觉机器学习对 GPU 之间通信的要求还挺高的(不然 PCIe 应该就够了)。 
                个人理解这方面是不是在算法上还有继续挖掘的空间?如果对通信带宽的要求这么高,通信本身的开销就不小吧。 一般 CPU 为主的计算,通信的开销有,但是感觉要小得多,节点不多的时候用普通网线连接都可以。  | 
            
     10 
                    
                    iorilu      262 天前 
                    
                    70b? 为什么要这么多卡 
                 | 
            
     11 
                    
                    wuyadaxian      261 天前     | 
            
     12 
                    
                    reeco      261 天前    生产环境显存足够还用 ollama 这种套壳干嘛,暴殄天物。70B 用 Triton + TensorRT-LLM 理论性能是最好的 
                 | 
            
     13 
                    
                    secondwtq      261 天前 
                    
                    你把 PCIe P2P 搞起来就可以,应该是不需要 NVLink 的。 
                 | 
            
     14 
                    
                    secondwtq      261 天前 
                    
                    70B 的话试试用四块跑,卡越多通信开销越大。 
                 | 
            
     15 
                    
                    kernelpanic      261 天前 
                    
                    deepseek 只有一个 671B 版本 
                 | 
            
     16 
                    
                    eternitym31      261 天前 
                    
                    我试过 pcie 和 nvlink 的 8 卡 a100 ,性能差的很少,10%都不到。另外如果是 fp16 权重我感觉 40gb x 8 是不够部署 70B 模型的,我怀疑可能发生了显存和内存的交换,出现了 IO 瓶颈。 
                 | 
            
     17 
                    
                    carmark      261 天前 
                    
                    8 台还是 8 张,节点内可以走 nvlink 或者 pcie ,节点间如果要低延时可以走 IB 或者 RoCE 。一般而言推理并不需要高带宽,但是需要低延迟的产品。所以如果是 8 台机器最好上 IB 或者 RoCE ,这个比以太网好太多,如果是单机八卡那么其实上 nvlink 意义不大,重点还是要用正经的推理引擎,ollama 的目标是为了能兼容多种硬件。 
                 | 
            
     18 
                    
                    lkc3093      260 天前 via Android 
                    
                    sxm 版本的才能用 nvlink 
                 | 
            
     19 
                    
                    mengban      259 天前 
                    
                    70B 是指蒸馏版本的 Qwen 吧? 严格来说 这个和 dsk 相差甚远   真想部署所谓的满血 dsk  起步配置是 16 张 80G 的卡 你这配置估计体验不到 dsk 的能力 
                 |