V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
sdenvi
V2EX  ›  问与答

双卡部署 Swift /Qwen3-32B-AWQ 模型,回答速度慢,乱回答

  •  
  •   sdenvi · 26 天前 · 803 次点击

    想要支撑更多的并发量,有两张 A40 的显卡使用双卡进行模型部署,服务器不支持 nvlink ,当并发达到 15 个以上之后首个 token 响应时间达到了 10s 以上,并且模型运行一段时间后会出现乱回答问题的情况。

    使用单卡部署不会出现乱回答情况,并发 5 个以下,首个 token 时间平均 5s 左右,使用 vllm 的方式进行部署,启动的参数如下:

    docker run --runtime=nvidia --gpus '"device=4,5"' \
      -v /backup/Qw30:/app/model \
      -p 6666:8000 \
      --shm-size=128g \
      --name qw3-300B \
      --restart unless-stopped \
      -e NCCL_IB_DISABLE=1 \
      -d qwen3-2.0 \
      python3 -m vllm.entrypoints.openai.api_server \
        --model /app/model \
        --tensor-parallel-size 2 \
        --host 0.0.0.0 \
        --port 8000 \
        --max-model-len 8096 \
        --gpu-memory-utilization 0.9 \
        --cpu-offload-gb 0 \
        --max-num-batched-tokens 25600 \
        --max-num-seqs 256 \
        --served-model-name "Qwen3-30B-A3B-3.0"
    

    由于没有什么部署经验,能力有限,所有的方法都来自 AI ,接受付费咨询

    目前尚无回复
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3122 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 20ms · UTC 11:28 · PVG 19:28 · LAX 04:28 · JFK 07:28
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.