双卡部署 Swift /Qwen3-32B-AWQ 模型,回答速度慢,乱回答

26 天前
 sdenvi

想要支撑更多的并发量,有两张 A40 的显卡使用双卡进行模型部署,服务器不支持 nvlink ,当并发达到 15 个以上之后首个 token 响应时间达到了 10s 以上,并且模型运行一段时间后会出现乱回答问题的情况。

使用单卡部署不会出现乱回答情况,并发 5 个以下,首个 token 时间平均 5s 左右,使用 vllm 的方式进行部署,启动的参数如下:

docker run --runtime=nvidia --gpus '"device=4,5"' \
  -v /backup/Qw30:/app/model \
  -p 6666:8000 \
  --shm-size=128g \
  --name qw3-300B \
  --restart unless-stopped \
  -e NCCL_IB_DISABLE=1 \
  -d qwen3-2.0 \
  python3 -m vllm.entrypoints.openai.api_server \
    --model /app/model \
    --tensor-parallel-size 2 \
    --host 0.0.0.0 \
    --port 8000 \
    --max-model-len 8096 \
    --gpu-memory-utilization 0.9 \
    --cpu-offload-gb 0 \
    --max-num-batched-tokens 25600 \
    --max-num-seqs 256 \
    --served-model-name "Qwen3-30B-A3B-3.0"

由于没有什么部署经验,能力有限,所有的方法都来自 AI ,接受付费咨询

805 次点击
所在节点    问与答
0 条回复

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1139976

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX