想要支撑更多的并发量,有两张 A40 的显卡使用双卡进行模型部署,服务器不支持 nvlink ,当并发达到 15 个以上之后首个 token 响应时间达到了 10s 以上,并且模型运行一段时间后会出现乱回答问题的情况。
使用单卡部署不会出现乱回答情况,并发 5 个以下,首个 token 时间平均 5s 左右,使用 vllm 的方式进行部署,启动的参数如下:
docker run --runtime=nvidia --gpus '"device=4,5"' \
-v /backup/Qw30:/app/model \
-p 6666:8000 \
--shm-size=128g \
--name qw3-300B \
--restart unless-stopped \
-e NCCL_IB_DISABLE=1 \
-d qwen3-2.0 \
python3 -m vllm.entrypoints.openai.api_server \
--model /app/model \
--tensor-parallel-size 2 \
--host 0.0.0.0 \
--port 8000 \
--max-model-len 8096 \
--gpu-memory-utilization 0.9 \
--cpu-offload-gb 0 \
--max-num-batched-tokens 25600 \
--max-num-seqs 256 \
--served-model-name "Qwen3-30B-A3B-3.0"
由于没有什么部署经验,能力有限,所有的方法都来自 AI ,接受付费咨询