【学习心得】vllm serve 命令常用CLI参考
vLLM 部署参数说明
(0)快速示例
① 部署Qwen3-VL-8B-Instruct
# 部署Qwen3-VL-8B-Instruct
CUDA_VISIBLE_DEVICES=0,1,2,3 nohup vllm serve /models/Qwen3-VL-8B-Instruct \
--tensor-parallel-size 4 \
--limit-mm-per-prompt.video 0 \
--async-scheduling \
--gpu-memory-utilization 0.9 \
--max-model-len 32768 \
--max-num-seqs 128 \
--port 8100 \
--api-key "no-key" \
--served-model-name qwen3-vl-8b &
② 部署Qwen3-VL-8B-Instruct
# 部署Qwen3-14B
CUDA_VISIBLE_DEVICES=4,5,6,7 nohup vllm serve /models/Qwen3-14B \
--tensor-parallel-size 4 \
--disable-custom-all-reduce \
--gpu-memory-utilization 0.8 \
--served-model-name qwen3-14b \
--port 8200 \
--api-key "no-key" &
vllm官方CLI参考
https://docs.vllm.ai/en/latest/cli/(1)通用选项
-
CUDA_VISIBLE_DEVICES
指定使用哪几块 GPU,配合单机多卡参数使用。 -
--served-model-name
指定模型服务的名字。 -
--port
指定端口,默认为8000。 -
--host
指定访问主机名,默认为0.0.0.0。 -
--api-key
如果提供,服务器将要求在请求头中包含此密钥。 -
--headless
不启动 HTTP 前端,无法通过兼容 OpenAI 的 API 访问。 -
--tensor-parallel-size或-tp
指定张量并行推理的数量。 -
--pipeline-parallel-size或-pp
流水线并行组的数量。 -
--data-parallel-size或-dp
数据并行组的数量。MoE 层将根据张量并行大小和数据并行大小的乘积进行分片。 -
--gpu-memory-utilization
限制单块 GPU 的利用率。 -
--max-model-len
限制输入模型的最大上下文长度。 -
--chat-template
指定聊天模板文件路径。 -
--tool-call-parser
指定要使用的解析器(可选值为:deepseek_v3,glm45,granite-20b-fc,granite,hermes,hunyuan_a13b,internlm,jamba,kimi_k2,llama4_pythonic,llama4_json,llama3_json,minimax,mistral,phi4_mini_json,pythonic,qwen3_coder,xlam)。 -
--tool-parser-plugin
自定义的工具解析器插件,用于将模型生成的工具解析为 OpenAI API 格式;此插件中注册的名称可以在--tool-call-parser中使用。 -
--trust-remote-code,--no-trust-remote-code
下载模型和分词器时是否信任远程代码(例如,来自 HuggingFace 或 ModelScope)。 -
--dtype
模型权重和激活的数据类型。可选值包括:auto:对 FP32 和 FP16 模型使用 FP16 精度,对 BF16 模型使用 BF16 精度。half/float16:FP16 精度,推荐用于 AWQ 量化。bfloat16:在精度和范围之间取得平衡。float/float32:FP32 精度。
(2)视觉模型特有的选项
注意:如果要使用 vLLM 部署 Qwen3-VL 视觉模型,需先安装 Qwen-VL 实用程序库(建议用于离线推理):
pip install qwen-vl-utils==0.0.14
-
--limit-mm-per-prompt
每个模态每条提示允许的最大输入项数。
示例:允许每条提示最多 16 张图片和 2 个视频:--limit-mm-per-prompt '{"images": 16, "videos": 2}' -
--limit-mm-per-prompt.video 0
若仅使用图片推理而不需要视频,可将video设为0。 -
--async-scheduling
启用异步调度,有助于减少 CPU 开销,从而改善延迟和吞吐量。
注意:异步调度目前不支持结构化输出、推测解码和管道并行。
参考资料1:vLLM Recipes
https://docs.vllm.ai/projects/recipes/en/latest/参考资料2:vLLM的CLI参考
https://docs.vllm.com.cn/en/latest/cli/index.html
更多推荐


所有评论(0)