【学习心得】vllm serve 命令常用CLI参考

vLLM 部署参数说明

小oo呆

1184人浏览 · 2025-12-02 16:49:52

小oo呆 · 2025-12-02 16:49:52 发布

（0）快速示例

① 部署Qwen3-VL-8B-Instruct

# 部署Qwen3-VL-8B-Instruct

CUDA_VISIBLE_DEVICES=0,1,2,3 nohup vllm serve /models/Qwen3-VL-8B-Instruct \
	--tensor-parallel-size 4 \
	--limit-mm-per-prompt.video 0 \
	--async-scheduling \
	--gpu-memory-utilization 0.9 \
	--max-model-len 32768 \
	--max-num-seqs 128 \
	--port 8100 \
	--api-key "no-key" \
	--served-model-name qwen3-vl-8b &

② 部署Qwen3-VL-8B-Instruct

# 部署Qwen3-14B

CUDA_VISIBLE_DEVICES=4,5,6,7 nohup vllm serve /models/Qwen3-14B \
	--tensor-parallel-size 4 \
	--disable-custom-all-reduce \
	--gpu-memory-utilization 0.8 \
	--served-model-name qwen3-14b \
	--port 8200 \
	--api-key "no-key" &

vllm官方CLI参考https://docs.vllm.ai/en/latest/cli/（1）通用选项

CUDA_VISIBLE_DEVICES
指定使用哪几块 GPU，配合单机多卡参数使用。
--served-model-name
指定模型服务的名字。
--port
指定端口，默认为 8000。
--host
指定访问主机名，默认为 0.0.0.0。
--api-key
如果提供，服务器将要求在请求头中包含此密钥。
--headless
不启动 HTTP 前端，无法通过兼容 OpenAI 的 API 访问。
--tensor-parallel-size 或 -tp
指定张量并行推理的数量。
--pipeline-parallel-size 或 -pp
流水线并行组的数量。
--data-parallel-size 或 -dp
数据并行组的数量。MoE 层将根据张量并行大小和数据并行大小的乘积进行分片。
--gpu-memory-utilization
限制单块 GPU 的利用率。
--max-model-len
限制输入模型的最大上下文长度。
--chat-template
指定聊天模板文件路径。
--tool-call-parser
指定要使用的解析器（可选值为：deepseek_v3, glm45, granite-20b-fc, granite, hermes, hunyuan_a13b, internlm, jamba, kimi_k2, llama4_pythonic, llama4_json, llama3_json, minimax, mistral, phi4_mini_json, pythonic, qwen3_coder, xlam）。
--tool-parser-plugin
自定义的工具解析器插件，用于将模型生成的工具解析为 OpenAI API 格式；此插件中注册的名称可以在 --tool-call-parser 中使用。
--trust-remote-code, --no-trust-remote-code
下载模型和分词器时是否信任远程代码（例如，来自 HuggingFace 或 ModelScope）。
--dtype
模型权重和激活的数据类型。可选值包括：
- auto：对 FP32 和 FP16 模型使用 FP16 精度，对 BF16 模型使用 BF16 精度。
- half / float16：FP16 精度，推荐用于 AWQ 量化。
- bfloat16：在精度和范围之间取得平衡。
- float / float32：FP32 精度。

（2）视觉模型特有的选项

注意：如果要使用 vLLM 部署 Qwen3-VL 视觉模型，需先安装 Qwen-VL 实用程序库（建议用于离线推理）：

pip install qwen-vl-utils==0.0.14

--limit-mm-per-prompt
每个模态每条提示允许的最大输入项数。
示例：允许每条提示最多 16 张图片和 2 个视频：
```
--limit-mm-per-prompt '{"images": 16, "videos": 2}'
```
--limit-mm-per-prompt.video 0
若仅使用图片推理而不需要视频，可将 video 设为 0。
--async-scheduling
启用异步调度，有助于减少 CPU 开销，从而改善延迟和吞吐量。
注意：异步调度目前不支持结构化输出、推测解码和管道并行。

参考资料1：vLLM Recipeshttps://docs.vllm.ai/projects/recipes/en/latest/参考资料2：vLLM的CLI参考https://docs.vllm.com.cn/en/latest/cli/index.html

魔珐星云具身智能3D数字人开放平台已上线！

电影级数字人，免显卡端渲染SDK，十行代码即可调用，工业级demo免费开源下载！

更多推荐

[具身智能-386]：自主机器人的规划系统

自主机器人的规划系统正经历一场深刻的变革。它不再是一个僵化的指令执行器，而是进化为一个具备常识推理、内部模拟和自主决策能力的智能体。大模型赋予了它理解复杂任务和拆解目标的能力。世界模型则赋予了它“想象力”，使其能够在行动前于“脑海”中预演和评估，从而实现真正意义上的自主和智能。这种“大脑”（任务规划）、“小脑”（动作规划）和“导航系统”（路径规划）的协同工作，正推动着机器人从结构化车间走向我们复杂