(0)快速示例

① 部署Qwen3-VL-8B-Instruct

# 部署Qwen3-VL-8B-Instruct

CUDA_VISIBLE_DEVICES=0,1,2,3 nohup vllm serve /models/Qwen3-VL-8B-Instruct \
	--tensor-parallel-size 4 \
	--limit-mm-per-prompt.video 0 \
	--async-scheduling \
	--gpu-memory-utilization 0.9 \
	--max-model-len 32768 \
	--max-num-seqs 128 \
	--port 8100 \
	--api-key "no-key" \
	--served-model-name qwen3-vl-8b &

② 部署Qwen3-VL-8B-Instruct

# 部署Qwen3-14B

CUDA_VISIBLE_DEVICES=4,5,6,7 nohup vllm serve /models/Qwen3-14B \
	--tensor-parallel-size 4 \
	--disable-custom-all-reduce \
	--gpu-memory-utilization 0.8 \
	--served-model-name qwen3-14b \
	--port 8200 \
	--api-key "no-key" &

vllm官方CLI参考https://docs.vllm.ai/en/latest/cli/(1)通用选项

  • CUDA_VISIBLE_DEVICES
    指定使用哪几块 GPU,配合单机多卡参数使用。

  • --served-model-name
    指定模型服务的名字。

  • --port
    指定端口,默认为 8000

  • --host
    指定访问主机名,默认为 0.0.0.0

  • --api-key
    如果提供,服务器将要求在请求头中包含此密钥。

  • --headless
    不启动 HTTP 前端,无法通过兼容 OpenAI 的 API 访问。

  • --tensor-parallel-size-tp
    指定张量并行推理的数量。

  • --pipeline-parallel-size-pp
    流水线并行组的数量。

  • --data-parallel-size-dp
    数据并行组的数量。MoE 层将根据张量并行大小和数据并行大小的乘积进行分片。

  • --gpu-memory-utilization
    限制单块 GPU 的利用率。

  • --max-model-len
    限制输入模型的最大上下文长度。

  • --chat-template
    指定聊天模板文件路径。

  • --tool-call-parser
    指定要使用的解析器(可选值为:deepseek_v3, glm45, granite-20b-fc, granite, hermes, hunyuan_a13b, internlm, jamba, kimi_k2, llama4_pythonic, llama4_json, llama3_json, minimax, mistral, phi4_mini_json, pythonic, qwen3_coder, xlam)。

  • --tool-parser-plugin
    自定义的工具解析器插件,用于将模型生成的工具解析为 OpenAI API 格式;此插件中注册的名称可以在 --tool-call-parser 中使用。

  • --trust-remote-code, --no-trust-remote-code
    下载模型和分词器时是否信任远程代码(例如,来自 HuggingFace 或 ModelScope)。

  • --dtype
    模型权重和激活的数据类型。可选值包括:

    • auto:对 FP32 和 FP16 模型使用 FP16 精度,对 BF16 模型使用 BF16 精度。
    • half / float16:FP16 精度,推荐用于 AWQ 量化。
    • bfloat16:在精度和范围之间取得平衡。
    • float / float32:FP32 精度。

(2)视觉模型特有的选项

注意:如果要使用 vLLM 部署 Qwen3-VL 视觉模型,需先安装 Qwen-VL 实用程序库(建议用于离线推理):

pip install qwen-vl-utils==0.0.14
  • --limit-mm-per-prompt
    每个模态每条提示允许的最大输入项数。
    示例:允许每条提示最多 16 张图片和 2 个视频:

    --limit-mm-per-prompt '{"images": 16, "videos": 2}'
    
  • --limit-mm-per-prompt.video 0
    若仅使用图片推理而不需要视频,可将 video 设为 0

  • --async-scheduling
    启用异步调度,有助于减少 CPU 开销,从而改善延迟和吞吐量。
    注意:异步调度目前不支持结构化输出、推测解码和管道并行。

参考资料1:vLLM Recipeshttps://docs.vllm.ai/projects/recipes/en/latest/参考资料2:vLLM的CLI参考https://docs.vllm.com.cn/en/latest/cli/index.html

Logo

电影级数字人,免显卡端渲染SDK,十行代码即可调用,工业级demo免费开源下载!

更多推荐