M3部署vllm

macbookpro m3 安装vllm，实现vllm部署Qwen3-0.6B，流式请求会话时，持续返回token使用情况

it&s me

1123人浏览 · 2025-11-10 15:50:58

it&s me · 2025-11-10 15:50:58 发布

本地环境

macbookpro M3
vllm main分支最新commit_id 315068eb4a4b87a54ea201898b2fb6267f147eb3

vllm chat

下载模型 git clone git@gitcode.com:hf_mirrors/Qwen/Qwen3-0.6B.git

vllm chat 要禁用编译，否则会报错 EngineCore failed to start.

from vllm import LLM, SamplingParams

llm = LLM(
    model="/Users/yanlp/downloads/Qwen3-0.6B",
    trust_remote_code=True,
    quantization=None,
    max_model_len=2048,
    max_num_batched_tokens=2048,
    dtype="float32",
    enforce_eager=True,   # ✅ 禁用编译，关键
)

sampling_params = SamplingParams(temperature=0.5, top_p=0.95, max_tokens=1024)
messages = [
    {"role": "user", "content": "你好，你是谁，简单自我介绍一下"}
]
output = llm.chat(messages, sampling_params=sampling_params)
generated_text = output[0].outputs[0].text
request_output = output[0]
prompt_token_count = len(request_output.prompt_token_ids)
generated_token_count = len(request_output.outputs[0].token_ids)
total_token_count = prompt_token_count + generated_token_count

vllm serve

serve vllm serve --help=all

vllm serve /Users/yanlp/downloads/Qwen3-0.6B \
  --max-model-len 2048 \
  --max-num-batched-tokens 2048 \
  --dtype float32 \
  --port 8001 \
  --served-model-name yanlp-Qwen3-0.6B \
  --enforce-eager

查看模型列表http://localhost:8001/v1/models

流式请求持续返回token使用情况 stream_options[continuous_usage_stats]=true

curl --location 'http://localhost:8001/v1/chat/completions' \
--header 'Content-Type: application/json' \
--data '{
    "model": "yanlp-Qwen3-0.6B",
    "messages": [
        {
            "role": "user",
            "content": "你好，你是谁，简单自我介绍一下"
        }
    ],
    "top_p": 0.95,
    "stream": true,
    "stream_options": {
        "include_usage": true,
        "continuous_usage_stats": true
    }
}'

魔珐星云具身智能3D数字人开放平台已上线！

电影级数字人，免显卡端渲染SDK，十行代码即可调用，工业级demo免费开源下载！

更多推荐

收藏！小白程序员必看：如何抓住AI大模型时代红利？从入门到高薪就业全解析！

魔珐星云开发社区

具身智能浪潮下的“全链服务商“：江南北机器人如何用六大业务重塑机器人产业生态

魔珐星云开发社区

具身智能商业化提速：天问机器人六大业务板块数据全景扫描

科普教育业务方面，天问机器人整合行业资源与技术优势，开发系列科普教育内容，包括机器人科普讲座、AI知识手册、科普短视频、互动体验课程等，语言通俗易懂、形式生动有趣，适配不同年龄段、不同知识背景人群。同时组建专业科普讲师团队，走进校园、社区、企业开展科普活动。专业维修服务覆盖人形机器人、四足机器人、导览机器人、安防机器人、教育机器人等全品类设备，建立"7×24小时响应—远程诊断—现场维修—定期保养"