第八十三篇-V100-32G+llama-cpp运行+Qwen3.5-27B-UD-Q4_K_XL-多模态

在CentOS-7系统上使用Tesla V100-32G显卡成功部署Qwen3.5-27B模型，通过llama-cpp实现高效推理。配置参数包括32K上下文窗口、28线程、0.7温度值等，模型加载999层到GPU。运行效果良好，推理速度达29 token/s，GPU利用率100%，显存占用20GB+。多模态功能正常，系统资源消耗较高但性能表现优异。访问地址为http://192.168.31.22

小山丘

611人浏览 · 2026-02-27 23:05:27

小山丘 · 2026-02-27 23:05:27 发布

环境

系统：CentOS-7
CPU : E5-2680V4 14核28线程
内存：DDR4 2133 32G * 2
显卡：Tesla V100-32G【PG503】 (水冷)
驱动: 535
CUDA: 12.2

参考

第八十一篇-V100-32G+llama-cpp编译运行+Qwen3.5-35B-A3B-UD-Q4_K_XL-CSDN博客

使用最新版本

版本

(base) [root@ai-server build]# ./bin/llama-server --version
ggml_cuda_init: found 1 CUDA devices:
  Device 0: Tesla PG503-216, compute capability 7.0, VMM: yes
version: 8175 (d903f30)
built with GNU 11.2.1 for Linux x86_64

运行

./bin/llama-server -m /models/Qwen3.5-27B-UD-Q4_K_XL/Qwen3.5-27B-UD-Q4_K_XL.gguf \
	--host 0.0.0.0 \
	--port 28000 \
	--gpu-layers 999 \
	--ctx-size 32000 \
	--threads 28 \
	--temp 0.7 \
	--top-p 0.8 \
	--top-k 20 \
	--min-p 0.00 \
	--chat-template-kwargs "{\"enable_thinking\": false}" \
	--mmproj /models/Qwen3.5-27B-UD-Q4_K_XL/mmproj-F16.gguf

./bin/llama-server -m /models/Qwen3.5-27B-UD-Q4_K_XL/Qwen3.5-27B-UD-Q4_K_XL.gguf \
	--host 0.0.0.0 \
	--port 28000 \
	--gpu-layers 999 \
	--ctx-size 32000 \
	--threads 28 \
	--temp 0.7 \
	--top-p 0.8 \
	--top-k 20 \
	--min-p 0.00 \
	--mmproj /models/Qwen3.5-27B-UD-Q4_K_XL/mmproj-F16.gguf

访问

http://192.168.31.222:28000/

效果

在这里插入图片描述

GPU

Fri Feb 27 23:02:58 2026
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.129.03             Driver Version: 535.129.03   CUDA Version: 12.2     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|=========================================+======================+======================|
|   0  Tesla PG503-216                On  | 00000000:05:00.0 Off |                    0 |
| N/A   36C    P0             233W / 250W |  20012MiB / 32768MiB |     98%      Default |
|                                         |                      |                  N/A |
+-----------------------------------------+----------------------+----------------------+

速度

29 token/s
GPU 消耗 20G+
GPU 利用率 100%
CPU 1核心
思考模式下，思考内容是挺多的
速度还是非常可以的，多模态，不过GPU利用率还是挺高的，风扇呼呼的

魔珐星云具身智能3D数字人开放平台已上线！

电影级数字人，免显卡端渲染SDK，十行代码即可调用，工业级demo免费开源下载！

更多推荐

AI 日报 | 2026年5月28日

AI日报摘要（2026.5.28） Claude Code更新：v2.1.152修复Windows PowerShell安全漏洞，新增成本分析功能；小米降价：MiMo V2.5 API输入价格暴降99%，缓存命中成本仅0.025元/百万tokens；具身智能突破：上海发布"格物"仿真平台，单代码库适配100+机器人，推动国际标准制定；宇树科技IPO：拟募资42亿冲刺"人形机器人第一股"，但Q

魔珐星云开发社区

深耕TOB产业落地，开放全栈开发能力——视程空间产品为何更适配二次开发与商业化定制

视程空间全系AI算力产品，始终坚守TOB产业服务定位，以开放硬件架构、开源软件生态、全梯度算力适配、深度定制能力、完善技术支撑五大核心优势，精准适配所有具备二次开发能力的企业用户。不做固化成品，只做开放平台，把创新权、定制权、迭代权完全交给客户，助力机器人企业、工业集成商、AI科技公司依托标准化底层硬件，深耕行业场景、打磨自研算法、打造差异化产品、实现规模化商业落地，持续赋能边缘AI与具身智能产业