第八十三篇-V100-32G+llama-cpp运行+Qwen3.5-27B-UD-Q4_K_XL-多模态
在CentOS-7系统上使用Tesla V100-32G显卡成功部署Qwen3.5-27B模型,通过llama-cpp实现高效推理。配置参数包括32K上下文窗口、28线程、0.7温度值等,模型加载999层到GPU。运行效果良好,推理速度达29 token/s,GPU利用率100%,显存占用20GB+。多模态功能正常,系统资源消耗较高但性能表现优异。访问地址为http://192.168.31.22
·
环境
系统:CentOS-7
CPU : E5-2680V4 14核28线程
内存:DDR4 2133 32G * 2
显卡:Tesla V100-32G【PG503】 (水冷)
驱动: 535
CUDA: 12.2
参考
第八十一篇-V100-32G+llama-cpp编译运行+Qwen3.5-35B-A3B-UD-Q4_K_XL-CSDN博客
使用最新版本
版本
(base) [root@ai-server build]# ./bin/llama-server --version
ggml_cuda_init: found 1 CUDA devices:
Device 0: Tesla PG503-216, compute capability 7.0, VMM: yes
version: 8175 (d903f30)
built with GNU 11.2.1 for Linux x86_64
运行
./bin/llama-server -m /models/Qwen3.5-27B-UD-Q4_K_XL/Qwen3.5-27B-UD-Q4_K_XL.gguf \
--host 0.0.0.0 \
--port 28000 \
--gpu-layers 999 \
--ctx-size 32000 \
--threads 28 \
--temp 0.7 \
--top-p 0.8 \
--top-k 20 \
--min-p 0.00 \
--chat-template-kwargs "{\"enable_thinking\": false}" \
--mmproj /models/Qwen3.5-27B-UD-Q4_K_XL/mmproj-F16.gguf
./bin/llama-server -m /models/Qwen3.5-27B-UD-Q4_K_XL/Qwen3.5-27B-UD-Q4_K_XL.gguf \
--host 0.0.0.0 \
--port 28000 \
--gpu-layers 999 \
--ctx-size 32000 \
--threads 28 \
--temp 0.7 \
--top-p 0.8 \
--top-k 20 \
--min-p 0.00 \
--mmproj /models/Qwen3.5-27B-UD-Q4_K_XL/mmproj-F16.gguf
访问
http://192.168.31.222:28000/
效果

GPU
Fri Feb 27 23:02:58 2026
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.129.03 Driver Version: 535.129.03 CUDA Version: 12.2 |
|-----------------------------------------+----------------------+----------------------+
| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|=========================================+======================+======================|
| 0 Tesla PG503-216 On | 00000000:05:00.0 Off | 0 |
| N/A 36C P0 233W / 250W | 20012MiB / 32768MiB | 98% Default |
| | | N/A |
+-----------------------------------------+----------------------+----------------------+
速度
29 token/s
GPU 消耗 20G+
GPU 利用率 100%
CPU 1核心
思考模式下,思考内容是挺多的
速度还是非常可以的,多模态,不过GPU利用率还是挺高的,风扇呼呼的
更多推荐


所有评论(0)