环境

系统:CentOS-7
CPU : E5-2680V4 14核28线程
内存:DDR4 2133 32G * 2
显卡:Tesla V100-32G【PG503】 (水冷)
驱动: 535
CUDA: 12.2

参考

第八十一篇-V100-32G+llama-cpp编译运行+Qwen3.5-35B-A3B-UD-Q4_K_XL-CSDN博客

使用最新版本

版本

(base) [root@ai-server build]# ./bin/llama-server --version
ggml_cuda_init: found 1 CUDA devices:
  Device 0: Tesla PG503-216, compute capability 7.0, VMM: yes
version: 8175 (d903f30)
built with GNU 11.2.1 for Linux x86_64

运行

非思考模式
./bin/llama-server -m /models/Qwen3.5-35B-A3B-UD-Q4_K_XL/Qwen3.5-35B-A3B-UD-Q4_K_XL.gguf \
	--host 0.0.0.0 \
	--port 28000 \
	--gpu-layers 999 \
	--ctx-size 32000 \
	--threads 28 \
	--temp 0.7 \
	--top-p 0.8 \
	--top-k 20 \
	--min-p 0.00 \
	--chat-template-kwargs "{\"enable_thinking\": false}" \
	--mmproj /models/Qwen3.5-35B-A3B-UD-Q4_K_XL/mmproj-F16.gguf

访问

http://192.168.31.222:28000/

效果

在这里插入图片描述
在这里插入图片描述

GPU

Fri Feb 27 22:43:21 2026
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.129.03             Driver Version: 535.129.03   CUDA Version: 12.2     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|=========================================+======================+======================|
|   0  Tesla PG503-216                On  | 00000000:05:00.0 Off |                    0 |
| N/A   30C    P0             140W / 250W |  21386MiB / 32768MiB |     94%      Default |
|                                         |                      |                  N/A |
+-----------------------------------------+----------------------+----------------------+

速度

80.65 token/s
GPU 消耗 22G+
GPU 利用率 100%
CPU 1核心
速度还是非常快的,多模态

Logo

电影级数字人,免显卡端渲染SDK,十行代码即可调用,工业级demo免费开源下载!

更多推荐