背景

最近deepseek属实又被炒了一波,作为做AI工程的从业者,有必要撸一遍vllm看看,熟悉一下目前llm的推理部署情况。

简介

考虑到vllm的体积相当庞大,里面引入的各种库和自定义优化代码过于繁杂,为了化繁为简且能清晰理解大模型推理本质原理,这里使用的库是nano-vllm。
github地址:https://github.com/GeeeekExplorer/nano-vllm
commit版本: 6ef2a4f630ab162a7855dce500b86adff2a4465c
适合读者:在介绍框架时候,这里会穿插讲解一些python,pytorch, AI算法, 分布式原理,并发同步,cuda,计算机基础等许多相关知识,不过都会以极为通俗的表述来解释,尽量能让各个技术水平的读者都能看懂。

目录

[nano-vllm-0] (综述)
[nano-vllm-1](main函数入口)
[nano-vllm-2](llm_engine)
[nano-vllm-3](sequence+ scheduler)
[nano-vllm-4](ModelRunner)
[nano-vllm-5](attention)
[nano-vllm-6] (block_manager)
[nano-vllm-7] (cuda graph)

后续

为nano-vllm补充量化功能

Logo

电影级数字人,免显卡端渲染SDK,十行代码即可调用,工业级demo免费开源下载!

更多推荐