nano-vllm入门
最近deepseek属实又被炒了一波,作为做AI工程的从业者,有必要撸一遍vllm看看,熟悉一下目前llm的推理部署情况,核心看看page attention以及分布式的实现。
·
背景
最近deepseek属实又被炒了一波,作为做AI工程的从业者,有必要撸一遍vllm看看,熟悉一下目前llm的推理部署情况。
简介
考虑到vllm的体积相当庞大,里面引入的各种库和自定义优化代码过于繁杂,为了化繁为简且能清晰理解大模型推理本质原理,这里使用的库是nano-vllm。
github地址:https://github.com/GeeeekExplorer/nano-vllm
commit版本: 6ef2a4f630ab162a7855dce500b86adff2a4465c
适合读者:在介绍框架时候,这里会穿插讲解一些python,pytorch, AI算法, 分布式原理,并发同步,cuda,计算机基础等许多相关知识,不过都会以极为通俗的表述来解释,尽量能让各个技术水平的读者都能看懂。
目录
[nano-vllm-0] (综述)
[nano-vllm-1](main函数入口)
[nano-vllm-2](llm_engine)
[nano-vllm-3](sequence+ scheduler)
[nano-vllm-4](ModelRunner)
[nano-vllm-5](attention)
[nano-vllm-6] (block_manager)
[nano-vllm-7] (cuda graph)
后续
为nano-vllm补充量化功能
更多推荐




所有评论(0)