如何使用源码安装 vLLM?

vLLM 是一个专为 高性能推理 优化的大型语言模型(LLM)推理引擎,它由 UC Berkeley、CMU(卡内基梅隆大学)、Stanford 等高校的研究人员联合开发,旨在解决当前 LLM 推理中的效率与资源浪费问题。vLLM (virtualized Large Language Model) 是一个项目名称,其含义更侧重于强调它的虚拟化 + 大语言模型(LLM) 特性。virtualized 指的是该项目核心技术 —— 利用一种“虚拟内存”式的 KV 缓存管理机制(PagedAttention)。

1. 为什么需要从源码安装 vLLM?

当你想使用 cpu 运行大模型时,此时 PyPI 上的 pip install vllm 安装的是稳定版(发布版)当前(截至 2025 年)不支持 CPU-only 环境运行。但是通过源码安装,通过调整参数,可以编译出支持 CPU-only 的 vLLM. 另外 vLLM 中的 PagedAttention 是用 C++/CUDA 编写的,属于编译型扩展模块。如果你使用的环境比较特殊,例如:

  • 特定版本的 CUDA、PyTorch、NVIDIA 驱动

  • ARM 架构、容器化部署、自定义硬件平台

  • 想调整编译参数(比如开启 Debug/优化标志)

源码安装允许你根据系统环境重新编译 C++/CUDA 组件。另外如果你需要使用最新的 vLLM, 最新的推理优化或 API 功能等等都需要学会从源码编译安装 vLLM。

2. 如何从源码安装 vLLM?

本文的实验环境是一台 8核心32G内存的 hostinger vps 运行的操作系统是 ubuntu 24.04 LTS, 如果你的操作系统是非 Debian 系 linux,操作步骤需要自行调整。hostinger VPS 申请过程参考这篇文章 快速注册 Hostinger 账号以及创建 Hostinger VPS

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
# 编译前的一些准备工作

sudo apt-get update -y
sudo apt-get install -y gcc-12 g++-12 libnuma-dev python3-dev
sudo update-alternatives --install /usr/bin/gcc gcc /usr/bin/gcc-12 10 --slave /usr/bin/g++ g++ /usr/bin/g++-12

## 克隆 GitHub 仓库
git clone https://github.com/vllm-project/vllm.git vllm_source
cd vllm_source

## 安装依赖(建议使用虚拟环境),虚拟环境安装参考我的博客 https://pengtech.net/python/linux_install_python.html
pip install --upgrade pip
pip install "cmake>=3.26" wheel packaging ninja "setuptools-scm>=8" numpy
pip install -v -r requirements/cpu.txt --extra-index-url https://download.pytorch.org/whl/cpu

## 调整目标设备的硬件架构,编译并安装vLLM
VLLM_TARGET_DEVICE=cpu python setup.py install

## 验证vllm是否安装成功
vllm --version

3. 参考文档

vLLM installation cpu

作者

鹏叔

发布于

2025-05-25

更新于

2025-05-28

许可协议

评论