如何使用源码安装 vLLM?
vLLM 是一个专为 高性能推理 优化的大型语言模型(LLM)推理引擎,它由 UC Berkeley、CMU(卡内基梅隆大学)、Stanford 等高校的研究人员联合开发,旨在解决当前 LLM 推理中的效率与资源浪费问题。vLLM (virtualized Large Language Model) 是一个项目名称,其含义更侧重于强调它的虚拟化 + 大语言模型(LLM) 特性。virtualized 指的是该项目核心技术 —— 利用一种“虚拟内存”式的 KV 缓存管理机制(PagedAttention)。
1. 为什么需要从源码安装 vLLM?
当你想使用 cpu 运行大模型时,此时 PyPI 上的 pip install vllm 安装的是稳定版(发布版)当前(截至 2025 年)不支持 CPU-only 环境运行。但是通过源码安装,通过调整参数,可以编译出支持 CPU-only 的 vLLM. 另外 vLLM 中的 PagedAttention 是用 C++/CUDA 编写的,属于编译型扩展模块。如果你使用的环境比较特殊,例如:
特定版本的 CUDA、PyTorch、NVIDIA 驱动
ARM 架构、容器化部署、自定义硬件平台
想调整编译参数(比如开启 Debug/优化标志)
源码安装允许你根据系统环境重新编译 C++/CUDA 组件。另外如果你需要使用最新的 vLLM, 最新的推理优化或 API 功能等等都需要学会从源码编译安装 vLLM。
2. 如何从源码安装 vLLM?
本文的实验环境是一台 8核心32G内存的 hostinger vps 运行的操作系统是 ubuntu 24.04 LTS, 如果你的操作系统是非 Debian 系 linux,操作步骤需要自行调整。hostinger VPS 申请过程参考这篇文章 快速注册 Hostinger 账号以及创建 Hostinger VPS
1 | # 编译前的一些准备工作 |