如何使用 vLLM 部署千问 3 大语言模型?

本文主要讲述如何使用 vLLM 部署 千问 3 大语言模型。本文使用的是 Qwen3-0.6B 一个参数较小的模型,主要是为了体验整个部署过程。另外大模型运行在 CPU 上(因为支持 GPU 的 VPS 普遍较贵, 一直是用爱发电,能省则省).最后我们安装了一个 open-webui 用于和 self-hosted 的千问模型以图形界面的方式与模型进行对话。整个部署过程非常丝滑,适合有一定动手能力的用户,部署体验, 成本非常低, 仅需一台 8U32G 的 VPS, 不需要显卡。在本文的基础上略做修改也可以用于开发自己的 AI Agentic 应用。

阅读更多