在 Dify 中配置 self-hosted vllm 模型
在 Dify 中配置 self-hosted vllm 模型 作为模型供应商时,应选择 OpenAI-API-compatible
在 Dify 中配置 self-hosted vllm 模型
在 Dify 中配置 self-hosted vllm 模型 作为模型供应商时,应选择 OpenAI-API-compatible
本文主要讲述如何使用 vLLM 部署 千问 3 大语言模型。本文使用的是 Qwen3-0.6B 一个参数较小的模型,主要是为了体验整个部署过程。另外大模型运行在 CPU 上(因为支持 GPU 的 VPS 普遍较贵, 一直是用爱发电,能省则省).最后我们安装了一个 open-webui 用于和 self-hosted 的千问模型以图形界面的方式与模型进行对话。整个部署过程非常丝滑,适合有一定动手能力的用户,部署体验, 成本非常低, 仅需一台 8U32G 的 VPS, 不需要显卡。在本文的基础上略做修改也可以用于开发自己的 AI Agentic 应用。
vLLM 是一个专为 高性能推理 优化的大型语言模型(LLM)推理引擎,它由 UC Berkeley、CMU(卡内基梅隆大学)、Stanford 等高校的研究人员联合开发,旨在解决当前 LLM 推理中的效率与资源浪费问题。vLLM (virtualized Large Language Model) 是一个项目名称,其含义更侧重于强调它的虚拟化 + 大语言模型(LLM) 特性。virtualized 指的是该项目核心技术 —— 利用一种“虚拟内存”式的 KV 缓存管理机制(PagedAttention)。