鹏叔的技术博客

2025-05-28发表2025-05-28更新AI2 分钟读完 (大约254个字)

在 Dify 中配置 self-hosted vllm 模型作为模型供应商时，应选择 OpenAI-API-compatible

2025-05-26发表2026-02-17更新AI10 分钟读完 (大约1481个字)

本文主要讲述如何使用 vLLM 部署千问 3 大语言模型。本文使用的是 Qwen3-0.6B 一个参数较小的模型，主要是为了体验整个部署过程。另外大模型运行在 CPU 上(因为支持 GPU 的 VPS 普遍较贵，一直是用爱发电，能省则省).最后我们安装了一个 open-webui 用于和 self-hosted 的千问模型以图形界面的方式与模型进行对话。整个部署过程非常丝滑，适合有一定动手能力的用户，部署体验, 成本非常低，仅需一台 8U32G 的 VPS，不需要显卡。在本文的基础上略做修改也可以用于开发自己的 AI Agentic 应用。

2025-05-25发表2025-05-28更新AI4 分钟读完 (大约674个字)

如何使用源码安装 vLLM？

vLLM 是一个专为高性能推理优化的大型语言模型（LLM）推理引擎，它由 UC Berkeley、CMU(卡内基梅隆大学)、Stanford 等高校的研究人员联合开发，旨在解决当前 LLM 推理中的效率与资源浪费问题。vLLM (virtualized Large Language Model) 是一个项目名称，其含义更侧重于强调它的虚拟化 + 大语言模型（LLM） 特性。virtualized 指的是该项目核心技术 —— 利用一种“虚拟内存”式的 KV 缓存管理机制（PagedAttention）。

follow.it

最新文章

分类

热门文章

标签

热门文章

归档

广告