摘要:2026年6月中旬,开源大模型推理引擎 vLLM 发布了 v0.23.0 版本。本次更新包含408项提交、200位贡献者的心血,核心聚焦于性能跃迁、架构解耦与硬件生态扩张。DeepSeek-V4 的稀疏 MLA 元数据彻底解耦,Model Runner V2 默认覆盖 Llama/Mistral,Rust 前端迈向生产级,同时新增了对 Gemma 4 全方位支持和跨 7 种硬件架构运行的能力。这是一次旨在“让更多模型跑得更快,让更多硬件用得上”的关键演进,尤其为生产环境的高并发、长上下文部署提供了坚实基础。
此次更新的核心驱动力来自底层架构的深度解耦与模块化重构,为后续性能优化打开了空间。
自 v0.22.0 引入 DeepSeek-V4 支持后,本次进行了大规模硬化与优化。最关键的改动是 将稀疏 MLA (Multi-head Latent Attention) 元数据从 DeepSeek-V3.2 彻底解耦。这绝非简单的工程清理,而是一个关键的架构决策:DeepSeek 的架构将稀疏 MoE(混合专家)与 MLA(KV Cache 压缩)两套复杂系统叠加。此前元数据耦合,使得推理框架的优化空间被严重压缩。解耦后,MoE 调度与 KV 压缩管理得以独立演化,为后续针对性优化奠定了基础。
此外,DeepSeek-V4 还获得了 TRTLLM-gen 注意力内核、EPLB 对 Mega-MoE 的支持、滑动窗口 KV Cache 的选择性前缀缓存保留以及 DSA MTP 的 index-share 特性。更重要的是,模型脱离了对 torch.compile 的依赖,这意味着启动速度和兼容性显著提升。同时新增了 XPU 注意力解码路径,使得英特尔显卡也能运行 DeepSeek-V4 推理。
torch.compile
MRv2 作为 vLLM 更模块化、更快速的核心,此次默认启用于 Llama 和 Mistral 密集模型(此前已支持 Qwen3)。MRv2 通过新的 ModelState 抽象,将模型特定逻辑(如多模态嵌入、注意力元数据、CUDA图捕获)与主运行器解耦,极大降低了复杂性并增强了模块化。在实际测试中,MRv2 通过将输入准备卸载至 GPU,为小型模型(如 Qwen3-0.6B)带来了 56% 的吞吐量提升。
ModelState
本次为 MRv2 新增了 FlashInfer 采样器、可中断 CUDA Graph、流水线并行气泡消除以及混合模型的 kernel block-size 支持。对于生产环境中的 Llama 或 Mistral 用户,升级后即可自动享受性能提升,无需手动配置。
除了核心架构,vLLM 在前端、模型支持及缓存管理上的进步,正使其从一个推理库蜕变为完整的生产级服务解决方案。
实验性的 Rust 前端此次收获了多项生产级特性:流式生成端点、动态 LoRA 端点、/version 和 /server_info 端点、服务器路由扩展钩子以及请求 ID 头。此外,还新增了对 InternLM2、hy_v3、Phi-4-mini、Gemma4 等多种模型的工具解析器支持。其进展速度超出预期,下个版本很可能去掉“实验性”标签。
/version
/server_info
Google 的 Gemma 4 获得了全面支持,包括** encoder-free 的 Gemma 4 Unified 架构**、MTP(多 Token 预测)、原生 ViT 线性层,以及在量化时自动排除 vision embedder 的优化。
对于长上下文场景,多层级 KV Cache 卸载框架的升级至关重要。新增了 Object-Store 作为二级存储层、HMA 默认启用,并支持按请求级别设置卸载策略(通过 on_new_request 生命周期钩子)。当显存不足时,可以将 KV Cache 卸载至 CPU 内存乃至对象存储,有效缓解了超长上下文推理的显存压力。
on_new_request
此次的性能提升并非来自算法创新,而是扎实的工程优化:
selective_state_update
v0.23.0 的硬件支持范围堪称“离谱”,覆盖了7种主流架构:
tpu-inference
本版新增了对 MiMo-V2.5、Step-3.7-Flash、Cosmos3 Reasoner、JetBrains Mellum v2、Granite Speech Plus、Cohere Mini Code 等模型的支持。同时,对 Qwen3-VL、GLM 系列、MiniCPM 等国内外常用模型进行了大量准确性修复与增强。
在 API 层面,新增对 Anthropic Messages API 的结构化输出和 effort 参数支持。更重要的是,将推理和工具调用的解析统一到了单一的 Parser.parse() 接口下,简化了下游应用开发者的工作。
effort
Parser.parse()
pip install vllm==0.23.0
--gpu-memory-utilization
文章来源: 本文综合整理自 vLLM 官方发布说明、技术博客、社区实测及部署指南。