vLLM v0.23.0 深度解析：让 DeepSeek-V4、Llama 等主流模型跑得更快更稳的开源引擎升级

摘要：2026年6月中旬，开源大模型推理引擎 vLLM 发布了 v0.23.0 版本。本次更新包含408项提交、200位贡献者的心血，核心聚焦于性能跃迁、架构解耦与硬件生态扩张。DeepSeek-V4 的稀疏 MLA 元数据彻底解耦，Model Runner V2 默认覆盖 Llama/Mistral，Rust 前端迈向生产级，同时新增了对 Gemma 4 全方位支持和跨 7 种硬件架构运行的能力。这是一次旨在“让更多模型跑得更快，让更多硬件用得上”的关键演进，尤其为生产环境的高并发、长上下文部署提供了坚实基础。

一、核心架构升级：解耦与重构，释放优化潜能

此次更新的核心驱动力来自底层架构的深度解耦与模块化重构，为后续性能优化打开了空间。

1. DeepSeek-V4 全面成熟：MLA解耦是关键

自 v0.22.0 引入 DeepSeek-V4 支持后，本次进行了大规模硬化与优化。最关键的改动是 将稀疏 MLA (Multi-head Latent Attention) 元数据从 DeepSeek-V3.2 彻底解耦。这绝非简单的工程清理，而是一个关键的架构决策：DeepSeek 的架构将稀疏 MoE（混合专家）与 MLA（KV Cache 压缩）两套复杂系统叠加。此前元数据耦合，使得推理框架的优化空间被严重压缩。解耦后，MoE 调度与 KV 压缩管理得以独立演化，为后续针对性优化奠定了基础。

vLLM v0.23.0 深度解析：让 DeepSeek-V4、Llama 等主流模型跑得更快更稳的开源引擎升级

此外，DeepSeek-V4 还获得了 TRTLLM-gen 注意力内核、EPLB 对 Mega-MoE 的支持、滑动窗口 KV Cache 的选择性前缀缓存保留以及 DSA MTP 的 index-share 特性。更重要的是，模型脱离了对 torch.compile 的依赖，这意味着启动速度和兼容性显著提升。同时新增了 XPU 注意力解码路径，使得英特尔显卡也能运行 DeepSeek-V4 推理。

2. Model Runner V2 (MRv2) 扩展至主流密集模型

MRv2 作为 vLLM 更模块化、更快速的核心，此次默认启用于 Llama 和 Mistral 密集模型（此前已支持 Qwen3）。MRv2 通过新的 ModelState 抽象，将模型特定逻辑（如多模态嵌入、注意力元数据、CUDA图捕获）与主运行器解耦，极大降低了复杂性并增强了模块化。在实际测试中，MRv2 通过将输入准备卸载至 GPU，为小型模型（如 Qwen3-0.6B）带来了 56% 的吞吐量提升。

本次为 MRv2 新增了 FlashInfer 采样器、可中断 CUDA Graph、流水线并行气泡消除以及混合模型的 kernel block-size 支持。对于生产环境中的 Llama 或 Mistral 用户，升级后即可自动享受性能提升，无需手动配置。

二、生态与生产级特性拓展

除了核心架构，vLLM 在前端、模型支持及缓存管理上的进步，正使其从一个推理库蜕变为完整的生产级服务解决方案。

3. Rust 前端从“实验性”走向“生产级”

实验性的 Rust 前端此次收获了多项生产级特性：流式生成端点、动态 LoRA 端点、/version 和 /server_info 端点、服务器路由扩展钩子以及请求 ID 头。此外，还新增了对 InternLM2、hy_v3、Phi-4-mini、Gemma4 等多种模型的工具解析器支持。其进展速度超出预期，下个版本很可能去掉“实验性”标签。

4. Gemma 4 全方位支持与多层级 KV Cache 卸载

Google 的 Gemma 4 获得了全面支持，包括** encoder-free 的 Gemma 4 Unified 架构**、MTP（多 Token 预测）、原生 ViT 线性层，以及在量化时自动排除 vision embedder 的优化。

对于长上下文场景，多层级 KV Cache 卸载框架的升级至关重要。新增了 Object-Store 作为二级存储层、HMA 默认启用，并支持按请求级别设置卸载策略（通过 on_new_request 生命周期钩子）。当显存不足时，可以将 KV Cache 卸载至 CPU 内存乃至对象存储，有效缓解了超长上下文推理的显存压力。

三、性能飞跃与硬件覆盖：广度与深度的双重突破

5. 性能优化：实实在在的工程提升

此次的性能提升并非来自算法创新，而是扎实的工程优化：

CUTLASS FP8 scaled-mm padding bypass：提升约 20%。
MoE-permute buffer 预分配：对 Step-3.7、Gemma4、Mellum 等模型提升 9-14%。
Triton MoE 后端在 NVIDIA Hopper 架构上默认启用，并对 H200/RTX PRO 的 selective_state_update 进行了调优。
其他优化包括 Gemma RMS all-reduce 融合、DGX B300 的 NUMA 自动绑定等。

6. 硬件支持：开源界之最的架构覆盖

v0.23.0 的硬件支持范围堪称“离谱”，覆盖了7种主流架构：

NVIDIA：全面优化 Hopper (H100/H200)，新增 DGX B300 NUMA 绑定。
AMD ROCm：升级至 7.2.3，更新 AITER 内核，支持 RDNA3(gfx1100)原生 W4A16 kernel。
Intel XPU/CPU：更新内核，支持 FP8 MoE 和 DeepSeek-V4 解码路径；CPU 端也有 AMD Zen CPU 加速和 Triton 采样。
TPU：升级 tpu-inference 至 v0.21.0。
新兴架构：首次支持 RISC-V (WNA16 helpers)、ARM64 (CI镜像支持) 和 PowerPC (SHM 通信器)。

四、新模型、API 统一与实用建议

7. 新增模型与 API 更新

本版新增了对 MiMo-V2.5、Step-3.7-Flash、Cosmos3 Reasoner、JetBrains Mellum v2、Granite Speech Plus、Cohere Mini Code 等模型的支持。同时，对 Qwen3-VL、GLM 系列、MiniCPM 等国内外常用模型进行了大量准确性修复与增强。

在 API 层面，新增对 Anthropic Messages API 的结构化输出和 effort 参数支持。更重要的是，将推理和工具调用的解析统一到了单一的 Parser.parse() 接口下，简化了下游应用开发者的工作。

8. 实用部署与升级建议

安装：可通过 pip install vllm==0.23.0 快速安装，特定硬件（如 ROCm）需参考官方文档。
注意事项：MiniMax M3 模型在本版本尚不支持，需遵循专门的 vLLM recipe 操作。
升级评估：若当前版本运行稳定且不需要上述新特性，可暂缓升级，观望一两周社区反馈。
潜在问题：在高并发、长序列场景下，需注意KV Cache膨胀导致的OOM错误，建议启用自动缩放批处理并设置合理的 --gpu-memory-utilization（如0.85）。量化模型（如4-bit AWQ）在罕见词元上可能出现精度退化，需使用校准数据集进行缓解。
引擎选型：实测表明，vLLM在高并发场景下性能完胜 Ollama，吞吐量可达其数倍乃至数十倍，且通过 PagedAttention 等技术，显存占用反而更低。但对于纯新手或单用户简单体验，Ollama 的易用性仍具优势。

文章来源：
本文综合整理自 vLLM 官方发布说明、技术博客、社区实测及部署指南。

Ai资讯 # vLLM v0.23.0

文章版权归作者所有，未经允许请勿转载。

Claude Fable 5 深夜炸场！Anthropic 解封“神话”级模型，编程屠榜、安全降级，AI 进入能力封装时代

vLLM v0.23.0 深度解析：让 DeepSeek-V4、Llama 等主流模型跑得更快更稳的开源引擎升级

一、核心架构升级：解耦与重构，释放优化潜能

1. DeepSeek-V4 全面成熟：MLA解耦是关键

2. Model Runner V2 (MRv2) 扩展至主流密集模型

二、生态与生产级特性拓展

3. Rust 前端从“实验性”走向“生产级”

4. Gemma 4 全方位支持与多层级 KV Cache 卸载

三、性能飞跃与硬件覆盖：广度与深度的双重突破

5. 性能优化：实实在在的工程提升

6. 硬件支持：开源界之最的架构覆盖

四、新模型、API 统一与实用建议

7. 新增模型与 API 更新

8. 实用部署与升级建议

OiiOii 2.0 升级解读：智能画布+拉片复刻+Skill库，AI视频创作流程如何从“抽卡”走向“制片厂”？

重磅！阿里QoderWork上线“意识”功能：记忆、反思、技能进化，让AI Agent告别“金鱼记忆”越用越聪明

相关文章

Claude Fable 5 深夜炸场！Anthropic 解封“神话”级模型，编程屠榜、安全降级，AI 进入能力封装时代

Agnes AI推出Pavo平台：免费AI短剧创作神器，视频模型即将升级2.5版本

Claude Cowork推出Dispatch功能：实现手机遥控、电脑执行的“异地办公”新体验

阿里云百炼“记忆库”上线：让AI智能体真正记住你，告别重复对话

暂无评论

最新文章

vLLM v0.23.0 深度解析：让 DeepSeek-V4、Llama 等主流模型跑得更快更稳的开源引擎升级

一、核心架构升级：解耦与重构，释放优化潜能

1. DeepSeek-V4 全面成熟：MLA解耦是关键

2. Model Runner V2 (MRv2) 扩展至主流密集模型

二、生态与生产级特性拓展

3. Rust 前端从“实验性”走向“生产级”

4. Gemma 4 全方位支持与多层级 KV Cache 卸载

三、性能飞跃与硬件覆盖：广度与深度的双重突破

5. 性能优化：实实在在的工程提升

6. 硬件支持：开源界之最的架构覆盖

四、新模型、API 统一与实用建议

7. 新增模型与 API 更新

8. 实用部署与升级建议

OiiOii 2.0 升级解读：智能画布+拉片复刻+Skill库，AI视频创作流程如何从“抽卡”走向“制片厂”？

重磅！阿里QoderWork上线“意识”功能：记忆、反思、技能进化，让AI Agent告别“金鱼记忆”越用越聪明

相关文章

Claude Fable 5 深夜炸场！Anthropic 解封“神话”级模型，编程屠榜、安全降级，AI 进入能力封装时代

Agnes AI推出Pavo平台：免费AI短剧创作神器，视频模型即将升级2.5版本

Claude Cowork推出Dispatch功能：实现手机遥控、电脑执行的“异地办公”新体验

阿里云百炼“记忆库”上线：让AI智能体真正记住你，告别重复对话

暂无评论

最新文章

标签云