vLLM v0.23.0 深度解析:让 DeepSeek-V4、Llama 等主流模型跑得更快更稳的开源引擎升级

Ai资讯4小时前发布 大国Ai
22 0 0

摘要:2026年6月中旬,开源大模型推理引擎 vLLM 发布了 v0.23.0 版本。本次更新包含408项提交、200位贡献者的心血,核心聚焦于性能跃迁、架构解耦与硬件生态扩张。DeepSeek-V4 的稀疏 MLA 元数据彻底解耦,Model Runner V2 默认覆盖 Llama/Mistral,Rust 前端迈向生产级,同时新增了对 Gemma 4 全方位支持和跨 7 种硬件架构运行的能力。这是一次旨在“让更多模型跑得更快,让更多硬件用得上”的关键演进,尤其为生产环境的高并发、长上下文部署提供了坚实基础。


一、核心架构升级:解耦与重构,释放优化潜能

此次更新的核心驱动力来自底层架构的深度解耦与模块化重构,为后续性能优化打开了空间。

1. DeepSeek-V4 全面成熟:MLA解耦是关键

自 v0.22.0 引入 DeepSeek-V4 支持后,本次进行了大规模硬化与优化。最关键的改动是 将稀疏 MLA (Multi-head Latent Attention) 元数据从 DeepSeek-V3.2 彻底解耦。这绝非简单的工程清理,而是一个关键的架构决策:DeepSeek 的架构将稀疏 MoE(混合专家)与 MLA(KV Cache 压缩)两套复杂系统叠加。此前元数据耦合,使得推理框架的优化空间被严重压缩。解耦后,MoE 调度与 KV 压缩管理得以独立演化,为后续针对性优化奠定了基础。

vLLM v0.23.0 深度解析:让 DeepSeek-V4、Llama 等主流模型跑得更快更稳的开源引擎升级

此外,DeepSeek-V4 还获得了 TRTLLM-gen 注意力内核EPLB 对 Mega-MoE 的支持、滑动窗口 KV Cache 的选择性前缀缓存保留以及 DSA MTP 的 index-share 特性。更重要的是,模型脱离了对 torch.compile 的依赖,这意味着启动速度和兼容性显著提升。同时新增了 XPU 注意力解码路径,使得英特尔显卡也能运行 DeepSeek-V4 推理。

2. Model Runner V2 (MRv2) 扩展至主流密集模型

MRv2 作为 vLLM 更模块化、更快速的核心,此次默认启用于 Llama 和 Mistral 密集模型(此前已支持 Qwen3)。MRv2 通过新的 ModelState 抽象,将模型特定逻辑(如多模态嵌入、注意力元数据、CUDA图捕获)与主运行器解耦,极大降低了复杂性并增强了模块化。在实际测试中,MRv2 通过将输入准备卸载至 GPU,为小型模型(如 Qwen3-0.6B)带来了 56% 的吞吐量提升

本次为 MRv2 新增了 FlashInfer 采样器可中断 CUDA Graph流水线并行气泡消除以及混合模型的 kernel block-size 支持。对于生产环境中的 Llama 或 Mistral 用户,升级后即可自动享受性能提升,无需手动配置。

二、生态与生产级特性拓展

除了核心架构,vLLM 在前端、模型支持及缓存管理上的进步,正使其从一个推理库蜕变为完整的生产级服务解决方案。

3. Rust 前端从“实验性”走向“生产级”

实验性的 Rust 前端此次收获了多项生产级特性:流式生成端点动态 LoRA 端点/version/server_info 端点、服务器路由扩展钩子以及请求 ID 头。此外,还新增了对 InternLM2、hy_v3、Phi-4-mini、Gemma4 等多种模型的工具解析器支持。其进展速度超出预期,下个版本很可能去掉“实验性”标签。

4. Gemma 4 全方位支持与多层级 KV Cache 卸载

Google 的 Gemma 4 获得了全面支持,包括** encoder-free 的 Gemma 4 Unified 架构**、MTP(多 Token 预测)、原生 ViT 线性层,以及在量化时自动排除 vision embedder 的优化。

对于长上下文场景,多层级 KV Cache 卸载框架的升级至关重要。新增了 Object-Store 作为二级存储层HMA 默认启用,并支持按请求级别设置卸载策略(通过 on_new_request 生命周期钩子)。当显存不足时,可以将 KV Cache 卸载至 CPU 内存乃至对象存储,有效缓解了超长上下文推理的显存压力。

三、性能飞跃与硬件覆盖:广度与深度的双重突破

5. 性能优化:实实在在的工程提升

此次的性能提升并非来自算法创新,而是扎实的工程优化:

  • CUTLASS FP8 scaled-mm padding bypass:提升约 20%。
  • MoE-permute buffer 预分配:对 Step-3.7、Gemma4、Mellum 等模型提升 9-14%。
  • Triton MoE 后端在 NVIDIA Hopper 架构上默认启用,并对 H200/RTX PRO 的 selective_state_update 进行了调优。
  • 其他优化包括 Gemma RMS all-reduce 融合、DGX B300 的 NUMA 自动绑定等。

6. 硬件支持:开源界之最的架构覆盖

v0.23.0 的硬件支持范围堪称“离谱”,覆盖了7种主流架构

  • NVIDIA:全面优化 Hopper (H100/H200),新增 DGX B300 NUMA 绑定。
  • AMD ROCm:升级至 7.2.3,更新 AITER 内核,支持 RDNA3(gfx1100)原生 W4A16 kernel。
  • Intel XPU/CPU:更新内核,支持 FP8 MoE 和 DeepSeek-V4 解码路径;CPU 端也有 AMD Zen CPU 加速和 Triton 采样。
  • TPU:升级 tpu-inference 至 v0.21.0。
  • 新兴架构:首次支持 RISC-V (WNA16 helpers)、ARM64 (CI镜像支持) 和 PowerPC (SHM 通信器)。

四、新模型、API 统一与实用建议

7. 新增模型与 API 更新

本版新增了对 MiMo-V2.5、Step-3.7-Flash、Cosmos3 Reasoner、JetBrains Mellum v2、Granite Speech Plus、Cohere Mini Code 等模型的支持。同时,对 Qwen3-VL、GLM 系列、MiniCPM 等国内外常用模型进行了大量准确性修复与增强。

在 API 层面,新增对 Anthropic Messages API 的结构化输出和 effort 参数支持。更重要的是,将推理和工具调用的解析统一到了单一的 Parser.parse() 接口下,简化了下游应用开发者的工作。

8. 实用部署与升级建议

  • 安装:可通过 pip install vllm==0.23.0 快速安装,特定硬件(如 ROCm)需参考官方文档。
  • 注意事项MiniMax M3 模型在本版本尚不支持,需遵循专门的 vLLM recipe 操作。
  • 升级评估:若当前版本运行稳定且不需要上述新特性,可暂缓升级,观望一两周社区反馈。
  • 潜在问题:在高并发、长序列场景下,需注意KV Cache膨胀导致的OOM错误,建议启用自动缩放批处理并设置合理的 --gpu-memory-utilization(如0.85)。量化模型(如4-bit AWQ)在罕见词元上可能出现精度退化,需使用校准数据集进行缓解。
  • 引擎选型:实测表明,vLLM在高并发场景下性能完胜 Ollama,吞吐量可达其数倍乃至数十倍,且通过 PagedAttention 等技术,显存占用反而更低。但对于纯新手或单用户简单体验,Ollama 的易用性仍具优势。

文章来源
本文综合整理自 vLLM 官方发布说明、技术博客、社区实测及部署指南。

© 版权声明

相关文章

暂无评论

none
暂无评论...