Hybrid Models as First-Class Citizens in vLLM ylc3000 2025-11-10 0 浏览 0 点赞 resource 大型语言模型的注意力机制遇到扩展瓶颈:KV缓存内存随序列长度线性增长,预填充延迟呈二次增长,128k令牌以上的长上下文推理需求迫切呼唤新架构。混合模型(如Qwen3-Next、Nemotron Nano 2、MiniMax-Text-01、Granite 4.0)融合注意力与Mamba、线性注意力等替代方案,兼顾建模质量与长序列效率。 为何长序列重要?检索增强生成(RAG)需要将大量文档拼接入上下文,代理模式下模型循环调用工具,推理链条令上下文膨胀。这些实际应用推动混合模型成为解决方案。 状态空间模型(SSM)如S4规则线性时间、固定状态大小,适合长序列但缺乏选择性复制能力。Mamba-1引入时间变化矩阵提升灵活性,Mamba-2借助矩阵变换与线性注意力等价,利用张量核加速,实现高效推理。线性注意力自2020年起快速发展,Minimax-Text-01和Qwen3-Next分别采用Lightning Attention与Gated Delta Net增强性能。 vLLM V1将混合模型从V0的实验性“黑科技”升级为核心支持,统一管理注意力KV缓存和Mamba状态,优化内存分配,支持前缀缓存、KV缓存迁移和预填充/解码分离。通过调整注意力块大小与Mamba页大小对齐,解决了内存视图冲突,实现数据无损写入。针对Triton内核CPU启动开销,vLLM引入分阶段CUDA Graph策略,显著提升低延迟场景性能,V1在吞吐和延迟上全面超越V0。 实测NVIDIA Nemotron-Nano-12B-v2和7B参数MoE模型granite-4.0-h-tiny,V1在多并发下吞吐提升2%至91%,延迟显著降低。混合模型不再边缘,借助vLLM V1成为企业级AI系统的实用利器,满足超长上下文推理需求,推动开源社区迎接下一代大规模长序列挑战。 详细内容见:pytorch.org/blog/hybrid-models-as-first-class-citizens-in-vllm/ 核心论文与技术背景参考:arxiv.org/abs/2511.00318 网闻录 Hybrid Models as First-Class Citizens in vLLM 网闻录 Hybrid Models as First-Class Citizens in vLLM