Sebastian Raschka 深度解析 MiniMax-M2 架构 Sebastian Raschka 2025-10-30 0 浏览 0 点赞 长文 刚看到 MiniMax-M2 的基准测试(benchmark)跑分,性能好到简直没法忽视。Sebastian Raschka 更新了《大型 LLM 架构比较》(The Big LLM Architecture Comparison)一文,深入分析 MiniMax-M2 的架构特点。 **1️⃣ 全注意力模块 (Full attention modules)** MiniMax-M2 与其他"解码器(decoder)风格"的 Transformer LLM 归为一类,因为它没有使用 MiniMax-M1 中提出的高效"闪电注意力"(lightning attention)变体。相反,其开发者**重新用回了标准的全注意力(full attention)**机制,这很可能是为了提升模型(以及跑分)的性能。 **2️⃣ 逐层 QK-Norm (Per-layer QK-Norm)** 总体而言,MiniMax-M2 与 Qwen3(千问3)惊人地相似。除了层数、大小等参数不同外,它们在整体上使用了相同的组件。 也许这里唯一值得注意的亮点是,MiniMax-M2 使用了一种所谓的"逐层(per_layer)QK-Norm",而非常规的 QK-Norm。 深入研究代码后发现,"per_layer"(逐层)的含义是:用于 QK-Norm 的 RMSNorm(如前所述)虽然和常规 QK-Norm 一样,是在每个 Transformer 模块(block)中定义的,但此外,它并不会在多个注意力头(attention heads)之间复用,而是为每一个注意力头都定义了专属的、唯一的 QK-Norm。 **3️⃣ 滑动窗口注意力 (Sliding-window attention)** 该模型的配置文件还包含"滑动窗口注意力"(sliding-window attention)的设置(类似于 Gemma 3),但是和 Mistral 3.1 一样,该功能默认处于禁用状态。 除此之外,除了"逐层 QK-Norm"之外,该架构与 Qwen3 非常相似。 **4️⃣ MoE 稀疏性 (MoE sparsity)** 还有一个有趣的"小花絮"(tidbit)是,他们没有使用共享专家(shared expert)(这一点与 Qwen3 相似,但与 Qwen3-Next 不同)。 正如之前提到的,共享专家很有用,因为它们可以减少其他专家之间的(功能)冗余。 此外,MiniMax-M2 的"稀疏度"(sparse)是 Qwen3 的两倍。也就是说,在与 Qwen3 235B-A22B(总参数 235B,激活 22B)大致相同的规模下,MiniMax-M2 每个 token 仅激活 10B(十亿)的专家参数,而不是 Qwen3 的 22B(二十二亿)。 **性能对比:** 换言之,MiniMax-M2 在每一步推理中仅使用了 4.37% 的参数,而 Qwen3 则使用了 9.36% 的激活参数。这种更高的稀疏性设计使得 MiniMax-M2 在保持性能的同时,大幅降低了计算成本。 The Big LLM Architecture Comparison Sebastian Raschka 的大型 LLM 架构比较完整文章 #AI #LLM架构 #MiniMax #MoE #Transformer #技术解析 #模型分析