Sebastian Raschka 深度解析 MiniMax-M2 架构

刚看到 MiniMax-M2 的基准测试（benchmark）跑分，性能好到简直没法忽视。Sebastian Raschka 更新了《大型 LLM 架构比较》（The Big LLM Architecture Comparison）一文，深入分析 MiniMax-M2 的架构特点。

**1️⃣ 全注意力模块 (Full attention modules)**
MiniMax-M2 与其他"解码器（decoder）风格"的 Transformer LLM 归为一类，因为它没有使用 MiniMax-M1 中提出的高效"闪电注意力"（lightning attention）变体。相反，其开发者**重新用回了标准的全注意力（full attention）**机制，这很可能是为了提升模型（以及跑分）的性能。

**2️⃣ 逐层 QK-Norm (Per-layer QK-Norm)**
总体而言，MiniMax-M2 与 Qwen3（千问3）惊人地相似。除了层数、大小等参数不同外，它们在整体上使用了相同的组件。

也许这里唯一值得注意的亮点是，MiniMax-M2 使用了一种所谓的"逐层（per_layer）QK-Norm"，而非常规的 QK-Norm。

深入研究代码后发现，"per_layer"（逐层）的含义是：用于 QK-Norm 的 RMSNorm（如前所述）虽然和常规 QK-Norm 一样，是在每个 Transformer 模块（block）中定义的，但此外，它并不会在多个注意力头（attention heads）之间复用，而是为每一个注意力头都定义了专属的、唯一的 QK-Norm。

**3️⃣ 滑动窗口注意力 (Sliding-window attention)**
该模型的配置文件还包含"滑动窗口注意力"（sliding-window attention）的设置（类似于 Gemma 3），但是和 Mistral 3.1 一样，该功能默认处于禁用状态。

除此之外，除了"逐层 QK-Norm"之外，该架构与 Qwen3 非常相似。

**4️⃣ MoE 稀疏性 (MoE sparsity)**
还有一个有趣的"小花絮"（tidbit）是，他们没有使用共享专家（shared expert）（这一点与 Qwen3 相似，但与 Qwen3-Next 不同）。

正如之前提到的，共享专家很有用，因为它们可以减少其他专家之间的（功能）冗余。

此外，MiniMax-M2 的"稀疏度"（sparse）是 Qwen3 的两倍。也就是说，在与 Qwen3 235B-A22B（总参数 235B，激活 22B）大致相同的规模下，MiniMax-M2 每个 token 仅激活 10B（十亿）的专家参数，而不是 Qwen3 的 22B（二十二亿）。

**性能对比：**
换言之，MiniMax-M2 在每一步推理中仅使用了 4.37% 的参数，而 Qwen3 则使用了 9.36% 的激活参数。这种更高的稀疏性设计使得 MiniMax-M2 在保持性能的同时，大幅降低了计算成本。