CALM:腾讯微信与清华提出连续自回归语言模型 2025-11-05 0 浏览 0 点赞 resource 腾讯微信团队和清华一起发表了一项叫"连续自回归语言模型"(CALM)的研究。 ## 研究背景 研究目标是解决当前大型语言模型逐个 token 生成过程导致的根本效率瓶颈。 ## 核心创新 CALM 提出了一种范式转变:**从预测离散的"下一个 token"转变为预测连续的"下一个向量"**。 ### 技术原理 🔹 **块压缩机制**:CALM 使用一个高保真的自动编码器将一个由 K 个 token 组成的"块"(chunk)压缩成一个单一的连续向量。 🔹 **逐向量生成**:通过这种方式,语言模型不再是逐 token 生成,而是逐向量生成。 🔹 **效率提升**:这使得生成序列的长度减少了 K 倍,从而大幅提高计算效率。 ## 技术意义 ### 突破传统范式 传统的自回归语言模型采用逐 token 生成的方式,每次只能预测一个离散的 token,这种串行化的生成过程成为了推理速度的主要瓶颈。 ### 提升生成效率 CALM 通过将多个 token 压缩为一个连续向量,实现了"批量生成"的效果,理论上可以将生成速度提升 K 倍。 ### 保持生成质量 使用高保真自动编码器确保了压缩和解压过程中的信息损失最小化,保证了生成文本的质量。 ## 应用前景 这项研究为大语言模型的推理加速提供了新的思路,特别是在需要生成长文本的场景下,CALM 的效率优势将更加明显。对于移动端和边缘设备的 AI 应用来说,这种效率提升尤为重要。 CALM Paper on arXiv CALM 论文原文 #AI #CALM #LLM #推理加速 #腾讯 #自回归模型 #论文解读