首个超过100B的 Diffusion 文本模型 LLaDA2.0 发布 inclusionAI 2025-10-30 0 浏览 0 点赞 长文 首个超过100B 的 diffusion 文本模型出现了!LLaDA2.0-flash-preview-100B-A6B!而且是 MoE 架构的! **性能表现:** - 上下文大小:4K - MMLU-Pro 分数:66.16(GPT-4-Turbo 为 63.71) - 性能水平:大概处于 2023 年 11 月的水平,代差约 2 年左右 **技术分析:** 这个新模型有点改变对 diffusion 模型的看法。搞到这么大的 MoE,结果性能差距还是很大,以及这么大的性能优势可能也会丢掉一些了。不知道这个方向各个大公司,尤其是 Google 还会不会继续发展。 **什么是 Diffusion 文本模型?** Diffusion 架构的文本模型原理基于扩散过程(噪声逐步去除),通过迭代去噪生成文本,而且迭代可以并行,因此速度很快。看上去就像刮奖一样把字刮了出来一样。 **目前的 Diffusion 文本模型:** - DiffuCoder(苹果) - Mercury - LLaDA-8B - Dream 7B - gemini-diffusion(Google) **技术特点:** - MoE(混合专家)架构 - 100B+ 参数规模 - 基于扩散过程的并行迭代生成 - 快速推理能力 这标志着 diffusion 文本模型在规模上的重大突破,但性能表现仍需进一步观察其发展方向。 Hugging Face 模型地址 LLaDA2.0-flash-preview 模型下载和详情 #AI #LLM #MoE #开源项目 #扩散模型 #文本生成