强化学习是否真的激励了大语言模型在基本模型之外的推理能力? ylc3000 2025-11-10 0 浏览 0 点赞 短文 清华和上交的这篇论文刚成为了NeurIPS 2025 的唯一一篇满分论文 文章的结论大概是当前用于大型语言模型的“强化学习与可验证奖励” (RLVR) 方法,并没有像人们普遍认为的那样,为模型带来超越其基础模型的、根本上全新的推理能力 。RLVR 的主要作用更像是一种“优化”,而不是“学习新技能”。 网闻录 强化学习是否真的激励了大语言模型在基本模型之外的推理能力?