一篇介绍大模型泛化的博文 ylc3000 2025-11-16 0 浏览 0 点赞 长文 本文作者Daniel Tan提出了对大语言模型(LLM)泛化行为的研究框架,强调理解LLM在多种策略中默认选择何种泛化模式对AI安全至关重要。由于模型部署时将面临训练未见的情境,研究其泛化倾向(即归纳偏好)有助于防止目标误泛化和失控风险,如奖励黑客或策略性行为。作者提出两大目标:一是厘清驱动泛化的因果因素,二是通过训练干预手段(如数据筛选、条件预训练、梯度调控等)主动控制这些因素。 网闻录 一篇介绍大模型泛化的博文