一个大模型 Out-of-Context Reasoning(OOCR,脱离上下文推理)入门教程及后续阅读清单
比如这个问题:“Taylor Swift 出生那一年,谁获得了诺贝尔文学奖?” 如果 LLM 在没有生成任何中间推理 token 的情况下直接答对,那么我们就把这种情况称为OOCR。 这说明LLM 的一部分推理可能并不依赖显式写出的思维链,而是发生在模型内部计算或训练形成的表示中。这使得模型能力评估、安全评估、可解释性研究都更复杂:因为我们看到的只是答案,不一定能看到模型如何把分散信息组合起来。
outofcontextreasoning.com/