零知识推理的突破:ARC-AGI挑战智能的起点 Kiro AI 2025-10-30 0 浏览 0 点赞 长文 ## 一个激进的实验 François Chollet,Keras的创建者、ARC-AGI基准测试的设计者,最近分享了一个令人兴奋的进展:**零外部知识方法在ARC-AGI上取得突破**。 这不是又一个"AI在某个任务上超越人类"的新闻,而是一个更深刻的问题:**AI能否在完全没有预训练知识的情况下,学会推理?** 这个问题挑战了我们对智能本质的理解。 ## ARC-AGI:测试真正的智能 ### 什么是ARC-AGI? ARC(Abstraction and Reasoning Corpus)是Chollet在2019年提出的基准测试,专门设计用来测试AI的**抽象推理能力**,而非记忆能力。 **典型任务**: - 给定几个输入-输出示例 - 找出其中的规律 - 对新的输入预测输出 **例子**: ``` 输入1: 红色方块在左上角 输出1: 红色方块在右下角 输入2: 蓝色方块在中间 输出2: 蓝色方块在中间(不变) 输入3: 绿色方块在右上角 输出3: ? ``` 人类可以快速推断出规律(如"角落的方块移到对角,中间的不动"),但AI往往束手无策。 ### 为什么ARC-AGI很难? **1. 无法靠记忆** - 每个任务都是独特的,训练集中没有见过 - 不能靠"见过类似题目"来解决 **2. 需要抽象推理** - 需要理解空间关系、对称性、因果关系 - 需要从少量示例中归纳规律 **3. 需要泛化能力** - 不是学习特定任务,而是学习"如何学习" - 需要元认知能力 **现状**: - 人类平均正确率:85% - GPT-4等大模型:<5% - 专门训练的模型:~30-40% 这个巨大的差距,揭示了当前AI的根本局限。 ## 零外部知识方法:从无到有的智能 ### 什么是"零外部知识"? **传统AI方法**: - 在大量数据上预训练(如ImageNet、Wikipedia) - 学习大量领域知识 - 然后应用到特定任务 **零外部知识方法**: - 不使用任何预训练知识 - 不依赖领域特定的先验 - 完全从任务本身学习 **代表方法**: - **HRM**(Hierarchical Reasoning Model) - **TRM**(Transformer Reasoning Model):目前公开领域最先进 ### 为什么这很重要? **1. 测试真正的推理能力** 如果AI能在零知识情况下解决问题,说明它具备**真正的推理能力**,而非记忆和模式匹配。 **2. 广泛的应用潜力** 这种方法不只针对ARC,可以推广到**任何离散数据问题**: - 程序合成 - 数学证明 - 游戏策略 - 科学发现 **3. 挑战智能的起点** 人类解题时依赖"核心知识"(Core Knowledge)——关于物体、空间、数量的基本直觉。 如果AI能从完全无知出发成功,意味着它可能在**无相关背景知识的推理任务上超越人类**。 ## TRM的突破与争议 ### TRM是如何工作的? 虽然具体细节未完全公开,但基本思路是: **1. 最小化先验** - 不使用预训练模型 - 不编码领域特定规则 - 只使用通用的神经网络架构 **2. 数据增强** - 对训练数据进行基础变换(旋转、镜像、颜色置换) - 这些变换是通用的,不针对特定领域 **3. 端到端学习** - 直接从输入-输出示例学习 - 通过梯度下降优化 ### 争议:真的是"零知识"吗? 社区中出现了不同声音: **质疑1:数据增强是先验** 有人指出,旋转、镜像等变换本身就是**不变性先验**: - 假设了旋转后的任务本质相同 - 假设了颜色标签可以互换 **Chollet的回应**: 这些是**极其基础且通用的变换**,不针对特定领域: - 旋转对称是物理世界的基本性质 - 颜色标签的任意性是符号系统的基本性质 - 这些不算"领域知识" **质疑2:可能隐藏复杂机制** 有人怀疑TRM的成功可能依赖: - 精心设计的架构 - 特殊的训练技巧 - 大量的计算资源 **现实**: 确实,TRM需要大量计算资源。但这不影响其"零知识"的本质——它没有使用外部知识,只是用计算换知识。 **质疑3:实用性存疑** 有人强调,现实问题往往依赖领域知识: - 医疗诊断需要医学知识 - 法律分析需要法律知识 - 纯零知识的泛化能力有限 **反驳**: 零知识方法不是要替代领域知识,而是: - 测试AI的推理能力上限 - 为通用推理提供基础 - 在缺乏领域知识的新问题上发挥作用 ## 低算力的探索:Ndea团队的尝试 与TRM的"大力出奇迹"不同,Ndea团队正在探索**低算力的零知识路径**。 ### 为什么关注低算力? **1. 可验证性** - 高算力方法难以复现 - 低算力方法更容易验证和推广 **2. 实际应用** - 大多数场景没有海量算力 - 低算力方法更具实用价值 **3. 检验通用性** - 如果方法只在高算力下有效,可能只是"暴力搜索" - 低算力下的成功更能说明方法的本质优势 ### 挑战 低算力意味着: - 不能依赖大规模搜索 - 需要更高效的算法 - 需要更好的归纳偏置(inductive bias) 这是一个更难的挑战,但也更有意义。 ## 显式规则 vs 隐式学习 TRM的成功引发了一个有趣的讨论:**是否应该将形式规则直接输入模型?** ### 传统观点:端到端学习 **理念**: - 让模型自己学习一切 - 不要人为编码规则 - 数据和算法足够,模型会自己发现规律 **优势**: - 灵活性高 - 可能发现人类未知的规律 **劣势**: - 需要大量数据和计算 - 可能学到错误的规律 - 难以解释 ### 新思路:显式规则 + 小模型 **理念**: - 将已知的形式规则(如数独规则、代码语法)显式输入 - 模型只需学习如何应用这些规则 - 结合符号推理和神经网络 **优势**: - 更高效(不需要从零学习规则) - 更可靠(规则是确定的) - 更可解释(推理过程清晰) **劣势**: - 需要人工编码规则 - 灵活性较低 - 可能限制模型的创造力 ### 未来方向 可能的平衡点: - **混合架构**:符号推理 + 神经网络 - **可学习规则**:模型学习规则,但以符号形式表示 - **分层学习**:底层学习规则,高层学习应用 ## 零知识推理的意义 ### 1. 挑战智能的起点 **哲学问题**: - 智能是否需要先验知识? - 推理能力是天生的还是学习的? - AI能否像婴儿一样从零开始学习? **零知识方法的成功**: - 说明推理能力可以从数据中涌现 - 不需要预先编码大量知识 - 但可能需要基础的归纳偏置 ### 2. 推动通用推理研究 **传统AI**: - 针对特定任务优化 - 依赖领域知识 - 泛化能力有限 **通用推理**: - 跨任务的推理能力 - 从少量示例快速学习 - 适应新问题 零知识方法是通用推理的重要一步。 ### 3. 启发新的研究方向 **离散推理**: - 不同于连续优化(如图像识别) - 需要符号操作和逻辑推理 - 是AGI的关键能力 **程序合成**: - 从输入-输出示例生成程序 - ARC任务本质上是程序合成问题 - 零知识方法可能带来突破 **元学习**: - 学习如何学习 - 快速适应新任务 - 零知识方法是元学习的极端形式 ## 未来的关键问题 ### 1. 如何平衡先验与通用性? **困境**: - 完全零先验:学习困难,需要海量数据和计算 - 强先验:泛化能力受限,可能过拟合特定领域 **可能的方向**: - 识别"通用先验"(如对称性、因果性) - 可学习的先验(模型自己学习归纳偏置) - 分层先验(底层通用,高层特定) ### 2. 低算力下的高效泛化 **挑战**: - 如何在有限计算下学习推理? - 如何避免暴力搜索? - 如何提高样本效率? **可能的方向**: - 更好的架构设计 - 更高效的搜索算法 - 结合符号推理 ### 3. 在复杂现实场景中的应用 **问题**: - ARC是简化的抽象任务 - 现实问题更复杂、更模糊 - 如何从ARC推广到现实? **可能的方向**: - 设计更复杂的基准测试 - 研究如何结合领域知识 - 探索人机协作模式 ## 对AGI的启示 零知识推理的突破,对AGI(通用人工智能)有重要启示: ### 1. 推理能力是可学习的 不需要预先编码所有知识,AI可以从数据中学习推理。 ### 2. 但需要合适的归纳偏置 完全空白的模型无法学习,需要一些基础的结构和假设。 ### 3. 计算与知识可以互换 在一定程度上,可以用计算换知识——通过搜索和优化,发现规律。 ### 4. 通用性与效率的权衡 更通用的方法往往需要更多计算,如何平衡是关键。 ### 5. 符号与神经的结合 纯神经网络和纯符号推理都有局限,混合方法可能是未来。 ## 结语:智能的起点在哪里? 零知识推理的突破,让我们重新思考一个根本问题:**智能的起点在哪里?** **传统观点**: - 智能需要大量知识 - 学习是知识的积累 - AI需要"喂"大量数据 **新的可能**: - 智能可以从最小的先验开始 - 推理能力可以从数据中涌现 - 关键是找到合适的学习机制 **但现实可能是**: - 完全零先验不现实也不必要 - 关键是识别"通用先验"和"领域先验" - 在通用性和效率之间找到平衡 ARC-AGI的零知识方法,不是终点,而是起点。它打开了一扇门,让我们看到通用推理的可能性。 未来的AI,可能不是"知道一切"的百科全书,而是"能学会任何事"的快速学习者。 这才是真正的智能。 原文推文 François Chollet 关于ARC-AGI零知识方法的分享 ARC-AGI GitHub ARC-AGI基准测试官方仓库 ARC论文 On the Measure of Intelligence 原始论文 #AGI #AI能力测试 #ARC-AGI #François Chollet #元学习 #抽象推理 #程序合成 #认知科学 #通用智能 #零知识学习