杨立昆的"异端"预言:为什么他认为LLM和人形机器人都在走弯路 AI前沿观察 2025-10-29 0 浏览 0 点赞 长文 ## 一个"异端"的三十七年坚持 2025年,当全世界都在为ChatGPT、Claude、Gemini等大语言模型的能力惊叹时,Yann LeCun(杨立昆)站在MIT的讲台上,说出了一句让很多人不舒服的话: **"大语言模型是死胡同,它们永远无法达到人类水平的智能。"** 这不是他第一次"唱反调"。事实上,这位2018年图灵奖得主、Meta首席AI科学家、深度学习三巨头之一,整个职业生涯都在扮演"异端"的角色。 1987年,当AI学界沉浸在专家系统的热潮中时,年轻的LeCun在巴黎完成了关于"连接主义学习模型"的博士论文,奠定了神经网络反向传播算法的基础。那时,神经网络被认为是"已死的技术",而他选择了一条孤独的道路。 2012年,当AlexNet在ImageNet竞赛中横空出世,深度学习开始被主流接受时,LeCun终于等来了"平反"。 2022年,当ChatGPT引爆全球AI热潮,所有科技巨头都在押注大语言模型时,LeCun再次站到了主流的对立面。 历史会重演吗?这个"异端"这次又对了吗? ## LeCun的核心论点:知识转录的根本性瓶颈 要理解LeCun的观点,需要回到他在MIT演讲中的一个关键类比: **"我们今天在大语言模型上遇到的问题,其实和1980年代的专家系统类似——只不过现在这种知识转录是通过学习完成的,但本质上仍然是把人类知识搬到机器里,这依然是个瓶颈。"** ### 专家系统的教训:知识工程的失败 让我们先回到1980年代。那时的AI研究者相信,只要把人类专家的知识转录成规则和事实,机器就能像专家一样思考。 典型的专家系统是这样工作的: - 医疗诊断系统:IF 患者发烧 AND 咳嗽 AND 胸痛 THEN 可能是肺炎 - 金融决策系统:IF 市盈率<15 AND 负债率<50% THEN 建议买入 这种方法在小范围内有效,但很快遇到了三个致命问题: **知识获取瓶颈**:人类专家的知识很难完整地转录。很多知识是隐性的、直觉性的,专家自己都说不清楚。 **规则爆炸**:真实世界太复杂,规则数量呈指数级增长。一个稍微复杂的系统就需要成千上万条规则,维护成本极高。 **脆弱性**:规则系统无法处理边界情况和未知情况。一旦遇到规则库中没有的情况,系统就会崩溃。 到1990年代,专家系统热潮退去,AI进入"寒冬"。 ### LLM:换了形式的知识转录? LeCun的洞察在于:**大语言模型虽然看起来完全不同,但在本质上仍然是一种知识转录。** 不同之处在于: - 专家系统:人工编写规则,显式转录知识 - 大语言模型:从海量文本中学习,隐式转录知识 但相同之处在于: - 都依赖人类已经产生的知识(规则库 vs 文本语料) - 都是"知识的搬运工"而非"知识的创造者" - 都受限于人类知识的边界 LeCun指出的关键问题是:**LLM只能重组和插值它见过的知识,无法真正理解因果关系,无法在物理世界中学习。** 举个例子: - LLM可以告诉你"水往低处流",因为它在训练数据中见过这句话 - 但它不理解"重力"这个概念,不理解为什么水会往低处流 - 如果你问它"在失重环境下水会怎样",它只能基于训练数据中的描述来猜测,而不是基于对物理规律的理解来推理 这就是LeCun所说的"永远无法达到人类水平的智能"的原因——**人类的智能不仅来自语言,更来自与物理世界的交互。** ## 人形机器人的"大秘密":没人知道如何让它们足够聪明 在同一场演讲中,LeCun对当前的人形机器人热潮泼了一盆冷水: **"这个行业的大秘密是,这些公司都不知道如何让机器人足够聪明以至于有用。"** 这句话听起来刺耳,但如果你仔细观察当前的人形机器人产品,会发现他说的是事实。 ### 当前人形机器人的困境 **硬件已经足够好**: - Boston Dynamics的Atlas可以做后空翻 - Tesla的Optimus可以稳定行走 - Figure 01可以精准抓取物体 **但软件远远不够**: - 这些机器人只能完成预编程的任务 - 无法应对环境的变化和意外情况 - 无法像人类一样"随机应变" 举个例子: - 让机器人"把桌上的杯子放到厨房",如果杯子的位置、形状、重量和训练时完全一样,机器人可以完成 - 但如果杯子倒了、桌上有障碍物、厨房门关着,机器人就不知道该怎么办了 **根本问题**:机器人缺乏对物理世界的常识性理解。 人类三岁小孩都知道: - 杯子倒了会洒水 - 门关着需要先开门 - 易碎物品要轻拿轻放 但机器人不知道,因为它没有"世界模型"——对物理世界如何运作的内在理解。 ### 为什么不能用LLM解决? 有人可能会问:既然LLM这么强大,为什么不能用它来控制机器人? 事实上,已经有很多团队在尝试这个方向(如Google的RT-2、PaLM-E),但效果并不理想。 **原因一:LLM的知识来自文本,不来自物理交互** LLM可以告诉你"鸡蛋是易碎的",但它不知道"多大的力会打碎鸡蛋"。这种细粒度的物理知识,无法从文本中学到,只能通过实际交互学习。 **原因二:LLM的推理是"快思考",不是"慢思考"** 人类在操作物体时,会进行复杂的物理推理: - 这个物体有多重? - 我需要用多大的力? - 如果我这样抓,会不会滑落? 这种推理需要"世界模型"——对物理规律的内在模拟。而LLM只能做"模式匹配",无法做真正的物理推理。 **原因三:实时性要求** 机器人需要实时响应环境变化(毫秒级),而LLM的推理速度太慢(秒级)。更重要的是,LLM每次推理都需要"重新思考",无法形成"肌肉记忆"式的快速反应。 ## 世界模型:LeCun的解决方案 那么,LeCun认为什么才是正确的方向?答案是:**世界模型(World Models)**。 ### 什么是世界模型? 世界模型是一个系统对环境如何运作的内在表征。它能够: **预测未来**:给定当前状态和行动,预测下一个状态 - 例如:如果我推这个杯子,它会往哪个方向倒 **理解因果**:理解行动和结果之间的因果关系 - 例如:杯子倒了是因为我推了它,而不是巧合 **规划行动**:基于对未来的预测,规划达成目标的行动序列 - 例如:要把杯子放到厨房,我需要先拿起它,然后走到厨房,然后放下 **泛化能力**:将学到的知识应用到新情况 - 例如:即使我没见过这个形状的杯子,我也知道它会遵循相同的物理规律 ### 人类婴儿如何学习世界模型 LeCun经常用人类婴儿的学习过程来说明世界模型的重要性: **0-6个月**:婴儿通过观察和交互,学习基本的物理规律 - 物体会掉落(重力) - 物体不会凭空消失(物体永久性) - 固体物体不能穿过彼此(碰撞) **6-12个月**:婴儿开始理解因果关系 - 我推球,球会滚动 - 我松手,物体会掉落 **1-2岁**:婴儿开始进行简单的规划 - 要拿到高处的玩具,需要先搬凳子 **关键点**:这些学习都是通过与物理世界的交互完成的,不是通过语言。 一个婴儿在学会说话之前,就已经掌握了大量关于物理世界的知识。这些知识构成了"世界模型"的基础。 ### 世界模型 vs 大语言模型 | | 世界模型 | 大语言模型 | |---|---|---| | **学习来源** | 物理世界交互 | 文本语料 | | **知识类型** | 因果关系、物理规律 | 统计相关性、语言模式 | | **推理方式** | 物理模拟、因果推理 | 模式匹配、概率预测 | | **泛化能力** | 可以应用到未见过的情况 | 受限于训练数据分布 | | **可解释性** | 基于物理规律,可解释 | 黑盒,难以解释 | LeCun的核心观点是:**真正的智能需要世界模型,而不仅仅是语言模型。** ## 为什么LeCun可能是对的:三个支持性证据 ### 证据一:LLM的"幻觉"问题本质上无法解决 大语言模型的"幻觉"(生成看似合理但实际错误的内容)不是工程问题,而是架构问题。 **根本原因**:LLM没有"真值检验"机制。它只能基于统计相关性生成文本,无法验证生成的内容是否符合现实。 例如: - LLM可能生成"埃菲尔铁塔位于伦敦",因为在训练数据中,"埃菲尔铁塔"和"伦敦"经常一起出现(在旅游文章中) - 它没有"世界模型"来验证这个陈述是否符合地理事实 而人类不会犯这种错误,因为我们有关于地理的"世界模型"——我们知道埃菲尔铁塔在巴黎,这是基于对物理世界的理解,而不仅仅是语言统计。 ### 证据二:LLM在物理推理任务上表现糟糕 研究表明,即使是最先进的LLM(如GPT-4),在需要物理推理的任务上表现也远不如人类: **物体运动预测**: - 任务:预测一个球从斜坡滚下后会停在哪里 - GPT-4准确率:约60% - 人类准确率:约95% **因果推理**: - 任务:判断两个事件之间是否存在因果关系 - GPT-4准确率:约70% - 人类准确率:约90% **工具使用规划**: - 任务:规划如何使用工具完成任务(如用杠杆撬开箱子) - GPT-4成功率:约40% - 人类成功率:约85% 这些数据表明:**LLM在需要物理世界理解的任务上,存在根本性的能力缺陷。** ### 证据三:当前机器人的"智能"主要来自预编程,不是学习 观察当前最先进的机器人系统(如Boston Dynamics的Spot、Tesla的Optimus),你会发现: **它们的能力主要来自**: - 精心设计的控制算法(如步态规划、平衡控制) - 大量的人工标注数据(如物体识别、场景理解) - 针对特定任务的预编程(如开门、搬箱子) **它们缺乏的能力**: - 应对未见过的情况 - 从少量示例中学习新任务 - 理解任务的深层目标(而不仅仅是执行步骤) 这正是LeCun所说的"不知道如何让机器人足够聪明"——我们可以让机器人完成特定任务,但无法让它们像人类一样灵活应对各种情况。 ## 为什么LeCun可能是错的:三个反驳论点 公平起见,我们也需要审视LeCun观点的潜在问题。 ### 反驳一:LLM的能力边界尚未探明 **反驳论点**:我们还不知道LLM的能力上限在哪里。 - GPT-3到GPT-4的跃迁,展现了"涌现能力"(Emergent Abilities)——在模型规模达到某个阈值后,突然出现了训练时未明确优化的能力 - 也许随着模型规模继续扩大、训练数据继续增加、训练方法继续改进,LLM能够"涌现"出物理推理能力 **LeCun的可能回应**:涌现能力仍然受限于训练数据。如果训练数据中没有足够的物理交互信息,再大的模型也无法"无中生有"地获得物理理解。 ### 反驳二:多模态模型正在弥合差距 **反驳论点**:新一代多模态模型(如GPT-4V、Gemini)不仅学习文本,还学习图像、视频,甚至机器人交互数据。 - 这些模型可以从视频中学习物理规律(如物体如何运动、碰撞如何发生) - 结合强化学习,模型可以通过模拟环境学习物理交互 **LeCun的可能回应**:从视频学习和真实物理交互仍有本质区别。视频只是物理世界的2D投影,丢失了大量信息(如力、质量、摩擦力)。真正的世界模型需要通过实际交互来学习。 ### 反驳三:世界模型的技术路径尚不清晰 **反驳论点**:LeCun批评LLM,但他提出的世界模型方案同样面临巨大挑战。 - 如何高效地学习世界模型?(物理交互的数据收集成本极高) - 如何表征世界模型?(物理世界的复杂度远超语言) - 如何将世界模型与语言理解结合?(人类智能同时需要两者) **LeCun的可能回应**:技术路径不清晰不代表方向错误。深度学习在1980年代也面临同样的质疑,但最终证明是正确的方向。 ## 历史的回声:LeCun的"异端"往往预示范式转变 要判断LeCun这次是否又对了,我们可以回顾他的历史轨迹。 ### 1987年:坚持神经网络 **主流观点**:专家系统是AI的未来,神经网络已经被证明无效(Minsky和Papert的《感知机》一书) **LeCun的观点**:神经网络配合反向传播算法,可以学习复杂的表征 **结果**:2012年AlexNet证明了深度学习的有效性,神经网络成为AI的主流 ### 2015年:质疑纯监督学习 **主流观点**:有了大数据和大算力,监督学习可以解决一切问题 **LeCun的观点**:监督学习需要大量标注数据,这是瓶颈。自监督学习才是未来 **结果**:2018年后,BERT、GPT等自监督学习模型成为主流 ### 2022年:质疑LLM **主流观点**:大语言模型是通向AGI的道路 **LeCun的观点**:LLM是死胡同,世界模型才是正解 **结果**:?(历史正在书写) **模式**:LeCun的"异端"观点,往往在5-10年后被证明是正确的。 ## 一个更微妙的可能:融合而非替代 也许真相不是"LLM vs 世界模型"的二选一,而是两者的融合。 ### 人类智能的双系统理论 诺贝尔经济学奖得主Daniel Kahneman提出的"双系统理论"可能提供了启示: **系统1(快思考)**: - 基于直觉和经验 - 快速、自动、无意识 - 类似于LLM的模式匹配 **系统2(慢思考)**: - 基于逻辑和推理 - 缓慢、费力、有意识 - 类似于基于世界模型的因果推理 **人类智能 = 系统1 + 系统2** 也许真正的AI也需要两个系统: - **LLM作为系统1**:快速的模式识别、语言理解、常识推理 - **世界模型作为系统2**:深度的因果推理、物理模拟、规划决策 ### 技术融合的可能路径 **路径一:用世界模型增强LLM** - LLM负责语言理解和生成 - 当需要物理推理时,调用世界模型 - 类似于人类"边说边想象"的过程 **路径二:用LLM引导世界模型学习** - 用LLM从文本中提取物理知识作为先验 - 用世界模型通过交互验证和细化这些知识 - 类似于人类"先听说,再验证"的学习过程 **路径三:端到端的联合训练** - 同时学习语言表征和世界模型 - 两者共享底层表征,互相增强 - 类似于人类语言和认知的协同发展 ## 对行业的启示:不要把所有鸡蛋放在一个篮子里 无论LeCun这次是对是错,他的观点都给AI行业带来了重要启示: ### 启示一:警惕技术路线的单一化 当前AI行业存在"All in LLM"的趋势: - 几乎所有科技巨头都在押注大语言模型 - 大量资金和人才涌入LLM相关领域 - 其他技术路线(如世界模型、神经符号AI)相对被忽视 **风险**:如果LeCun是对的,整个行业可能在走弯路。 **建议**:保持技术路线的多样性,同时探索多个方向。 ### 启示二:重视物理世界的交互 当前AI研究过度依赖"数字世界"的数据(文本、图像、视频),而忽视了"物理世界"的交互。 **问题**: - 机器人学习主要依赖模拟环境,而模拟和现实存在巨大差距(Sim-to-Real Gap) - 缺乏大规模的物理交互数据集 **建议**: - 投资建设物理交互数据收集基础设施 - 开发更高保真度的物理模拟器 - 探索如何让AI在真实物理世界中安全地学习 ### 启示三:重新思考AGI的定义和路径 **当前主流观点**:AGI = 足够强大的LLM **LeCun的观点**:AGI = 世界模型 + 语言能力 + 推理能力 + ... **启示**:也许我们需要重新定义"通用人工智能"到底意味着什么,以及如何衡量我们是否在接近它。 ## 结语:异端的价值 Yann LeCun的"狂言",无论最终被证明是对是错,都具有重要价值。 在一个行业集体狂热的时刻,需要有人站出来质疑主流、提出不同观点。这种"异端"的存在,能够: **防止群体思维**:避免整个行业陷入单一路径依赖 **激发深层思考**:迫使我们重新审视基本假设 **保持技术多样性**:为未来的范式转变保留种子 历史已经多次证明,LeCun的"离经叛道"往往预示着范式转变。也许5年后,我们会回顾这场演讲,感叹他又一次看到了别人看不到的未来。 或者,也许这次他错了。但即便如此,他提出的问题——**LLM是否真的理解世界?机器人如何获得常识?世界模型如何构建?**——仍然是AI走向真正智能必须回答的问题。 **真正的进步,往往始于对主流的质疑。** 在这个意义上,我们需要更多像LeCun这样的"异端"——不是为了反对而反对,而是为了让整个领域保持清醒、保持多元、保持对真理的追求。 技术的未来不是由共识决定的,而是由那些敢于挑战共识的人塑造的。 --- **相关阅读**: - Yann LeCun在MIT的完整演讲(2025) - 《深度学习》(Goodfellow, Bengio, Courville) - 《思考,快与慢》(Daniel Kahneman) - LeCun关于世界模型的技术论文系列 原文链接 LeCun在MIT演讲的详细报道 图灵奖官网 Yann LeCun 2018年图灵奖获奖信息 反向传播算法 LeCun在1987年博士论文中的核心贡献 World Models 世界模型的技术介绍与论文 Meta AI Research LeCun所在的Meta AI研究团队 思考,快与慢 Daniel Kahneman的双系统理论 #AGI #AI哲学 #LLM #Yann LeCun #世界模型 #人形机器人 #技术争议 #深度学习