The Godmother of AI on how we got to today—and what comes next | Dr. Fei-Fei Li ylc3000 2025-11-18 0 浏览 0 点赞 长文 AI教母李飞飞:从两块GPU到改变世界,世界模型将是下一个突破 这个访谈是李飞飞公司发布世界模型初代产品的一系列播放访谈之一,来自Lenny's Podcast。核心观点依然是她认为LLM和AGI的距离还非常遥远,not even close。 笔记如下: 李飞飞博士被誉为"AI教母",是过去20年AI领域最核心的推动者之一。她创建了ImageNet数据集,直接催生了深度学习革命;曾担任谷歌云首席AI科学家、斯坦福AI实验室主任,并联合创立了斯坦福以人为本AI研究院。最近,她创立的World Labs刚刚发布了全球首个大型世界模型产品Marble。 这期播客揭示了一个事实:仅仅9年前,自称"AI公司"还是商业自杀行为,因为没人相信AI真的能成功。而今天,AI已成为文明级别的技术。李飞飞分享了这段鲜为人知的历史,以及她对AI未来的深刻洞察——包括为什么世界模型将是语言模型之外的下一个重大突破。 一、AI简史:从寒冬到爆发的关键转折 1、"AI"曾是禁忌词,科技公司避之不及 2015-2016年,一些大型科技公司在内部讨论中甚至刻意避免使用"AI"这个词,因为不确定它是否是个"脏词"。直到2017年左右,公司才开始敢于称自己为"AI公司"。李飞飞当时甚至需要鼓励大家使用"AI"这个术语,因为她认为这是人类在科技探索中提出的最大胆的问题之一。 2、ImageNet:用"笨办法"解决核心问题 2006-2007年,李飞飞和学生们做了一个疯狂的决定:把整个互联网上关于物体的图像数据都抓取下来。当时互联网规模远小于今天,但这个野心依然显得"完全妄想"——几个研究生和一位教授想要完成这件事。最终他们精心策划了1500万张图像,创建了包含2.2万个概念的分类体系,并开源给研究社区。这就是ImageNet的诞生。 关键洞察是:人类学习和进化本质上是一个大数据学习过程。人类不断从经验中学习,动物通过体验世界而进化。当时AI领域过度关注数学模型,却忽视了一个根本要素——数据。 3、2012年:黄金三要素的首次汇聚 2012年,多伦多大学Jeff Hinton教授的团队用ImageNet数据集、两块英伟达GPU和神经网络算法,在物体识别问题上取得了突破性进展。这三个要素——大数据、神经网络、GPU——成为现代AI的黄金配方。 有趣的是,那两块GPU就是普通的游戏显卡,可以在游戏商店买到。而今天的ChatGPT,尽管使用的是互联网规模的文本数据、更复杂的神经网络架构和数以十万计的GPU,但核心要素依然是这三样。 二、AGI:一个营销术语还是科学目标? 1、"AGI"的定义问题 李飞飞直言:作为科学家,她认真对待科学,但没有人真正定义过AGI。有些人认为是机器的"超能力",有些人认为是机器能在经济上成为独立代理人(能赚工资养活自己)。她怀疑如果图灵今天还在,被问及AI和AGI的区别,他可能会耸耸肩说:"我在1940年代就问过同样的问题。" 她的观点是:AGI更像是营销术语而非科学术语。AI本身就是她的科研北极星,她乐于让人们随意称呼,但作为科学家和技术专家,她关注的是AI这个领域本身。 2、我们离真正的AI还有多远 当前AI的局限性非常明显: • 让模型看一段办公室视频并数椅子,这是小学生能做的事,但AI做不到 • 让AI看牛顿拥有的所有天体运动数据(包括现代仪器数据),要它推导出17世纪的运动定律方程,今天的AI做不到 • 让AI展现牛顿式的创造力——观察天体运动并推导出支配所有物体运动的方程组,今天的AI完全无法做到 • 情感智能方面,一个学生走进老师办公室讨论动机、激情、学习困惑,这种对话今天的AI无法提供 李飞飞的判断:我们还需要更多创新。没有任何一个深度科学学科会说"我们不需要再创新了",而AI是人类文明中最年轻的学科之一,我们仍在摸索阶段。 三、世界模型:超越语言的下一个前沿 1、为什么需要世界模型? 人类智能的很大一部分建立在视觉、感知和空间理解之上,而不仅仅是语言。想象一个混乱的灾难现场——火灾、交通事故或自然灾害,人们组织救援、阻止进一步灾难、扑灭火焰,这些行动中很多是运动、对物体的自发理解和情境感知,语言只是其中一部分,但很多情况下语言无法让你扑灭火焰。 李飞飞在做机器人研究时意识到:连接语言之外的智能、连接具身AI(机器人)、连接视觉智能的关键,是对世界的空间智能理解。这就是世界模型的价值所在。 2、世界模型 vs 语言模型的本质区别 语言模型有一个"完美设置":训练数据是词(最终是token),输出也是词,目标函数和训练数据完美对齐。但机器人和空间智能完全不同: • 机器人需要在3D世界中采取行动 • 但训练数据缺少"3D世界中的行动"信息 • 网络视频虽然有大量数据,但行动信息不足 这就像是"把方块塞进圆孔"的问题。因此需要补充远程操作数据或合成数据,这样机器人才能在"大数据训练"的假设下学习。 3、机器人的"苦涩教训" Richard Sutton的"苦涩教训"(Bitter Lesson)论文指出:纵观AI算法发展史,简单模型+海量数据总是最终胜出,而不是复杂模型+少量数据。但李飞飞认为,对机器人来说情况更复杂: • 机器人是物理系统,更接近自动驾驶汽车而非语言模型 • 从2005年斯坦福的车在内华达沙漠赢得DARPA挑战赛,到今天Waymo在旧金山街头运营,已经20年了,而且还没完成 • 自动驾驶只是在2D表面运行的"金属盒子",目标是不碰任何东西 • 机器人是在3D世界中运行的3D物体,目标是接触物体 • 虽然深度学习加速了"大脑"部分,但机器人还需要成熟的物理本体、应用场景和供应链 李飞飞的结论:"我们可能在这个过程中还会经历许多苦涩教训。" 四、Marble:18个月从创立到产品发布 1、团队:30人,以研究者为核心 World Labs由四位联合创始人创立,都有深厚的AI、计算机图形学、计算机视觉研究背景。团队约30人,主要是研究人员和研究工程师,但也包括设计师和产品人员。李飞飞强调:"我们真的相信要创建一家扎根于空间智能深度技术的公司,但我们也在认真构建产品。" 从公司成立到产品发布仅用了18个月,这在前沿AI模型公司中是惊人的速度。 2、技术突破:全球首个可生成真正3D世界的模型 一两个月前,团队第一次看到只需用一句话和一张或多张图片提示,就能创建可以自由导航的世界。如果戴上VR头显(他们提供这个选项),甚至可以在里面走动。李飞飞说:"尽管我们一直在开发这个技术,但当它真正实现时,依然让人感到震撼。" 3、意外的应用场景 虚拟制片:与索尼合作的虚拟制片公司表示,Marble将他们的制作时间缩短了40倍。在一个月的项目周期中,这种加速至关重要。 游戏开发:用户已经将Marble生成的场景导出网格,放入VR游戏或其他游戏中。 机器人训练:创建合成训练环境是机器人研究的最大痛点之一。这些环境需要极其多样化,来自不同环境和不同可操作物体。让计算机模拟比人工构建每个资产要快得多。 心理学研究:一个心理学团队联系他们,希望用Marble进行研究。原因是某些精神病患者的研究需要了解大脑如何对不同沉浸式场景做出反应(比如凌乱vs整洁的场景),获取这些场景非常困难且昂贵,而Marble可以几乎瞬间生成大量实验环境。 暴露疗法:可用于治疗恐高症、恐蛇症等。李飞飞提到,就在采访前一晚,一位朋友打电话问她Marble能否用于治疗恐高症。 五、李飞飞的职业选择哲学 1、智力上的无畏是最重要的品质 李飞飞说,她在招聘年轻人时会特别看重这一点:"当你想要做出改变时,你必须接受你在创造新事物或深入新领域。人们还没有做过这件事。如果你有这种自我意识,你几乎必须允许自己无畏和勇敢。" 她从普林斯顿来到斯坦福时,放弃了即将获得的终身教职(tenure),重新开始终身教职时钟。她做这个决定是因为斯坦福有令人惊叹的人才,硅谷生态系统也令人惊叹,她"愿意冒险"。 2、不要过度思考所有可能出错的事 李飞飞观察到,很多年轻人在考虑工作时会思考"方程的每个维度和方面"。她想鼓励年轻人专注于重要的事情: • 你的热情在哪里? • 你与使命是否一致? • 你是否相信并信任这个团队? • 专注于你能产生的影响,以及你能合作的工作和团队 她承认AI领域的年轻人面临很大压力——太多新闻、太多事情发生、太多FOMO(害怕错过)。但关键是:"什么会真正让你感到满足?而不仅仅是哪家公司增长最快、谁会赢。" 3、专注于使命和团队,而非所有细节 李飞飞说她经常在指导模式下与求职者交谈,她看到很多优秀年轻人在考虑工作时过度关注每一个细微维度,而可能最重要的是:热情、使命对齐、对团队的信念。 六、AI时代每个人都有角色 李飞飞在全球旅行时,最常被问到的问题是:"如果我是音乐家、中学教师、护士、会计、农民,我在AI时代还有角色吗?还是AI会接管我的生活或工作?" 她的回答是响亮的"是"——每个人都在AI中有角色。具体取决于你做什么、你想要什么,但没有任何技术应该剥夺人的尊严,人的尊严和能动性应该是每项技术的开发、部署和治理的核心。 1、年轻艺术家:如果你的热情是讲故事,拥抱AI作为工具。世界仍然需要你独特的讲述方式,但如何用最令人惊叹的工具以最独特的方式讲述你的故事很重要,那个声音需要被听到。 2、即将退休的农民:AI仍然重要,因为你是公民。你可以参与社区,你应该在AI如何使用、如何应用方面有发言权。 3、护士:医疗工作者应该得到AI技术的极大增强和帮助,无论是智能摄像头提供更多信息,还是机器人协助,因为护士工作过度、过度疲劳。随着社会老龄化,我们需要更多帮助来照顾人们。 李飞飞强调:"即使像我这样的技术专家,也对每个人在AI中都有角色这一点非常真诚。" 核心洞察(QA形式) Q1:为什么说ImageNet是现代AI的起点? A:ImageNet不仅仅是一个数据集,它代表了AI发展的范式转变——从过度关注算法模型到认识数据的关键作用。李飞飞团队在2006-2007年做出了一个大胆判断:人类学习和进化本质上是大数据学习过程,AI也需要如此。2012年,当ImageNet数据集与神经网络、GPU结合时,产生了现代AI的"黄金配方"。有趣的是,当时只用了两块游戏显卡,而今天的ChatGPT虽然规模大得多,但核心要素依然是这三样:大数据、神经网络、GPU。这个洞察的深刻之处在于,它揭示了AI进步的本质不是单一突破,而是要素组合。 Q2:世界模型为什么是下一个重要突破? A:语言模型有个"完美设置"——输入输出都是文字,目标函数和训练数据完美对齐。但真实世界的智能远不止语言:想象一个灾难救援现场,人们的组织、移动、对物体的理解、情境感知,很多是语言无法描述的。世界模型要解决的是空间智能——理解3D世界、在其中推理、互动、规划行动。这对机器人、设计、科学发现都至关重要。比如DNA双螺旋结构的发现,就需要从2D的X射线衍射照片推导出3D结构,这完全是空间智能。李飞飞的团队用18个月就发布了全球首个能生成可导航3D世界的模型Marble,已经在虚拟制片中将制作时间缩短了40倍。 Q3:如何在AI时代保持个人价值和尊严? A:李飞飞给出了一个令人深思的答案:无论你的职业是什么,你都在AI时代有角色,关键是每个人都要作为负责任的个体参与其中。这不是简单的职业建议,而是一个哲学观点:AI是关于人的技术,人的尊严和能动性应该是AI开发、部署和治理的核心。年轻艺术家应该拥抱AI作为讲故事的工具,因为世界需要你独特的声音;护士应该从AI中得到增强,因为工作过度需要帮助;即使是即将退休的农民,也应该作为公民参与社区中AI应用的决策。她反对硅谷常见的"无限生产力"或"无限闲暇"的空洞话语,强调要与所有人——而不仅仅是硅谷同类——真诚地交流。这体现了她"以人为本"的AI哲学:技术本身是中性的,如何使用它取决于我们每个人的选择和行动。 网闻录 The Godmother of AI on how we got to today—and what comes next | Dr. Fei-Fei Li