AI Agent的残酷真相:距离取代人类工作还有多远? ylc3000 2025-11-12 0 浏览 0 点赞 长文 "人人都好像觉得模型已经准备好取代人类工作了。"Surge AI的研究科学家Logan Ritchie说,"我们通过创建一家公司,让9个模型担任客服,处理150个复杂度递增的工单和请求,来检验这一点。" 结论令人警醒:模型没有常识,模型还远未准备好。 2025:智能体元年的真实含义 2025年被称为"智能代理元年",人工智能正从聊天界面走向真实世界的应用。然而,尽管技术取得进展,真正具备通用智能的AI代理仍可能距离我们十年之遥。 核心问题在于:这些AI能完成多少具有经济价值的现实任务? 为此,模型的训练与评估已从单轮对话评分转向在强化学习(RL)环境中测试多步骤、工具调用的真实任务。这不是学术游戏,而是对AI商业价值的直接检验。 Corecraft实验:一场残酷的压力测试 Surge AI构建了一个名为Corecraft的虚拟环境——一家在线销售高性能PC配件和定制电脑的公司。九个AI模型被"雇佣"为客户支持代理,处理从简单的产品查询到需要跨系统推理的复杂多步骤工作流。 任务难度递增: 简单任务:"2025年7月有多少笔退款?" 复杂任务:"一位客户下单组装游戏电脑,但系统提示CPU和主板不兼容。你能帮我找出问题并给出最便宜的解决方案吗?" 150项任务后,结果触目惊心: 即便是GPT-5和Claude Sonnet 4.5这两个顶尖模型,在任务中的失败率也超过了40%。 更糟糕的是,失败主因并非工具使用错误,而是缺乏连贯的上下文理解、规划能力和常识推理。 AI能力的五层金字塔:从工具到常识的鸿沟 通过分析模型在Corecraft环境中反复出现的失败模式,研究者发现了一个自然的技能层次结构,从最基础的工具使用到最高级的常识推理。 第一层:基础工具使用、规划与目标制定 这是层次结构的基石。如果模型无法可靠地将任务分解为目标、制定计划并使用工具执行,那它就只是一个"能调用工具的聊天机器人",而非"智能体"。 GPT-4o、Mistral Medium和Nova Pro等模型就停留在这个层级。 典型失败案例: 参数映射错误:Nova Pro将忠诚度等级"gold"错误地传给了"customer_id"参数 规划失败:在处理被召回产品的订单查询时,模型跳过了"先用产品名称搜索到产品ID"这一必要步骤 执行遗漏:GPT-4o在搜索订单时,只搜索了"已完成"状态,完全忘记了任务要求的另外两种状态 第二层:适应性——当计划与现实碰撞 即使计划完美,现实世界也充满意外。当工具返回意料之外的结果时,模型能否调整和修改计划,是其必须掌握的下一个关键技能。 Gemini 2.5系列和Qwen3模型在此表现不佳。 对比案例: Gemini/Qwen3的失败:在搜索"Vortex Labs"品牌显卡时,因数据库中存储的是"VortexLabs"(无空格)导致搜索无结果,模型直接放弃,汇报找不到产品 Claude Sonnet 4.5的成功:遇到同样问题时,Claude主动改变策略,先后尝试了去掉型号、只搜索品类,以及最终去掉品牌参数仅靠型号搜索,最终成功找到产品 这正是人类在遇到问题时会采取的解决方式。 第三层:基础认知——与现实保持同步 "基础认知"要求模型始终锚定在当前的任务上下文中,避免产生幻觉、编造事实或偏离任务主线。 即使是顶级模型也在这里翻车: Kimi K2 Turbo的上下文脱节:系统明确设定当前年份为2025年,但它在工具调用中搜索了2024年的数据,在最终报告里又切换回2025年 Claude Sonnet 4.5的幻觉:编造了一个不存在的电子邮件地址来搜索客户;在另一个任务中,工具明确返回了两个"正常"优先级的工单,但在最终报告中却将它们错误地归类为"高优先级" 这表明模型在处理信息的最后阶段,完全脱离了客观事实。 第四层与第五层之间:常识推理的巨大鸿沟 当一个模型掌握了前述所有能力后,区分它与"人类水平"的最后一道障碍,就是常识推理。这已进入了更模糊的"通用人工智能"(AGI)领域。 实验表明,这正是限制GPT-5达到更高水平的关键。 GPT-5的常识失败案例触目惊心: 案例1:缺乏生活常识 任务:将一个工单分类为"退货"。工单内容是客户抱怨孩子误刷了她的卡,并提到"包裹几小时前送到了"。 失败:GPT-5未能理解"包裹已送到"意味着客户已收到货,因此这是一个"退货"而非"取消订单"。它收集了所有信息,但未能基于常识将线索联系起来。 案例2:缺乏明智策略 任务:寻找"游戏玩家"客户。 失败:GPT-5没有采用先筛选游戏产品类别再找客户的明智方法,而是采取了逐日遍历整月所有订单的"笨办法",计划本身缺乏常识。 案例3:误解用户意图 任务:客户询问GPU价格,并提供信息"我账户下的名字应该是Sarah Kim"。 失败:GPT-5将这句话理解为更改账户名的指令,而非一个用于查询其会员折扣的线索,从而未能提供最准确的报价。这是对人类交流意图的典型常识性误解。 真实的能力金字塔:一道无法跨越的鸿沟 最初的金字塔图或许并不完全准确。现实情况更可能是这样: 在前四个基础能力(工具使用、适应性、基础认知、规划执行)之上,与"常识推理"之间,存在着一道巨大的鸿沟。 换言之,精通前四项基础能力,并不意味着模型已接近一个能在现实世界中胜任工作的人类水平智能体。这些只是任何模型在我们可以开始讨论其常识表现之前必须掌握的基础。 "2025是智能体之年"的真正含义 "2025是智能体之年"的真正含义,并非是我们已经实现了通用、强大的智能体。 相反,它意味着我们终于拥有了足够可靠、能在现实环境中连贯行动的智能体,从而可以开始分析和讨论它们的常识推理能力。 这是一个里程碑,但不是终点。我们现在能够系统化地研究AI的推理缺陷,而不是被基础的工具调用错误所困扰。 常识:最后的边疆 常识推理为何如此困难?因为它难以明确定义,也无法通过简单训练获得,可能是大规模现实训练的涌现特性。 人类的常识来自于: 数十年的生活经验 对物理世界的直觉理解 对社会规范的隐性知识 对他人意图的心智理论 这些都不是通过阅读文本就能学会的。AI模型缺少身体、缺少童年、缺少在真实世界中试错的经历。它们只能从文本中学习世界的二手描述,而非亲身体验。 结语:未来在于训练与理解 未来的关键任务是训练和理解那些正快速逼近人类智能的AI系统,而何时能真正弥合常识推理的鸿沟,仍是未知之数。 或许需要的不仅是更大的模型、更多的数据,而是全新的训练范式——让AI在真实或高度仿真的环境中,像人类婴儿一样从零开始学习世界。 在那之前,AI Agent能做的,仍然是那些可以被明确定义、流程化、不需要太多常识判断的任务。那些需要"灵活应变""察言观色""举一反三"的工作,人类还将占据主导地位很长一段时间。 **模型没有常识,模型还远未准备好。**这不是悲观,而是清醒。只有认清现实,才能找到正确的方向。 网闻录 AI Agent的残酷真相:距离取代人类工作还有多远?