吴恩达：错误分析的核心思想，以及最佳实践

在上周的来信中，我解释了高效的 Agentic AI（具备自主能力的智能体）开发为什么需要一个有纪律的评估（evals）与错误分析（error analysis）过程，并介绍了进行评估的一种方法。本周，我想总结错误分析的核心思想，并分享一些最佳实践。

**背景：为什么错误分析如此重要**

鉴于当前大语言模型（LLM）正以惊人的速度进步，当错误分析指出一个问题时，你可用的解决方式也比以往更多。

**案例：深度研究智能体**

假设我们要构建一个基本的"深度研究（Deep Research）"智能体，它能搜索网络并撰写关于某一主题的详细报告，例如"黑洞科学的最新进展"。这个智能体可能需要执行一系列步骤：

1. 使用 LLM 生成若干与主题相关的网络搜索查询
2. 调用网络搜索 API 获取结果列表
3. 使用 LLM 识别最有价值的资料来源并抓取内容
4. 让 LLM 利用这些资料撰写报告

如果最终的报告相比一个人类研究者通过相同步骤写出的报告质量更差，那么性能差距可能来自任何一个步骤。

**基本的错误分析过程**

一个基本的错误分析过程通常包括：

1. **收集样本**：收集一批输出质量不佳的主题样本
2. **追踪分析**：逐步阅读整个流程中各步骤的中间结果（traces）
3. **定位问题**：判断究竟是哪一步的结果最常明显低于人类水平（HLP, Human Level Performance）

这对确定优先改进的环节非常有帮助。

**关键原则：低门槛启动**

一个常见的误解是：错误分析启动门槛很高。其实关键原则是观察工作流的各个步骤，看看在给定输入下哪些步骤表现不佳，通常是通过与人类水平进行对比。

**渐进式方法：**

1. **初期**：先非正式地阅读一两个追踪样本，以大致了解可能的问题
2. **中期**：随着系统的成熟，逐步推进到更严谨的错误分析阶段
3. **成熟期**：定期收集数千个表现不佳的样例，进行系统性评估，明确统计每个步骤在多大比例的情况下导致了最终输出问题

**工作流设计的迭代**

除了改进单个步骤的执行，我们还可以调整复杂任务的分解方式。由于 LLM 的快速进步，工作流设计本身的迭代速度明显加快。

**"拆除脚手架"模式：**

一个常见的模式是让 LLM 承担更多任务。例如：

- **过去**：使用一个 LLM 清理网页，去除导航链接、广告、多余的 HTML，然后再让另一个 LLM 撰写报告
- **现在**：直接让 LLM 处理原始、较为杂乱的 HTML 内容，因为清理步骤本身也可能引入错误

**识别重构机会：**

如果错误分析显示，虽然各个单独步骤表现良好，但整体串联起来的执行效果仍低于人类水平，这往往意味着这些步骤的衔接方式过于僵化。

**最佳实践总结：**

1. **系统性检查**：系统性地检查追踪数据，了解智能体何时、为何未达到人类水平
2. **低门槛启动**：从少量样本开始，逐步完善
3. **定量分析**：明确统计每个步骤的问题比例
4. **灵活调整**：随着模型能力提升，重新设计工作流
5. **移除约束**：移除那些曾经为防止系统"脱轨"而设置的硬约束或固定步骤

随着 LLM 智能水平的提升，许多团队都在重新设计工作流，这是一个持续优化的过程。

继续构建吧！

——Andrew