ML/AI 面试的真相：刷题之外，你还需要什么？

## 面试准备的困境

对于准备进入 ML/AI 领域的求职者来说，面试准备往往是一个令人焦虑的过程。你需要掌握多少算法？PyTorch 要学到什么程度？LeetCode 要刷多少题？RAG 和 Agent 的实现细节要了解到什么深度？

最近，一位从业者在 Twitter 上分享了他对 ML/AI 面试准备的系统性总结，引发了广泛讨论。这份总结不仅列出了面试的考核重点，也揭示了当前 AI 行业招聘的一些深层趋势和争议。

## 五大考核维度

根据这位从业者的经验，ML/AI 面试主要考察五个维度，每个维度都有其独特的重要性和准备策略。

### 1. 核心机器学习知识：基础的重要性

**考核重点**

面试官期望你熟悉经典机器学习算法，并能解释其内部原理：

- **随机森林**：集成学习的代表，如何通过 bagging 和特征随机性提升泛化能力
- **KNN**：最简单的非参数方法，距离度量和 k 值选择的影响
- **SVM**：核技巧和间隔最大化的数学原理
- **逻辑回归**：线性分类器的概率解释，与神经网络的关系

**争议与现实**

有人指出这份清单缺少梯度提升树（XGBoost、LightGBM、CatBoost）等在工业界广泛应用的算法。这反映了一个有趣的现象：面试考核的"经典算法"与实际工作中的"常用工具"之间存在差异。

但扎实的基础始终是考核关键。理解随机森林的原理，能帮助你更好地理解梯度提升树；掌握逻辑回归，是理解神经网络的前提。面试官通过这些经典算法，考察的是你的数学基础和算法思维，而不仅仅是工具使用能力。

**准备策略**

不要满足于"知道怎么调用 sklearn"，而要能够：
- 手推算法的数学推导（至少核心部分）
- 解释算法的假设、优缺点和适用场景
- 对比不同算法的特点和选择依据
- 理解超参数对模型行为的影响

### 2. 深度学习框架：PyTorch 的统治地位

**现状**

实战编码主要用 PyTorch，TensorFlow 在面试中已经极少出现。这反映了学术界和工业界的技术栈转变——PyTorch 的动态图、Pythonic 的 API 设计和强大的社区支持，使其成为事实上的标准。

**考核内容**

面试不会要求你用原生 Python 从头实现反向传播（虽然理解反向传播的原理很重要），但你需要能够：

- 用 PyTorch 搭建自定义模型架构
- 实现自定义层和损失函数
- 编写训练循环，包括前向传播、损失计算、反向传播、参数更新
- 处理数据加载、批处理、GPU 加速等工程细节
- 理解 autograd 机制和计算图

**实践建议**

不要只是跟着教程敲代码，而要：
- 从零实现一个完整的训练流程（不使用高层 API）
- 尝试复现经典论文的模型
- 理解 PyTorch 的内存管理和性能优化
- 熟悉常见的调试技巧和错误处理

### 3. 编程能力：被低估的硬实力

**考核强度**

绝大多数公司都会考察数据结构和算法，类似 LeetCode 或 NeetCode 150 的题目。建议至少完成 120 至 150 道题目，包括一些偏难的挑战。

**为什么 ML 工程师也要刷题？**

这是一个常见的困惑：我是来做机器学习的，为什么要考算法题？

原因有几个：

**工程能力的基础**：ML 系统不仅是模型，还包括数据处理、特征工程、模型服务等大量工程工作。这些都需要扎实的编程能力。

**问题解决能力**：算法题考察的是抽象思维、问题分解和优化能力，这些能力在 ML 工作中同样重要。

**行业标准**：无论是否合理，这已经成为科技公司的标准流程。抱怨不如适应。

**ML 工程岗位的特殊性**

对于机器学习工程（MLE）岗位，编程题和系统设计能力缺一不可。你可能需要：
- 设计大规模特征处理管道
- 优化模型推理的延迟和吞吐量
- 构建分布式训练系统
- 处理数据倾斜和长尾问题

这些都需要深厚的工程功底。

### 4. RAG 和 Agent：新兴领域的实战要求

**理论与实践并重**

针对 RAG（检索增强生成）或 Agent 类岗位，考查不仅在理论架构，还要求能动手实现。

**典型问题**

你可能会被问到：

**RAG 系统设计**：
- 如何选择合适的嵌入模型？
- 向量数据库的选型和优化策略
- 如何处理长文档的分块和重叠？
- 如何平衡检索精度和召回率？

**成本优化**：
- 如何降低 token 使用成本？
- 缓存策略的设计
- 何时使用小模型，何时使用大模型？

**算法细节**：
- 解释 MMR（最大边际相关性）算法
- 重排序（Reranking）的实现和效果
- 混合检索（稠密 + 稀疏）的优势

**知识图谱**：
- 如何构建领域知识图谱？
- 图嵌入与文本嵌入的结合
- 图神经网络在 RAG 中的应用

**Agent 架构**：
- 工具调用的实现机制
- 多步推理的规划和执行
- 错误处理和重试策略

**准备建议**

不要只停留在概念层面，而要：
- 实现一个完整的 RAG 系统（从数据处理到查询响应）
- 对比不同检索策略的效果
- 测量和优化系统的各项指标
- 理解开源框架（LangChain、LlamaIndex）的实现原理

### 5. 项目经验：比简历更有说服力

**质量胜过数量**

拥有 5 个高质量的项目，比 20 个教程级别的练习更有价值。这些项目应该展示你的全流程机器学习能力。

**什么是高质量项目？**

**完整性**：从问题定义、数据收集、模型训练到部署上线的完整流程。

**独特性**：不是简单复现教程，而是有自己的思考和创新。比如：
- 独特的 RAG 系统设计（针对特定领域优化）
- 完整的 ML 管道（包括数据版本控制、实验跟踪、模型监控）
- 创新的模型架构或训练方法

**可展示性**：部署在易于面试官浏览的作品集网站上，包括：
- 清晰的项目说明和技术文档
- 可交互的 Demo
- 代码仓库（干净、有注释、有 README）
- 性能指标和实验结果

**深度**：不仅展示"做了什么"，还要说明"为什么这样做"和"遇到了什么挑战"。

**项目选题建议**

**领域应用**：选择一个具体领域（医疗、金融、教育），构建端到端的解决方案。

**系统优化**：对现有系统进行深度优化，展示你的工程能力（如模型压缩、推理加速）。

**前沿探索**：复现最新论文，并在此基础上进行改进或扩展。

**开源贡献**：为知名开源项目贡献代码，展示你的协作能力和代码质量。

## 争议：机械考核 vs 实际能力

这种考核方式引起了一些质疑。批评者认为：

**脱离实际**：刷 LeetCode 和实际工作中的问题解决能力关系不大。

**忽视创造力**：过于强调标准答案，忽略了 ML 工作中的探索性和创造性。

**门槛过高**：要求候选人在多个维度都达到高水平，可能错过有潜力但某方面较弱的人才。

**时间成本**：准备这样的面试需要数月甚至更长时间，对在职人员不友好。

**支持者的观点**

但也有人为这种考核方式辩护：

**能力验证**：在短时间内评估候选人的综合能力，这些考核方式虽不完美但相对客观。

**基础重要**：扎实的基础是长期发展的保障，面试是督促学习的动力。

**行业标准**：这已经是行业共识，个人很难改变，不如适应。

**筛选效率**：对于热门岗位，需要高效的筛选机制。

## 准备策略：系统化方法

基于以上分析，这里提供一个系统化的准备策略：

**第一阶段：基础夯实（2-3 个月）**

- 系统学习经典 ML 算法，手推数学推导
- 完成 PyTorch 官方教程，实现基础模型
- 刷 LeetCode Easy 和 Medium 题目（80-100 道）

**第二阶段：深度提升（2-3 个月）**

- 复现经典论文（ResNet、Transformer、BERT 等）
- 完成 LeetCode Medium 和部分 Hard 题目（总计 120-150 道）
- 学习系统设计基础（分布式系统、数据库、缓存）

**第三阶段：项目实战（2-3 个月）**

- 完成 2-3 个高质量项目
- 学习 RAG/Agent 的实现（如果目标岗位相关）
- 搭建个人作品集网站

**第四阶段：模拟面试（1 个月）**

- 参加 Mock Interview
- 总结常见问题和答案
- 优化简历和项目展示

**持续学习**

- 关注最新论文和技术趋势
- 参与开源社区
- 写技术博客，整理学习笔记

## 现实与理想的平衡

ML/AI 面试的现状可能不完美，但它反映了行业的现实需求：

**技术的广度**：现代 ML 工程师需要掌握从算法到工程的全栈能力。

**快速学习能力**：技术更新快，基础扎实的人更容易适应变化。

**问题解决能力**：无论是算法题还是系统设计，本质上都在考察解决复杂问题的能力。

对于求职者来说，与其抱怨考核方式不合理，不如把它当作提升自己的机会。这些准备过程中学到的知识和技能，即使不是为了面试，对职业发展也是有价值的。

## 结语

ML/AI 面试的准备是一个系统工程，需要在多个维度上下功夫：经典算法的理论基础、深度学习框架的实战能力、编程和系统设计的工程素养、前沿技术的实践经验，以及高质量项目的积累。

这个过程可能漫长而艰辛，但它也是一个全面提升自己的过程。当你完成这些准备，你会发现自己不仅能够通过面试，更重要的是，你已经具备了在 ML/AI 领域长期发展的坚实基础。

扎实的基础和真实的项目经历，始终是面试中的硬实力。无论考核方式如何变化，这两点永远不会过时。

毕竟，面试只是职业生涯的起点。真正的挑战和成长，在工作中才刚刚开始。