普林斯顿 Arora 教授《深度学习理论》权威讲义 Sanjeev Arora 2025-11-02 0 浏览 0 点赞 长文 《THEORY OF DEEP LEARNING》深度学习理论权威综述:普林斯顿 Arora 教授系列讲义 本讲义系统阐述了深度学习的数学基础、优化理论、泛化能力、非凸优化地形、隐式正则化、神经切线核(NTK)、生成模型、语言模型与对抗样本等核心主题。以下为部分关键内容梳理与洞见分享。 1. 优化基础与非凸优化地形 - 梯度下降(GD)与随机梯度下降(SGD)是深度学习的核心训练算法。在光滑损失下,GD保证收敛至梯度为零的驻点,但非凸性使得全局极小点无法保证。 - 现代神经网络训练常在所谓"稳定边缘(Edge of Stability)"区域迭代,即Hessian最大特征值接近2/η(η为学习率),表现出非单调但长期下降的损失曲线,挑战经典优化理论。 - 通过扰动梯度下降(Perturbed GD)等技术可有效逃离鞍点,理论与实践均支持其在高维空间中高效寻找二阶驻点。 2. 泛化理论与隐式正则化 - 传统泛化理论基于复杂度度量(如Rademacher复杂度、PAC-Bayes界),但对深度网络的过参数化现象解释不足。 - 近年来提出压缩框架说明深度网络通过训练过程隐式压缩,找到低复杂度解,从而实现良好泛化。 - 隐式正则化不仅来源于显式范数约束,更源自优化算法本身(如GD偏好最小范数解),网络参数化方式与优化几何显著影响最终模型。 3. 神经切线核(NTK)与超宽网络 - 当网络宽度趋近无穷时,训练动态可用NTK描述,变为核回归问题,理论上保证收敛与泛化。 - NTK揭示了深度网络优化与泛化的精细特性,如标签与核特征的投影决定训练速度。 - 实验显示NTK在小规模数据集表现优于传统核方法,但与有限宽度网络性能仍有差距。 4. 生成模型与对抗网络(GANs) - GAN通过训练生成器与判别器对抗,推动生成模型逼近真实数据分布。然而模型容量限制与训练动态导致"模式坍缩"问题,即生成样本多样性不足。 - 理论指出低容量判别器无法防止模式坍缩,实际中通过生日悖论测试检测模型生成样本多样性。 - 训练动态非均衡性可能是避免模式坍缩与提升生成质量的关键。 5. 语言模型与技能出现现象 - 语言模型(LM)基于条件概率分解进行训练,经过大规模预训练后出现"技能"——对特定语言任务的掌握,且随着模型规模和数据量增长,技能呈现"渐进式"或"突现"。 - 构建了基于"技能图"的数学框架,将语言理解任务分解为技能集合的组合,定量分析技能掌握度与模型规模关系。 - 交叉熵损失分解为语言本质熵与"过剩熵",模型规模增加主要减少过剩熵,提升理解能力。 6. 归因解释与模型可信度 - 影响函数(Influence Functions)与Shapley值提供对训练数据或输入特征对预测结果贡献的定量解释,支持模型透明化。 - 数据模型(Data Models)通过线性回归近似训练集子集对预测影响,揭示训练数据影响力分布。 - 通过近似与采样算法实现Shapley值高效估计,支撑实际可用的解释工具。 7. 对抗样本与鲁棒性 - 神经网络易受微小扰动影响,产生对抗样本,严重威胁模型安全性。 - 对抗训练(Adversarial Training)通过在训练中加入对抗样本提升鲁棒性,但存在效用与鲁棒性的权衡。 - 随机平滑(Randomized Smoothing)等方法提供可证明的鲁棒性保障,成为理论与实践的主流防御手段。 8. 归纳偏置与训练算法的隐式正则化 - 训练算法(如SGD、带动量的优化、归一化技术)通过影响参数轨迹及梯度估计,引导模型收敛至特定低复杂度解。 - 参数归一化(如BatchNorm、LayerNorm)引入尺度不变性,改变优化几何,支持更快收敛与更好的泛化。 - 动态学习率调整(包括指数增长学习率)在归一化网络中表现出理论与实证上的优越性。 9. SGD的随机微分方程(SDE)近似 - SGD的梯度噪声可用SDE模型近似,揭示了学习率与批大小等超参的调节原则(如线性缩放规则)。 - 该理论帮助理解训练动态、逃离鞍点机制及归一化网络的训练行为差异。 本讲义内容严谨而系统,涵盖了深度学习理论的广泛主题,既有经典理论,也包含近年突破,适合对深度学习理论感兴趣的研究者深入钻研。 PDF 讲义 深度学习理论完整讲义 PDF #优化理论 #教程 #普林斯顿 #深度学习 #理论 #神经网络