《Mathematical Theory of Deep Learning》,一本面向深度学习理论的数学教材
它用比较严格但尽量可读的方式解释深度学习为什么可能有效,主要内容是神经网络能不能表达目标函数、训练算法为什么能找到有用解、训练集上表现好为什么可能推广到新数据;全书围绕 approximation theory、optimization theory、statistical learning theory 展开,最后也讲 ResNet、CNN、Transformer 等现代架构。
arxiv.org/pdf/2407.18384