加州大学教授开设《大语言模型的强化学习》免费课程:深入理解 ChatGPT 背后的训练机制 Ernest K. Ryu 2025-10-31 0 浏览 0 点赞 长文 想深入了解 ChatGPT、Claude 这些 AI 背后的训练机制,尤其是它们背后那套如何通过人类反馈变得越来越智能的原理。可以看下,来自加州大学数学系教授 Ernest K. Ryu 开设的《大语言模型的强化学习》课程,配套 PPT 和视频可以免费学习。 课程从深度强化学习基础讲起,逐步深入到 Transformer 架构和现代 LLM 技术,最后聚焦于 RLHF(人类反馈强化学习)等前沿训练方法,系统讲解了如何让 AI 模型变得更智能、更符合人类偏好。 主要内容: - 深度强化学习基础:MDP 理论、策略梯度方法(A3C、PPO)等核心算法 - 大语言模型架构:从 RNN 到 Transformer,涵盖 BERT、GPT 等经典模型 - LLM 强化学习训练:详解 RLHF、DPO 等让模型遵循人类指令的技术 - AlphaGo 原理和专家迭代:学习如何提升模型的推理能力 课程要求大家需要具备一定深度学习基础,提供视频教学和 Jupyter 代码示例可直接运行,理论与实践结合。 课程主页 大语言模型的强化学习课程官方页面 #AI #LLM #RLHF #Transformer #公开课 #强化学习 #深度学习