吴恩达新课程:《LLM 的微调与强化学习:后训练入门》 Sharon Zhou 2025-10-29 0 浏览 0 点赞 长文 吴恩达 DeepLearning AI 新课程上线:《LLM 的微调与强化学习:后训练入门》,由 AMD 的人工智能副总裁 Sharon Zhou 主讲。 后训练(Post-training)是前沿实验室用于将基础大语言模型(即仅通过预测下一个词/Token,在海量无标签文本上训练出来的模型)转变为可帮助人类、可靠且能遵循指令的智能助手的关键技术。许多应用中,正是后训练让那些"仅有 80% 成功率的演示模型"变成了稳定高效、可投入生产的系统。 这门课程将教你掌握这些最重要的后训练技术! 在这门包含 5 个模块的课程中,Sharon 将带你完整学习后训练管线的全过程:包括监督微调(SFT)、奖励建模(Reward Modeling)、基于人类反馈的强化学习(RLHF),以及 PPO、GRPO 等强化学习算法。你还将学习如何使用 LoRA 进行高效微调,以及如何设计评测体系(evals)来在部署前后发现潜在问题。 你将掌握的技能包括: 1. 使用监督微调与强化学习(RLHF、PPO、GRPO)使模型对齐目标行为 2. 使用 LoRA 实现无需重新训练整个模型的高效微调 3. 准备数据集并生成用于后训练的合成数据 4. 理解如何运营 LLM 的生产管线,包括 go/no-go 决策点与反馈循环 这些先进方法不再仅属于顶级 AI 实验室,现在你也可以在自己的项目中使用它们。 课程链接 LLM 的微调与强化学习:后训练入门 #AI #DeepLearning.AI #GRPO #LoRA #PPO #RLHF #公开课 #吴恩达