DeepLearning.AI 新课程:大语言模型的微调与强化学习后训练入门 Sharon Zhou 2025-10-30 0 浏览 0 点赞 长文 DeepLearning.AI 推出一门全新的免费课程《大语言模型的微调与强化学习:后训练入门》,由 AMD AI 副总裁 Sharon Zhou 主讲,现已开放学习。 后训练是将基础大语言模型(LLM)——即通过海量无标签文本训练预测下一个词的模型——转变为能听指令、表现可靠助手的关键技术。很多应用中,后训练能让原本只有 80% 成功率的演示变成稳定可用的系统。 课程涵盖五大模块,手把手讲解后训练全流程:监督微调、奖励建模、基于人类反馈的强化学习(RLHF),以及 PPO、GRPO 等技术。同时介绍 LoRA 技术,实现高效微调,无需重新训练全模型。还教你如何设计评估机制,在上线前后发现问题。 你将掌握: - 通过监督微调和强化学习(RLHF、PPO、GRPO)调整模型行为 - 使用 LoRA 高效微调,节省计算资源 - 准备和合成训练数据,支持后训练 - 理解生产环境中 LLM 管道的决策节点与反馈循环 这些先进技能不再是顶尖实验室的专利,任何开发者都能用后训练提升模型表现,推动 AI 落地。 后训练是 AI 从理论到实用的关键环节,它让模型不断学习反馈、优化表现,从而更聪明、更听话、更可靠。掌握这门技术,是打造高质量 AI 产品的必经之路。 课程链接 大语言模型的微调与强化学习:后训练入门 #AI #DeepLearning.AI #GRPO #LLM #LoRA #PPO #RLHF #免费课程 #后训练