强化学习教程:Hands-On Modern RL,现代强化学习实战指南:涵盖经典控制、LLM 后训练、RLVR 与多模态智能体 - 网闻录