返回
分享
资源
网闻录
11小时前
17 阅读
资源
网闻录
11小时前
17 阅读
来源: user
访问网站
https://aweers.de/blog/2026/rl-for-llms/
0
0
17
强化学习的进化:从PPO到MaxRL,LLM推理训练的算法演进史 - 网闻录