MLX-GRPO:在 Mac 上轻松使用 GRPO 微调大模型 Doriandarko 2025-10-29 0 浏览 0 点赞 长文 在 Mac 上使用 GRPO 微调大模型这么快就来了!Doriandarko 大佬直接开源了 MLX-GRPO,实现了多种奖励函数(正确性、格式检查、XML 计数等)优化思维链响应。在 Mac 上就能轻松微调大模型。 项目基于 Apple 的 MLX 框架,依赖很少,只需要 mlx 几个库就能运行。特别适合使用 Mac(特别是 Apple Silicon)的开发者进行本地模型微调实验。 项目提供了详细的 QUICK_START 文档,方便无脑复制开炼,大大降低了上手门槛。支持多种奖励函数,可以针对不同任务优化模型的思维链推理能力。 适合 Mac 用户、AI 研究者和想要在本地进行模型微调的开发者使用。 GitHub 项目地址 MLX-GRPO 开源项目 #AI #Apple Silicon #GRPO #Mac开发 #MLX #强化学习 #思维链