从零构建个人MoE大模型全流程 ylc3000 2025-11-06 0 浏览 0 点赞 短文 从零构建个人MoE大模型全流程,预训练到DPO一站式实践,细节透明且灵活可控。 • Cortex V2模型体量0.6B,MoE激活参数仅0.2B,兼顾性能与资源效率。 • 预训练采用双阶段:短文本512上下文 + YaRN扩展到2048长文本,突破传统上下文限制。 • 后训练覆盖COT SFT、GSPO、MIX SFT、DPO四阶段,支持思考模式与预算控制,提升逻辑推理与对齐能力。 • 优化器由Adam替换为Lion,显存占用显著降低,训练更高效。 • 全开源代码,模型、训练脚本解耦,支持多种训练方式,方便按需继续训练或微调。 • 自动化数据集管理,文件自动下载与清理,极大简化训练准备与维护。 • 兼容通用LLM及视觉语言模型(VLM),可扩展性强,适合深度研究与定制开发。 • 提供各阶段checkpoint,灵活选择起点,支持多GPU配置与自定义硬件适配。 长期来看,分阶段、模块化训练策略结合动态思考控制,提供了更高效且可控的MoE模型训练范式,适合探索大模型个性化与资源受限场景。 详情🔗 github.com/qibin0506/Cortex 网闻录 从零构建个人MoE大模型全流程