智源发布 Emu3.5:理解因果关系的多模态世界模型 2025-11-01 0 浏览 0 点赞 长文 智源人工智能研究院刚刚放出了最新多模态世界模型:Emu3.5,通过预测下一个 token 的方式来理解和生成文本、图像、视频,图像生成/编辑媲美顶级水平。 关键是它能理解事物发展的顺序和因果关系,预测下一刻会发生什么,这使它从一个简单的内容生成工具,进化成了一个能进行连贯创作、任务规划、物理世界交互的通用智能体。 **核心特性:** - 在 10T 数据上训练,用 DiDA 技术加速,推理速度提升了 20 倍 - 能一键出教程、漫画、超清大片,还能给机器人/AR 生成分步动作 - 能根据中英文描述,生成照片级真实感的图像 - 能理解并执行物理世界任务 **实际应用案例:** 它通过观察人类叠衣服过程,能把这个任务分解成机器人可以理解和执行的一系列具体步骤,来指导机器人完成物理操作。 这标志着多模态模型从内容生成向真正的世界理解和任务执行迈进了一大步。 Emu3.5 GitHub 项目开源地址 #AI模型 #多模态 #智源 #机器人