Memori: 赋予具身AI代理长期、多模态记忆的大脑 ylc3000 2025-11-19 0 浏览 0 点赞 resource ### Memori: 赋予具身AI代理长期、多模态记忆的大脑 `Memori` 是一个由斯坦福大学视觉与学习实验室(Gibson项目的背后团队)开发的开创性研究项目和开源框架。它的核心目标是解决当前具身AI代理(Embodied AI Agents)普遍存在的一个关键缺陷:**失忆症**。`Memori` 为这些能够在3D环境中导航和交互的AI代理,提供了一个**长期、多模态的记忆系统**,使其能够记住过去的经历并利用这些记忆来完成复杂的、跨越长时间范围的任务。 **项目地址**: [github.com/GibsonAI/Memori](https://github.com/GibsonAI/Memori) --- #### **核心痛点:没有记忆的AI寸步难行** 想象一下,你让一个机器人管家帮你做事。你先说:“帮我看看书房里有没有我的眼镜”,机器人进去看了一圈,回报说“没有”。几分钟后,你又问:“你刚才去的那个书房里,沙发是什么颜色的?” 传统的具身AI代理很可能会失败,因为它已经“忘记”了刚才的所见所闻。它的记忆是短暂的、任务导向的,一旦当前任务结束,相关的感知信息就会被丢弃。这种“失忆症”极大地限制了AI代理执行需要长期记忆和上下文理解的复杂指令的能力。 `Memori` 的诞生,正是为了给这些代理安装一个能够持续学习和记忆的“海马体”。 --- #### **解决方案:一个结构化的多模态知识图谱** `Memori` 的核心是一个不断增长的、结构化的**多模态知识图谱(Multi-modal Knowledge Graph)**。这个记忆系统与一个大型语言模型(LLM)大脑紧密结合,工作流程如下: 1. **持续感知与记录**: * 当AI代理在环境中(如 [Gibson Simulator](http://gibsonenv.stanford.edu/))移动和探索时,`Memori` 会持续地记录下它的一切感知。 * 这些感知是**多模态**的,包括: * **视觉信息**:看到的图像帧。 * **空间信息**:自身的位置(姿态)、3D场景的几何结构(点云)。 * **语义信息**:通过物体检测模型识别出的物体(如“椅子”、“桌子”)。 2. **构建知识图谱**: * `Memori` 不会杂乱无章地存储这些数据,而是将它们组织成一个语义化的知识图谱。 * 图中的**节点**代表实体,如房间(“客厅”)、物体(“红色的沙发”)或代理自身的位置。 * 图中的**边**代表它们之间的关系,如“红色的沙发” `位于` “客厅”,代理在某个时间点 `看到了` “红色的沙发”。 3. **自然语言查询接口**: * 这是`Memori`最强大的地方。代理的“大脑”(LLM)可以用**自然语言**来查询这个记忆库。 * 例如,当接到指令“把我上次看到那本书拿过来”时,LLM会向`Memori`发出一个类似“查询我最后一次看到‘书’的位置”的内部请求。 * `Memori` 会在知识图谱中进行搜索,找到相关的节点和空间信息,然后将结果返回给LLM。 4. **记忆辅助决策**: * LLM接收到从`Memori`返回的记忆信息后,就能制定出更智能的行动计划。例如,它现在“记起”了书在卧室的床头柜上,于是就能规划出直接前往卧室的路径。 --- #### **主要功能与亮点** * **真正的长期记忆**:使AI代理能够完成需要跨越数十分钟、数百步甚至多个任务周期的指令。 * **多模态整合**:无缝地融合了视觉、空间和语义信息,构建了对环境的全面理解。 * **语言驱动的交互**:允许LLM以自然、灵活的方式访问和利用记忆,极大地增强了代理的推理和规划能力。 * **与物理世界模拟器集成**:专为在像Gibson这样的高保真3D模拟环境中运行而设计,是进行具身AI研究的理想平台。 #### **目标用户** * **具身AI(Embodied AI)研究人员**:为研究更智能、更有能力的AI代理提供了强大的基础框架。 * **机器人学研究者**:探索如何让机器人在真实或模拟环境中实现长期自主导航和任务执行。 * **计算机视觉和自然语言处理领域的学者**:研究视觉、语言和记忆三者如何交叉融合,以实现更高层次的人工智能。 总而言之,`Memori`项目是具身AI领域的一个重要里程碑。它通过一个创新的多模态记忆系统,向着创造出能够像人类一样记忆、推理和与物理世界交互的通用AI代理迈出了坚实的一步。 网闻录 Memori: 赋予具身AI代理长期、多模态记忆的大脑