HunyuanWorld-Voyager:从单图生成三维一致点云视频的视频扩散框架 2025-10-31 0 浏览 0 点赞 长文 HunyuanWorld-Voyager 推出全新视频扩散框架,实现从单张图片生成三维一致的点云视频序列,支持用户自定义相机路径,突破视角遮挡与探索范围限制,提升场景漫游生成上限。 核心特性 世界一致视频扩散 联合生成对齐的 RGB 与深度视频,保证全局场景连贯性。 长距离场景探索 高效世界缓存、点云裁剪及自回归推理,支持迭代式场景扩展与上下文感知一致性。 海量训练数据 自动化视频重建流水线,结合真实与虚幻引擎渲染,超 10 万视频剪辑,无需人工 3D 标注。 领先性能表现 WorldScore 77.62 分,摄像机控制和物体控制均居前列,视觉风格与主观质量优异。 技术规格 硬件要求 - 540p 分辨率需 60GB 显存 - 建议 80GB 显存 GPU - 支持 Linux 系统 灵活推理方式 - 支持单 GPU 和多 GPU 并行推理 - xDiT 加速多卡低延迟 - 视频生成效率显著提升 应用场景 丰富的应用维度: - 视频重建 - 图像到 3D 生成 - 视频深度估计 - 多维度内容创造 开源生态 开源即用: - 提供完整代码 - 模型权重 - 示例及数据引擎 - 方便定制和扩展 总结 HunyuanWorld-Voyager 不仅优化了 3D 场景生成的稳定性和连贯性,更将长距离动态探索推向新高度,适合科研与工业级 AIGC 应用。 详见:github.com/Tencent-Hunyuan/HunyuanWorld-Voyager GitHub 项目地址 HunyuanWorld-Voyager 完整代码和模型 #3D生成 #AIGC #HunyuanWorld #深度估计 #点云 #腾讯 #视频扩散 #计算机视觉