HY-World 2.0 是腾讯混元(Tencent Hunyuan)推出的多模态世界模型框架,主要用于3D世界生成、重建和模拟。它能从文本、单张图像、多视图图像或视频输入中创建可持久、可导航、可交互的3D场景,并直接输出可编辑的生产级3D资产(而非仅生成视频)。

核心架构与四阶段流水线
HY-World 2.0 采用模块化四阶段系统流水线,实现从2D输入到完整3D世界的转换:
- 全景初始化(HY-Pano 2.0)
从文本提示或单张图像生成360°全景视图(panorama)。采用端到端隐式学习方法,无需相机元数据。训练数据混合真实全景照片与UE引擎合成数据,提升泛化能力和生成质量。 - 轨迹规划(WorldNav)
基于全景进行空间语义理解,智能规划相机探索轨迹。确保覆盖场景关键区域,避免碰撞等无效行为,为后续扩展提供自然导航路径。 - 世界扩展(HY-WorldStereo / WorldStereo 2.0)
沿规划轨迹扩展场景,使用视频生成技术进行新型视图合成(Novel View Synthesis, NVS)。引入精确相机控制、细节保留机制和空间一致性记忆机制,确保新区域与已有场景在几何和视觉上无缝融合。 - 世界合成与组合(HY-WorldMirror 2.0 + 3DGS学习)
将所有片段整合成统一3D世界。核心组件是WorldMirror 2.0(约1.2B参数的统一前馈模型),能在单次前向传播中同时预测多种3D属性,包括深度图、表面法线、相机内外参、点云和3DGS属性。最终输出支持3D Gaussian Splatting (3DGS) 和标准网格(Mesh) 表示。
关键技术亮点
- 统一3D表示:以3DGS为主(支持实时渲染),同时提供可编辑Mesh。输出可直接导入Unity、Unreal Engine、Blender或Isaac Sim,用于二次编辑、物理模拟或具身智能训练。
- 交互能力:支持“角色冒险模式”(Character Mode),实现物理感知的实时漫游(碰撞检测、物理模拟)。生成的世界是持久的,一次推理后渲染成本极低。
- 多模态输入灵活性:文本、单图、多图、随意视频;重建时支持注入先验(相机/深度)提升精度。
- WorldMirror 2.0 细节:约1.2B参数,前馈统一模型。输入分辨率灵活(50K–500K像素)。提供Diffusers风格Python Pipeline、CLI(支持多GPU)、Gradio Demo。
与1.5版的区别
1.5版(WorldPlay)聚焦实时视频流生成(24 FPS),使用Dual Action Representation、Reconstituted Context Memory等技术解决长时序一致性。但它是像素级、非持久的。2.0版转向真实3D资产生成,解决闪烁和不一致问题,实现引擎就绪的生产级输出。
输出与应用
- 导出格式:Mesh、3DGS、点云、深度/法线图、相机参数、视频渲染。
- 适用场景:游戏原型开发、机器人/具身AI模拟、虚拟制作、建筑可视化等。
开源情况
GitHub仓库(Tencent-Hunyuan/HY-World-2.0)已开放,包含WorldMirror-2模型权重和推理代码(部分组件即将跟进)。Hugging Face也有对应模型。技术报告(arXiv预印本)已发布。更多实现细节建议参考官方GitHub README和技术报告。