腾讯混元宣布开源 HY-World 2.0 多模态世界模型_AI资讯

HY-World 2.0 是腾讯混元（Tencent Hunyuan）推出的多模态世界模型框架，主要用于3D世界生成、重建和模拟。它能从文本、单张图像、多视图图像或视频输入中创建可持久、可导航、可交互的3D场景，并直接输出可编辑的生产级3D资产（而非仅生成视频）。

HY-World 2.0 是腾讯混元（Tencent Hunyuan）推出的多模态世界模型框架

核心架构与四阶段流水线

HY-World 2.0 采用模块化四阶段系统流水线，实现从2D输入到完整3D世界的转换：

全景初始化（HY-Pano 2.0）
从文本提示或单张图像生成360°全景视图（panorama）。采用端到端隐式学习方法，无需相机元数据。训练数据混合真实全景照片与UE引擎合成数据，提升泛化能力和生成质量。
轨迹规划（WorldNav）
基于全景进行空间语义理解，智能规划相机探索轨迹。确保覆盖场景关键区域，避免碰撞等无效行为，为后续扩展提供自然导航路径。
世界扩展（HY-WorldStereo / WorldStereo 2.0）
沿规划轨迹扩展场景，使用视频生成技术进行新型视图合成（Novel View Synthesis, NVS）。引入精确相机控制、细节保留机制和空间一致性记忆机制，确保新区域与已有场景在几何和视觉上无缝融合。
世界合成与组合（HY-WorldMirror 2.0 + 3DGS学习）
将所有片段整合成统一3D世界。核心组件是WorldMirror 2.0（约1.2B参数的统一前馈模型），能在单次前向传播中同时预测多种3D属性，包括深度图、表面法线、相机内外参、点云和3DGS属性。最终输出支持3D Gaussian Splatting (3DGS) 和标准网格（Mesh） 表示。

关键技术亮点

统一3D表示：以3DGS为主（支持实时渲染），同时提供可编辑Mesh。输出可直接导入Unity、Unreal Engine、Blender或Isaac Sim，用于二次编辑、物理模拟或具身智能训练。
交互能力：支持“角色冒险模式”（Character Mode），实现物理感知的实时漫游（碰撞检测、物理模拟）。生成的世界是持久的，一次推理后渲染成本极低。
多模态输入灵活性：文本、单图、多图、随意视频；重建时支持注入先验（相机/深度）提升精度。
WorldMirror 2.0 细节：约1.2B参数，前馈统一模型。输入分辨率灵活（50K–500K像素）。提供Diffusers风格Python Pipeline、CLI（支持多GPU）、Gradio Demo。

与1.5版的区别

1.5版（WorldPlay）聚焦实时视频流生成（24 FPS），使用Dual Action Representation、Reconstituted Context Memory等技术解决长时序一致性。但它是像素级、非持久的。2.0版转向真实3D资产生成，解决闪烁和不一致问题，实现引擎就绪的生产级输出。

输出与应用

导出格式：Mesh、3DGS、点云、深度/法线图、相机参数、视频渲染。
适用场景：游戏原型开发、机器人/具身AI模拟、虚拟制作、建筑可视化等。

开源情况

GitHub仓库（Tencent-Hunyuan/HY-World-2.0）已开放，包含WorldMirror-2模型权重和推理代码（部分组件即将跟进）。Hugging Face也有对应模型。技术报告（arXiv预印本）已发布。更多实现细节建议参考官方GitHub README和技术报告。

腾讯混元宣布开源 HY-World 2.0 多模态世界模型

核心架构与四阶段流水线

关键技术亮点

与1.5版的区别

输出与应用

开源情况

相关推荐