商汤开源 SenseNova U1，生成信息图比 Seedream 快两倍_AI资讯

中国 AI 巨头商汤科技（SenseTime）正式开源了最新多模态大模型 SenseNova U1。这款模型在单一架构内同时处理图像与文本的理解、推理与生成，信息图表生成速度达到同类商业模型的两倍。

打破「缝合怪」困局

长期以来，多模态 AI 系统普遍存在一个隐患——模块拼接带来的信息损耗。

传统方案通常是：一个模块读图、一个模块编码、一个模块做语言推理、再一个模块生成图像。每一次模块间的"交接"，都可能丢失细节，导致最终图文不一致。

商汤开源 SenseNova U1，生成信息图比 Seedream 快两倍

SenseNova U1 走了一条更简洁的路线：彻底移除传统视觉编码器（Visual Encoder）和变分自编码器（VAE），将图像与语言统一在同一个表示空间中处理。视觉与语言从一开始就紧密耦合，模型不需要在不同系统间反复"翻译"，信息流动更顺畅，生成内容的语义一致性也更好。

这一架构最直接受益的场景，正是那些对排版、文字可读性、视觉结构和语义一致性同时有高要求的输出——信息图表、海报、漫画、教程图文等密集视觉内容。

商汤开源 SenseNova U1，生成信息图比 Seedream 快两倍

基于稠密骨干网络构建，8B 参数量

基于 MoE 架构，总参数 38B，每步仅激活 3B

两款模型在同规模开源模型中均达到领先水平，生成质量逼近部分商业图像模型，推理速度却快得多。

值得关注：U1-A3B-MoT 每步只激活 3B 参数，推理开销接近小模型，但生成质量逼近商业级大模型。这种"用小算力跑出大效果"的路线，对预算有限的团队很有吸引力。

在信息图表生成基准测试中，U1-8B-MoT 的速度约为 Qwen-Image-2.0 和 Seedream-4.5 的两倍，质量保持在同一梯队。

SenseNova U1 另一项值得关注的能力是交织式图文生成（Interleaved Generation）——模型可以一步步同时输出文字与图像，构成完整的多模态叙事流，而不是生成单张图像后戛然而止。

烹饪教程、产品说明、视觉故事、教育内容、AI Agent 工作流，这些场景都能从这种能力中直接受益。

商汤开源 SenseNova U1，生成信息图比 Seedream 快两倍

除模型本身外，团队还一并开源了多项工程优化成果：