中国 AI 巨头商汤科技(SenseTime)正式开源了最新多模态大模型 SenseNova U1。这款模型在单一架构内同时处理图像与文本的理解、推理与生成,信息图表生成速度达到同类商业模型的两倍。
打破「缝合怪」困局
长期以来,多模态 AI 系统普遍存在一个隐患——模块拼接带来的信息损耗。
传统方案通常是:一个模块读图、一个模块编码、一个模块做语言推理、再一个模块生成图像。每一次模块间的"交接",都可能丢失细节,导致最终图文不一致。

SenseNova U1 走了一条更简洁的路线:彻底移除传统视觉编码器(Visual Encoder)和变分自编码器(VAE),将图像与语言统一在同一个表示空间中处理。视觉与语言从一开始就紧密耦合,模型不需要在不同系统间反复"翻译",信息流动更顺畅,生成内容的语义一致性也更好。
架构对比
| 传统多模态架构 | SenseNova U1 | |
|---|---|---|
| 架构方式 | 视觉编码器 + VAE + 语言模型 + 扩散模型,各自独立 | 图像和语言共享表示空间,统一模型处理 |
| 信息传递 | 多模块间反复转换,每次交接都有损耗 | 跨模态直接在共享空间完成,无需反复"翻译" |
| 图文交错 | 多数模型只能一次生成一张图 | 支持逐步生成图文混合内容 |
| 信息图速度 | 基准线(Qwen-Image-2.0 / Seedream-4.5) | 约 2 倍快 |
| 推理延迟(蒸馏后) | 通常数秒到数十秒 | H100 上仅 2 秒(8 NFE 蒸馏) |
这一架构最直接受益的场景,正是那些对排版、文字可读性、视觉结构和语义一致性同时有高要求的输出——信息图表、海报、漫画、教程图文等密集视觉内容。

两款开源模型
U1-8B-MoT
基于稠密骨干网络构建,8B 参数量
U1-A3B-MoT
基于 MoE 架构,总参数 38B,每步仅激活 3B
两款模型在同规模开源模型中均达到领先水平,生成质量逼近部分商业图像模型,推理速度却快得多。
在信息图表生成基准测试中,U1-8B-MoT 的速度约为 Qwen-Image-2.0 和 Seedream-4.5 的两倍,质量保持在同一梯队。
图文交织生成,解锁新场景
SenseNova U1 另一项值得关注的能力是交织式图文生成(Interleaved Generation)——模型可以一步步同时输出文字与图像,构成完整的多模态叙事流,而不是生成单张图像后戛然而止。
烹饪教程、产品说明、视觉故事、教育内容、AI Agent 工作流,这些场景都能从这种能力中直接受益。

工程优化同样给力
除模型本身外,团队还一并开源了多项工程优化成果:
- 8 步蒸馏 LoRA:推理步骤从 100 步压缩至 8 步,H100 单张推理时间从 23 秒降至 2 秒
- ComfyUI 支持:提供文生图、图像编辑、图文交织生成的开箱即用工作流
- SenseNova-Skills:包含信息图生成的提示词模板