发布于 1天前

商汤SenseNova U1深度拆解，原生统一架构终结缝合时代

编辑｜杜伟

当 AI 行业的目光集中在 Agent、工具调用、长程任务这些上层应用之时，底层的多模态架构正在经历一次更安静、也更彻底的范式转变 —— 它要回答的是一个看似朴素的问题：理解与生成，是否天生就该是两件事？

长期以来，多模态系统大都是拼起来的 —— 感知与理解、生成各自承担一部分能力，再把它们串起来跑。问题也很明显：理解通过预训练视觉编码器（VE）实现，生成依赖变分自编码器（VAE），两套系统的学习目标不同、表示空间各异，信息在不同模块之间来回传递，难免出现损耗、走样。这不只是工程上的笨拙，更是一种结构性限制，阻碍了真正原生多模态智能的形成。

最近的一系列工作释放出了全新的信号，不执着「将系统拼的更好」，转而从底层入手，把图像、文本、视频甚至动作放进同一个表示空间去学习和对齐。商汤科技开源的新一代模型「日日新 SenseNova U1」正是这一方向上的集中实践。

上个月，Google DeepMind 用一个通用模型 Vision Banana，证明了「生成即理解」。SenseNova U1 基于行业首创的 NEO-Unify 原生统一架构，让多模态理解、推理与生成在模型内部形成一条完整的链路，而非依靠外部模块拼接。

此次开源的轻量版 SenseNova U1 Lite 系列包含两个不同规格的模型：基于稠密骨干网络的 SenseNova-U1-8B-MoT 和基于 MoE 骨干网络的 SenseNova-U1-A3B-MoT（总参数 38B，理解生成激活参数各 3B）。

模型规格概览

模型在 Hugging Face 与 GitHub 开源后，在海外开发者社区迅速引发讨论。在 X、Reddit 等平台，「完全去掉 VE 和 VAE 的统一架构」被视为近期多模态领域最值得关注的工程实践之一；开发者尤其关注其在 8B 规模下能挑战更大商业闭源模型的图文生成与编辑能力，以及完全开源（含代码、权重、技术报告）的策略选择。

就在日前，商汤科技放出了完整的技术报告：

技术报告：https://arxiv.org/abs/2605.12500
模型下载：https://huggingface.co/collections/sensenova/sensenova-u1
GitHub 代码仓库：https://github.com/OpenSenseNova/SenseNova-U1

回归第一性原理

多模态从拼接走向耦合

语言与视觉并非异质信号，而是对同一现实世界的不同编码 —— 这是 NEO-Unify 的出发点，也是商汤科技在设计 SenseNova U1 时所回归的底层原则。

基于这一原理，NEO-Unify 让模型直接从接近原始形态的信息（像素与文字本身）中学习，在学习过程中形成统一的内部表示。理解与生成不再被拆开处理，而在同一体系中统一建模。

下图为 SenseNova U1 模型及 NEO-Unify 架构概览：

为了实现这一目标，NEO-Unify 需要同时解决以下三组主要矛盾，三者呈递进关系：从输入输出接口层的表示统一，到训练稳定性的保障，再到理解与生成参数层的协同。

矛盾一（接口层）：消除模块割裂，打造近无损视觉接口。

传统模型依赖预训练的视觉编码器（如 CLIP）或解码器（如 VAE），这是语义理解与像素生成之间存在天然表示鸿沟的根源。NEO-Unify 采用了 Encoder-free 设计：输入端放弃预训练 VE，改用两层卷积加 GELU 激活将图像转化为 token（每个 token 对应 32×32 像素块）；输出端同样放弃 VAE 解码器，直接用 MLP 预测原始像素块。

这种反传统设计让模型拥有了在「统一表示空间」自主学习的能力 —— 在提炼高层语义进行理解的同时，精确保留局部纹理和文字边缘以供生成。技术报告中的消融实验证实了这一点：NEO-unify（2B）在 MS COCO 2017 上的图像重建 PSNR 达 31.56、SSIM 达 0.85，接近 Flux VAE 的 32.65 和 0.91，说明近无损输入既能支持语义理解，也能维持像素级精度，无需依赖任何预训练编码器。

矛盾二（训练层）：解决动态分辨率的信噪比失衡，实现生成稳定性。

在多模态理解与生成的统一架构中，模型需要处理从 256×256 到 2048×2048 的大跨度动态分辨率。传统扩散模型或 Flow Matching 往往基于固定噪声先验，当分辨率变化剧烈时，像素点数量级差异会导致模型在不同尺度下信噪比（SNR）不一致 —— 高分辨率下易结构崩坏或过饱和，低分辨率下可能丢失细节。

NEO-Unify 的解法是引入分辨率自适应噪声尺度：分辨率越高，生成的 token 数越多，噪声标准差就按平方根比例同步上调，从而使每个 token 在不同尺度下承受大致相同的噪声能量，保证 Flow Matching 过程中 SNR 分布的一致性。与此同时，这一自适应尺度被编码后作为条件引入去噪器，让模型在面对不同分辨率输入时始终保持一致的推理视角。

两者结合，保证模型在各种分辨率下生成更加稳定，避免尺度切换带来的训练不收敛和输出伪影。

矛盾三（参数层）：以原生 MoT 架构实现「知识共享、专才专用」。

理解任务需要从图像中提取语义，生成任务需要将语义转化为像素 —— 二者目标不同，直接共享所有参数会产生梯度干扰。NEO-Unify 引入原生 Mixture-of-Transformers（MoT）架构：理解流与生成流在底层共享自注意力上下文，但在具体的 Q/K/V/O 投影、归一化及 MLP 层进行完全参数解耦，每层根据 token 类型动态路由。

这实现了「知识共享、专才专用」—— 理解与生成从互不干涉走向协同推进，技术报告的消融实验显示，两种能力在 MoT 骨干中协同演化，本质冲突极小。

此外，为让一维语言序列与二维图像结构在同一个 Transformer 架构下共存，NEO-Unify 引入了三维 RoPE 旋转位置编码（T/H/W 三轴各有独立频率基），从底层对齐语言顺序和空间结构；采用混合注意力（Mask）模式，文本 token 走标准因果注意力，同块图像 token 之间双向关注并保持对前置上下文的因果条件 —— 这在保证语言生成的逻辑连贯性，满足了图像块之间空间一致性的需求。

通过一系列架构上的创新，SenseNova U1 告诉行业：真正的多模态智能不应只是给语言模型安上眼睛，要让模型从诞生的第一天起，就用同一套感官去认知和创造世界。

数据、训推三位一体

打造原生统一引擎

架构上的创新构成了 SenseNova U1 的设计核心，而数据、训练与推理的深度协同支撑起了模型的高效运行。

训练数据：超 3.4 万亿 token 的全感官语料

SenseNova U1 在数据层面堪称「全感官大脑」。其中预训练语料约 2.1 万亿 token—— 在同类开源统一模型中属顶量级 —— 涵盖图文对、图注、信息图理解和纯文本，来源经过跨源去重、内容安全过滤、图像质量过滤和 CLIP 比率平衡重标注等。

中期训练阶段采用内部 SenseNova V6.5 数据集，覆盖通用、Agent 与空间、知识推理和纯文本四大类，并通过三阶段策划管道确保质量：基于 CLIP 的多样性采样→提示增强（从语义表达、格式约束、角色场景、任务复杂度四维扩展）→多标准质量筛选（正确性、幻觉检测、指令执行三维评估）。

SFT 阶段进行了高强度指令微调训练，数据覆盖空间智能、多模态理解、推理等十个垂直领域。在理解预热、生成预训练、中期训练与 SFT 四个训练阶段中，模型累计 token 数超过 3.4 万亿。

在生成和交错数据侧，语料涵盖视频、生活方式、信息图和推理四类，确保用视觉概念覆盖的同时强化了人物身份等一致性。一套「隐式 prompt→ 推理过程 → 显式视觉 prompt」训练流程，将抽象常识和逻辑转化为可验证的画面。丰富数据的引入，让模型在处理相应任务时游刃有余。

训练过程：「先稳态、再耦合、再对齐、后加速」四步走

SenseNova U1 抛弃了传统意义上的多任务混合，采取「渐进式能力演进」策略，通过一套「先稳态、再耦合、再对齐、后加速」的能力栈，解决了大规模原生统一模型在多模态协同中的不稳定性。

第一步，理解预热（Warmup）：基于预训练 NEO 理解模型进行注意力融合与全模型继续训练，将 NEO 中分离的文本和图像 QK 投影整合为统一共享布局，恢复注意力效率，构建 SenseNova U1 的语义骨干。

第二步，生成预训练：冻结理解分支、专攻生成分支，让模型在 256 到 2048 的动态分辨率下掌握稳定的图像生成与编辑能力。

第三步，统一中期训练：两个分支同时激活，在理解、生成及图文交错混合下端到端联合训练 84k 步，实现模态间的深度耦合。

第四步，统一 SFT：在高质量指令执行数据上微调 9k 步，强化指令跟随能力，确保模型精准执行复杂多模态任务。

训练末端引入后期训练（Post-training）：利用 Flow-GRPO 机制，分两阶段进行强化学习。

此外，利用改进的分布匹配蒸馏（DMD2）技术将生成步数从约 100 步蒸馏到 8 步，在保证生成质量的前提下，大幅跨越从实验室模型到工业级落地的鸿沟。

推理系统：解耦部署，FlashAttention3 后端高吞吐

可以将 SenseNova U1 的推理系统想象成一个「复合大脑」，在对外保持统一接口的同时，对内实现了 LightLLM（负责多模态理解、文本流式输出和请求调度）与 LightX2V（负责图像生成）的深度解耦。

这两个引擎通过锁页共享内存和优化输出内核来高效交换状态。解耦设计带来三方面实用优势：第一，允许理解引擎使用面向大模型的张量并行（TP），生成引擎则采用 CFG 并行或序列并行；第二，支持独立资源分配，包括分开的 GPU 组、内存预算和批处理策略；第三，使文本密集型和图像密集型流量能够独立扩展、分析与调优。

在关键优化上，该系统用到了混合注意力机制：纯文本部分走标准的因果 fast path，仅在处理包含图像 token 的块时才动态扩展 key range，按需分配计算量，大幅降低推理冗余开销。加上 FlashAttention3 后端的加速，在统一多模态 Prefill 阶段比传统 Triton 方案快。对于 2048×2048 图像生成，在 5090 和 L40S GPU 上的每步延迟分别是 0.415 秒和 0.443 秒。这意味着，底层算子得到了进一步调优，复杂的推理和生成在实际部署中跑得很顺。

整个看下来，SenseNova U1 在数据、训练与推理的深度协同中完成了一次工业级底层范式的「蜕变」：海量知识经过四阶能力栈精准转化为跨模态理解与生成能力，并依托算子级优化与解耦的推理系统，打造成高效适配各类商用场景的 AI 生产力工具。

全维度试炼场

开源小模型新顶流来了

为验证原生统一架构 NEO-Unify 的成色， SenseNova U1 在覆盖理解、生成、编辑、交错和智能体的任务上进行了全方位测试。结果可归纳为三个层次：核心突破性成绩、能力无损证明，以及交错 / 协同等扩展能力。

在拆解技术细节之前，先看一个能直观感受 SenseNova U1 能力的案例。

模型先理解「双城记」「生活反差」的 PPT 主题，在符合逻辑与一致性基础上，进行文字与对应画面的连续输出。这背后是统一架构带来的「看懂 — 推理 — 生成」的完整链路。同时画面中中文文字密集、版式分区清晰、配图与图标完整。文字不错位、不糊字，这是过去图像生成模型长期跨不过去的痛点。

这恰好对应了接下来的评测数据。

核心突破：理解能力不因统一而退化，反超更大规模模型

在行业传统认知中，将生成能力整合进模型可能会因占用参数容量而导致理解能力下降。SenseNova U1 的实战表现打破了这一担忧。

在 MMMU、MMMU-Pro 和 MathVision 等高难度专业推理基准上，A3B-MoT 成绩分别达到 80.55、72.83 和 79.63，在 MMMU 上超越了 Qwen 3.5-9B 整整 2.15 分，在 MMMU-Pro 上以 2.73 分的优势领先。在空间智能（VSI-Bench：56.9、ViewSpatial：58.52、MindCube-Tiny：70.86）上同样显著领先 Qwen 3-VL-30B-A3B 和 Gemma 4-26B-A4B 等同体量的模型。

得益于像素级建模能力，模型对微小文字和复杂布局有了更强的把握，在文本密集图像和结构化视觉信息任务上也没有因统一架构而出现能力退化：OCRBench 达 91.90 分、OCRBench-v2 达 68.64 分、MMBench-EN 达 91.59 分，均超过多个更大规模的竞品。

统一范式也没有牺牲语言能力。在 MMLU-Pro（84.04）、IFEval（92.39）和 IFBench（79.79）等语言理解与指令执行基准上，A3B-MoT 均处于开源领先水平 —— 尤其是 IFBench 比 Qwen 3.5 - 9B 高出 15.29 分。在 τ²-bench 评测中，总分得分 75.39，证明其具备不错的长程交互与工具调用能力。

能力无损证明：生成任务同样跑出 SOTA 成绩

既然理解能力未受削弱，生成侧的表现更令人期待。结果同样没有令我们失望。

在通用生成基准 GenEval 上，两款模型均以 0.91 的总分领跑开源阵营（Qwen-Image 为 0.87、BAGEL 为 0.82）；在 DPG-Bench 上，A3B-MoT 以 88.14 分进入顶尖开源模型行列，Global 分数更以 94.19 排名所有对比模型第一，体现了在复杂提示下强大的全局语义规划能力。

文字渲染长期是图像生成模型的软肋，多语言混排更是难中之难。SenseNova U1 在这一领域取得了突破性成绩：在 LongText-Bench 中，8B-MoT 英文和中文得分分别达到 0.979 和 0.962；CVTG-2K（多区域复杂文字）最佳平均词汇准确率 0.940，位列开源第一；TIIF-Bench 整体得分 89.74，为所有对比方法最高。在中英文长文本与多区域文字渲染上达到开源 SOTA，努力解决中英文混排、长文本排版等商用痛点。

在知识驱动图像生成基准 WISE（评测文化、时间、空间、生物、物理、化学等领域的世界知识利用能力）上，启用 CoT 后 A3B-MoT 以 0.81 的整体得分达到所有对比方法最佳，与 GPT-Image-1（0.80）持平，远超多数开源模型 —— 原生统一架构不仅支持高质量生成，还能将知识理解转化为更准确的视觉输出。

扩展能力：复杂信息图、交错生成与协同效应一展无余

在衡量图文交错生成的 openING 测试中，A3B-MoT 结合 CoT 以 9.16 的整体得分超越 Nano Banana（8.85）、Wan-Weaver（8.67）和 GPT-4o+DALL-E3（8.20），凭借更强的内容完整性、图像质量、图文连贯性和跨步骤逻辑一致性，在长序列、复杂情境任务中表现突出。

在理解与生成协同的 RealUnify 基准（考察理解增强生成 UEG 和生成增强理解 GEU 两个方向）上，8B-MoT 整体平均得分 52.4，领先所有开源竞品（BAGEL 为 42.9、Ovis-U1 为 35.4），证明 SenseNova U1 能在复杂统一任务中真正整合理解与生成能力，而不是简单将两种能力放在同一主干中。

商业视觉内容基准 BizGenEval 中，SenseNova U1 在布局、属性、文字渲染和知识准确性多个维度均显著领先主流开源模型，原生统一架构在高复杂度专业视觉内容生成上展现出显著潜力。

编辑能力同样突出，模型在 GEdit-Bench（7.47/7.32）与 ImgEdit（3.90/3.91）等主流榜单上表现稳健，全面覆盖了物体添加、局部替换、风格转换、背景变更等常见操作。

值得一提的是推理驱动编辑 —— 模型并不是盲目修图，文字渲染、因果、空间和逻辑等方面均需先理解再修改。RISEBench 测试中，A3B-MoT 在开启 CoT 后以 30.0 的开源最优得分，远超 BAGEL（6.1）和 FLUX.1-Kontext-Dev（5.8），表明 SenseNova U1 的优势不仅在于执行编辑，更在于编辑前所需的理解与推理能力。

一个个基准成绩的突破，是对 SenseNova U1 代表的「原生统一」范式可行性的有力自证。

结语

SenseNova U1 的表现固然亮眼，但比指标更值得关注的，是它所指向的技术路径。

多模态正在从过去依赖模块拼接、逐步对齐的工程思路，转向更一体化的原生建模。能力不靠单纯拼接而来，开始「长在一起」。图像和语言不只是放在同一个系统里使用，更在同一条链路中被协同理解与生成。过去多模态主要解决的是「能不能用」的问题，现在回答的是「能不能更接近人类的使用方式」。

在原生统一架构逐渐成熟的背景下，「以小搏大」将不再是偶发现象，而是模型设计哲学转变带来的必然结果。消融实验已经表明，NEO-Unify 在数据扩展效率上明显优于同类方法 —— 以更少的训练 token 实现更高的性能，这意味着随着数据规模进一步扩大，这一架构的优势还将持续放大。

下一个值得关注的问题，是原生统一范式在视频、音频乃至具身动作等更多模态上的扩展边界 —— 技术报告中已披露了 VLA（视觉 - 语言 - 动作）和世界建模（WM）的初步实验，方向隐约可见。从这个角度来看，以 NEO-unify 为代表的原生统一架构探索，重新定义了多模态模型该如何被构建、以及最终会走向哪里。

AI资讯

浏览 (3)