发布于 9小时前

全网热议的GPT image 2平替？不止是信息图，它让连续的图文创作一步到位

作者｜董道力
邮箱｜dongdaoli@pingwest.com

不知道最近你们的朋友圈里，有没有突然出现很多好看的信息图，排版干净，文字清晰，图标对齐，放进 PPT 直接能用。

不是你们的朋友艺术细胞爆炸了，而是 OpenAI 新模型的功劳。有设计师在 X 上问：“我还有存在的必要吗？”，评论区不语一味地发图。

引起如此高的热度，是因为 AI 生图终于过了一道门槛。

过去几年，生图模型最大的硬伤不是画不好，是写不好。图里但凡出现文字，不是缺笔少画就是乱码，信息图这种文字密度高的内容根本没法用。更麻烦的是角色一致性，同一张信息图里反复出现的图标、人物、配色，生成一次一个样，根本无法量产。

这两个问题，随着GPT Images 2.0出生，基本都解决了。文字渲染准了，风格能保持住，复杂排版也能跟着指令走。

但它的API 按量计费，用量一大账单很吓人。国内访问也有门槛，团队要想把它接进工作流，几乎是不可能的。

解决方案有吗？有的。商汤带来了 SenseNova U1 系列。

像是抛下重磅炸弹，U1一发布就全网讨论度飙升，它不但像GPT Image 2.0一样能做信息图，而且还免费、还开源。

SenseNova U1 连图带字的思考

SenseNova U1 系列，是商汤发布的采用全新架构的多模态模型。它不是单纯的图像生成模型，而是把图文理解、图文推理和图文生成放进同一套架构里处理。

这也是它发布时反复强调的关键词：原生统一。

过去很多多模态模型，大致是几块东西拼起来的：语言模型负责理解和推理，视觉编码器负责把图片转成模型能读懂的表示，图像生成部分再把结果转回像素。

这样当然能用，而且现在不少主流产品都是这么做的。但问题也很明显：理解是理解，生成是生成，中间需要不断做模态转换。

U1 的思路更激进一点，基于商汤的 NEO-Unify，去掉传统的视觉编码器 VE 和图像生成里常见的 VAE，让模型直接从原始像素和文字里学习。文字和图像不再被看作两套东西，而是在同一个模型逻辑里被处理。

这次开源的是 SenseNova U1 Lite 系列，包含8B-MoT和A3B-MoT两个版本。

从定位上看，U1 Lite 并不是要和最大规模的闭源模型硬拼参数，而是想做一个“够强、够轻、能开源、能接进工作流”的多模态模型。

跑分上，SenseNova U1 Lite 均达到同量级开源模型 SOTA 水平。

图像理解、图像生成、视觉推理基准测试结果

抛开跑分，它有两个最值得关注的能力。

一个是连续图文创作输出。

这也是最能体现U1这个模型的原生统一架构特征的。不是简单“先写一段话，再配一张图”。传统图文内容生成，很多时候是文本模型先完成文案，再把其中某些段落交给图像模型生成插图。U1 是在一个模型内部完成文字和图像的连续生成，这属于是行业首创。

另一个是高密度信息的处理，常见的就是信息图。

这也是GPT Images 2.0 最为人称赞的。信息图不是简单生一张好看的图，它要求模型同时处理文字结构、视觉层级、版式布局、图标关系和信息密度。以前 AI 画图最容易翻车的地方，恰好就是文字渲染和排版。

一手实测 SenseNova U1

就在刚刚，SenseNova U1 已经上线到办公小浣熊，通过点击首页上的【一图读懂】功能，就可以免费体验SenseNova U1的最新能力。

高密度的信息图

我们也在U1接入办公小浣熊的第一时间，进行了实测。

当你需要生成一张2026 年世界杯的信息图海报，用作公众号文章配图。

Prompt:

生成一张中文信息图海报，主题为：“2026 年世界杯：北美足球盛会”整体风格：深蓝色科技感体育海报，搭配荧光绿、金色和白色高光。画面要有足球、球场灯光、北美地图、城市节点、航线、赛程表和观众灯海。整体清晰、有冲击力，适合公众号文章配图。顶部大标题：“2026 年世界杯：北美足球盛会”副标题：“48 支球队，3 个主办国，16 座城市”画面分成四个主要模块，不要太复杂，信息清楚即可。模块一：三国联合主办位置：左上视觉元素：北美地图，美国、加拿大、墨西哥三个国家用发光线条连接。文字： “2026 年世界杯将由美国、加拿大、墨西哥联合举办，这是世界杯首次由三个国家共同承办。”模块二：48 支球队参赛位置：右上视觉元素：一个足球放在中心，周围环绕 48 个小圆点或球衣图标，表现参赛队伍扩容。文字： “本届世界杯参赛球队扩展到 48 支，更多国家将登上世界足球最高舞台。”模块三：16 座主办城市位置：左下视觉元素：城市天际线、体育场、发光坐标点，表现多城市承办。文字： “比赛将在 16 座主办城市举行，赛事将连接球场、城市、球迷和转播网络。”模块四：冠军之路位置：右下视觉元素：一条发光赛程路径通向金色奖杯轮廓，周围有球员剪影和观众灯光。文字： “更长赛程、更大规模、更复杂的旅行距离，将考验每支球队的阵容深度与稳定性。”底部放一条简单流程线：“三国主办 → 48 队参赛 → 16 城开赛 → 冠军诞生”

整体完成度较高，符合体育海报要求，深蓝科技感、球场灯光、荧光绿线条、金色奖杯等视觉元素风格统一。四宫格结构清晰，有视觉冲击力，符合公众号文章配图要求。

图片生成后，办公小浣熊还能帮你预测一波哪支球队晋级，继续生成信息图。

我们再测试一张风格更精致的信息图，做一个仿美食杂志风格的高端酒吧菜单设计。

Prompt:

生成一张高级感、现代极简的 Espresso Martini 中文信息图。画面中心是一杯装在浅碟香槟杯中的浓缩咖啡马提尼，非俯视图，微倾角度。酒液呈深浓缩咖啡棕色，顶部有厚实细腻的咖啡脂泡沫，表面放置三颗咖啡豆。玻璃杯有细微冷凝水珠和高光反射，质感真实精致。围绕酒杯做干净的信息图排版。左侧是“配料”，右侧是“步骤”，顶部角落放“信息徽章”。整体层级清晰：主饮品 > 步骤 > 配料 > 数据。配料包括：伏特加 40ml咖啡利口酒 20ml新鲜浓缩咖啡 30ml糖浆 10ml冰块适量装饰：3 颗咖啡豆步骤包括：将所有液体与冰块加入摇酒壶充分摇匀至起泡双重过滤倒入浅碟香槟杯用三颗咖啡豆装饰信息徽章包括：酒精度约 18%准备时间 5 分钟风味：浓郁、微甜、咖啡香杯型：浅碟香槟杯风格要求：美食杂志排版 + 高端鸡尾酒酒吧菜单设计，写实酒吧摄影与极简矢量信息图结合。色调以深咖啡棕、奶油米色、温暖中性色为主。柔和影棚灯光，留白充足，现代无衬线字体，毛玻璃面板，柔和阴影，高级、艺术、干净。

这次生成的主杯质感明显更好：泡沫层次、深棕色酒液、玻璃高光都有“高端酒单”的质感，整体色调也对——奶油米色背景配深咖啡棕。围绕酒杯做干净的信息图排版，视觉上更接近美食杂志的风格。

接下来测试一下，如果只给一句话 prompt ，模型是如何自由发挥能力的。

Prompt:

做一张漫画风格的，深圳旅游攻略。

基于大模型自身的能力，哪怕你的提示词简单，依然能生成好用的信息图。

我们还发现，它还可以基于对长文档、数据图表等的数据分析结果，生成高质量的信息图。

Prompt:

分析一日三餐的营养结构。三餐内容：- 早餐：两片全麦吐司 + 一个煮鸡蛋 + 一杯牛奶 + 几颗蓝莓 - 午餐：一碗糙米饭 + 清炒西兰花 + 香煎鸡胸肉 + 一碗紫菜蛋花汤 - 晚餐：一份荞麦面 + 清蒸鱼 + 凉拌菠菜 + 半个牛油果营养数据汇总：- 全天总热量约1800大卡 - 三大营养素比例：碳水50%、蛋白质25%、脂肪25% - 膳食纤维约28g，达到每日推荐量 - 三餐热量分配：早餐30%、午餐40%、晚餐30%。

该图片疑似使用了AI生成技术，请谨慎甄别