DeepSeek与智谱同日出手,将语言压缩成视觉是下一个扩展方向
就在硅谷还在为大模型像不像松鼠争论不休时,来自中国的DeepSeek与智谱,只干不说,几乎同时抛出了自己如何教会大模型,像人类一样“看懂”文本的模型与论文。
“松鼠”是强化学习之父萨顿对大模型是否具备真实的感知与理解能力的隐喻。让大模型“看懂文本”,已经有点类似意味了。人类感知与理解世界,一条重要的路径,就是通过大脑视觉皮层处理通过眼睛传递进来的视觉信号。
无论是DeepSeek还是智谱的方案,核心都在于用少量的视觉token,表达原本需要大量文本token才能覆盖的信息。前者提出了DeepSeek-OCR模型,概念核心是“上下文光学压缩”(Context Optical Compression);后者的Glyph框架,则以“视觉–文本压缩”(Visual–Text Compression)为中心思想。
两者都在重新审视“视觉模型”在自然语言压缩与解压映射中的角色,让传统的OCR(光学字符识别)不再只是识别文字的工具,而成为连接大型语言模型(LLM)与视觉语言模型(VLM)之间的关键中间模态。
这显著提高了信息密度与计算效率。如果能顺利将压缩成图像的文本信息重新解码出来,就能大幅降低内存与算力成本。参数规模仅为3B的DeepSeek-OCR,在文本token数量不超过视觉token数量的10倍(即压缩比<10)时,仍可实现不低于97%的解码精度;智谱的Glyph框架则实现了3至4倍的上下文压缩,同时保持与同规模领先语言模型(如Qwen3-8B)相当的性能。
具体而言,DeepSeek-OCR是一个全新的端到端统一架构,由两个核心组件构成:负责将图像转换为高度压缩视觉 token的编码器DeepEncoder,以及从这些视觉token中重建文字的解码器DeepSeek-3B-MoE-A570M。其设计目标是在保持高分辨率输入的同时,生成尽可能少的视觉token,将激活内存消耗控制在较低水平。相比之下,现有的三类主流视觉语言模型(各自以Vary、InternVL2.0与Qwen2-VL为代表)都无法一一满足上述要求。

模型首先利用仅包含“窗口注意力”机制的SAM-base(约8000万参数),在高分辨率图像上执行细粒度的局部特征提取,生成约4096个token;随后通过一个16倍卷积压缩器,将这些局部特征进一步降维至256个token;最后引入具备“全局注意力”机制的CLIP-large(约3亿参数),在低分辨率语义空间中整合全局信息。整个编码过程完成后,解码器DeepSeek-3B-MoE负责顺序重建上下文,精确复述。
值得注意的是,同一个模型可以根据任务需求灵活调整其“压缩强度”。为此,DeepSeek人为设定了四种原生分辨率(Native Resolutions),用于平衡精度与计算效率。最低精度的Tiny模式使用约64个token来表示一张512×512的图像;最高精度的Large模式则需要约400个token来表示1280×1280的图像。此外,团队还设计了一种 “高达模式”(Gundam Mode),由两种原生分辨率组合而成,用于特定的超高分辨率应用场景。
智谱的Glyph框架也是类似的思路,但在策略上有所不同。它的整个训练流程分为三个紧密耦合的阶段:持续预训练、渲染搜索与后期的监督微调和强化学习。所谓大型语言模型驱动的渲染搜索机制(LLM-driven Rendering Search),就是不再依赖人工设计,而是利用遗传算法(Genetic Algorithm),让系统在不断的进化迭代中,自动发现最优渲染配置,实现压缩率与视觉清晰度之间的动态平衡。

在硅谷大神卡帕西(Andrej Karpathy)看来,也许DeepSeek-OCR算不上最好的OCR工具,但这并不重要。他提到了dots,也许指的是同为中国团队小红书发布的开源工具dots.ocr,它的文档解析准确率接近100%。对于DeepSeek-OCR来说,重要的是,它是否揭示了大模型研发的新路径:像素是否比文本更适合大型语言模型的输入。
这种方式对信息的压缩更高效,信息流也更为通用,可以包括不同的空间语义与异构符号体系,比如粗体文本与彩色文本,以及化学符号等等。卡帕西还认为,它能够轻松使用双向注意力机制,并最终让模型摆脱那套“糟糕的、割裂的”分词体系。传统的自回归语言建模是单向的,而分词器(tokenizer)则阻碍了模型走向端到端的统一表示。
也许文本并非信息的最佳载体,像素才是更高效、更统一的输入形式。自称“骨子里的计算机视觉研究者”的卡帕西,甚至更激进地认为,所有向大型语言模型的输入,都应该先被渲染成图像。同样来自视觉领域、提出了扩散Transformer(DiT)的谢赛宁,也给予了DeepSeek高度评价。
让大模型像生物一样“看懂”文本,不是DeepSeek与智谱的突发奇想。几年前,学界就提出过“基于像素的语言建模”(Language Modelling with Pixels)的设想。
但是,中国的开源模型团队率先将它工程化与实用化。也许,这样的团队不只是DeepSeek或智谱。DeepSeek-OCR核心作者Haoran Wei,此前在以多模态模型见长的阶跃星辰,就已经和他的同事们,尝试过对“通用OCR理论”(General OCR Theory)的初步探索。
全球都缺算力,中国尤其如此。同时,随着多智能体协同的逐步到来,上下文将越来越长,如何合理与高效的记忆与遗忘,是大模型研究的前沿课题。以往,中国团队的努力主要集中在对传统注意力机制的优化,试图引入稀疏或线性注意力,降低计算复杂度。这一次,它们终于越过了文本token的表示瓶颈。
DeepSeek还有更大的野心。它的DeepSeek-OCR不仅关乎“看懂”,还关乎“记忆”与“遗忘”。
当我们回忆一本读过的书时,往往会依靠视觉印象来定位记忆:时间越近的内容,在脑海中的“分辨率”越高;而那些久远的记忆,则会被逐渐“压缩”为关键信息,成为再次检索时的视觉锚点。DeepSeek-OCR的不同分辨率的设计,正好契合了这一思路。也许,它可以通过逐级压缩信息,直至边际遗忘,或内化为更深层的表征。

“记忆”与“遗忘”,意味着更高效的计算、通信与储存,对于智能体完成多轮对话的长程任务,甚至未来大模型自进化,都至关重要。如果说,现在的大模型更像卡帕西所说的“幽灵”而不是“松鼠”,也正是缺少感知与理解、记忆与遗忘的关键循环。
在论文的最后,DeepSeek团队致辞说,这一思路“为构建一种理论上无限上下文长度的模型架构(unlimited context architectures)提供了新的可能”,是一个很有前景的新方向;智谱团队致辞说,这是一种很有前景的“扩展长上下文大模型(scaling long-context LLMs)”的新范式,在深度方面仍有很大的探索空间。