大模型的第一性原理:(三)信息论篇

作者 | 白铂 博士
白铂 博士 华为 2012 实验室理论研究部主任 信息论首席科学家
引言
在本系列的第二篇《信号处理篇》中,我们引入了一些信息论的概念和方法来理解语义嵌入/向量化。本篇将完全从信息论的角度出发,深入解读原论文,探讨大模型背后的第一性原理¹。
1948 年,Shannon 发表了题为 A Mathematical Theory of Communication 的划时代论文,奠定了现代数字通信的理论基础,推动了人类迈向信息时代²。论文的主要目标是用数学方法解决有噪声的数字通信系统的可靠传输问题。以此为起点,Shannon 及后来的专家学者建立了一套完备的数学框架与理论体系,这便是后来众所周知的信息论。1949 年,Weaver 与 Shannon 合著了一篇论文,文中明确将通信问题分为三个层级³:
Level-A(技术问题): 通信符号能在多大程度上被准确地传输?
Level-B(语义问题): 传输的符号能在多大程度上精确传达了预期的含义?
Level-C(效用问题): 接收到的含义能在多大程度上有效地影响行为,使其符合预期? Shannon 曾表示,他的理论仅仅解决了可靠通信问题,即 Level-A(技术问题)。这是因为在 Shannon 的理论中,信息和不确定性是等价的,并不关注消息的含义或内容。
受到 Shannon 方法论的启发,本文尝试从推理的视角出发探讨大模型的可解释理论。我们发现,只要将 Shannon 的理论从以 BIT 为中心转换为以 TOKEN 为中心,便可以从信息论的视角完全解释大模型的底层原理,该理论在原论文中被称为语义信息论(Semantic Information Theory)。
Shannon 信息论
本节先归纳一下 Shannon 的主要结论和方法论启示。下图是一般通信系统的原理图。

图:一般通信系统原理图⁴。
信息论的三个主要结论
在通信系统中,信源是产生信息的源头。信源编码器将每一个信源符号映射为一个长度为 m 的二进制码字,从而实现对原始信息的压缩,节约宝贵的信道资源,提升效率。如果信源的输出是一个随机变量 S 的独立采样,Shannon 证明这类信源所产生的信息量就是 S 的熵(Entropy)。用 P(S) 表示 S 的概率分布,那么 S 的熵定义为:

其中 Ω 为随机变量 S 的样本空间,在信息论中通常称为符号集或字符集。熵是信源无损压缩(即能够完美恢复信源符号的压缩)的可达下界。这个结论就是著名的信源编码定理。
由于信道会受到噪声的影响,如果直接传输信源符号,接收的符号就会出现错误。如何实现可靠的数字通信,是当时任何工程方案都无法解决的世界难题。但 Shannon 通过他的理论不仅告诉我们可靠通信完全可以实现,而且还给出了数学上最优的解决路径。他首先创造性地用转移概率来建模通信信道,即

编辑

Shannon 的第三个伟大贡献在于证明了信源-信道分离定理,即把一个通信系统分解成信源编解码和信道编解码两个主要组成部分在理论上是最优的。这种分离设计极大地降低了工程实现的难度,并给实际应用带来了诸多便利。自此,通信技术就分成信源和信道两个领域。从事一个领域理论研究和工程实现的人并不需要了解另一个领域在做什么。可以说,Shannon 的信源-信道分离定理让世界同时产生了两个全新的科学和工程领域。
方法论启示
Shannon 是用数学理论解决工程技术难题(即以数学补物理)的典范。他最值得称道的方法论是在解决可靠通信问题时,没有陷入具体实现方案的比较和技术路线的选择,而是回归到一个基本的思想实验:如果一个可靠通信系统真的被造出来了,它应该具备什么功能、应该满足何种数学性质?这是一种自顶向下的方法论,即从运行时的视角来研究实现可靠信息传输的数学条件,从而指导通信系统设计。
针对信道编解码部分,我认为 Shannon 在论文中回答了以下三个关键问题:
1. 在数字通信中,可靠的数学定义是什么?
Shannon 的答案是渐进无差错的信息传输,他将概率论和统计学引入了通信领域,进而导出差错概率及其指数界、最大似然译码、联合典型译码等一系列概念和方法。
2. 可靠通信的数学模型是什么?
Shannon 的答案是用转移概率来建模信道,这一点十分关键,因为无论是已存在的通信系统还是人们当前尚未想到的通信技术,都可以用转移概率来建模信道不确定性带来的影响。这种概率模型与具体实现无关,具有极大的普适性。
在数学上,这类方法被称为概率方法⁶。但 Shannon 的天才在于把这种并不复杂的数学技巧完美应用于解决工程问题。
3. 衡量通信系统的性能指标是什么?
Shannon 的答案是可靠通信速率用互信息和信道容量来衡量。互信息本质上是用更基础的 Kullback-Leibler(KL)散度衡量 P (X,Y) 和 P (X) P (Y) 之间的差异,从而刻画 X 和 Y 之间的统计相关性。如果找到一个 P (X) 使得上述统计相关性最大,那么互信息 I (X;Y) 就达到了信道容量 C。
KL 散度是信息论中的一个基本概念,其定义为

这样互信息可表示为

机器学习领域常用的交叉熵损失函数可表示为

如果 H (P) 给定,那么交叉熵和 KL 散度是等价的。
大模型的信息论抽象
信息论从运行时的视角出发来研究通信系统,对研究大模型的第一性原理极具启发性。因为我们期望给大模型建立与具体实现无关的数学模型和理论。即便人们未来发明出比 Transformer 更好的架构,该理论仍然具有指导意义。事实上,2024 年图灵奖得主 Richard Sutton 在提出 Oak 架构时也认为走向 AGI 必须区分设计时和运行时⁷。
类似 Shannon 解决可靠通信问题的思路,我们也可以对大模型提出以下三个基本问题:
对大模型而言,语义意味着什么?
大模型与具体实现方式无关的数学模型是什么?
衡量大模型性能的指标是什么? 第一个问题实际上在本系列的第二篇《信号处理篇》中已经回答了,这里不再赘述。本篇的后续部分将着重回答第二和第三个问题。
面向大模型的信息论测度
为方便讨论,本节将首先介绍面向大模型的信息论测度,包括速率 - 失真函数、定向信息和定向信息密度。


2、定向信息
在本系列的第二篇《信号处理篇》中,为了讨论信息论意义下最优的语义嵌入 / 向量化,我们引入了定向信息和倒向定向信息。这里我们将展开讨论定向信息提出的背景和意义。
定向信息是由著名信息论专家,1988 年香农奖得主,James Massey 提出¹³。他在 1990 年的论文中指出:Ash 的信息论专著中关于 DMC 的定义是有问题的,因为该定义天然不能包含反馈¹⁴。他同时还认为,在 IEEE ISIT '73 会议上,Shannon 之所以选择反馈作为首次 Shannon Lecture 的主题,或许正是因为信息论在处理带有反馈的系统中并未取得显著的成果。
Massey 认为离散无记忆信道(Massey-DMC)的转移概率应该满足:



以上讨论表明,定向信息能够突破互信息的局限性,描述更广泛信道的输入和输出之间的统计相关性。然而遗憾的是,后续的信息论教材并未采纳 Massey 的修正建议。这使得信息论研究长期聚焦于不能纳入反馈的 Ash-DMC 定义,而定向信息则未得到足够重视。关于定向信息更详细的研究和更广泛的应用,可参考 Massey 的学生 Kramer 的博士论文和综述论文¹⁶ ¹⁷。
3、定向信息密度
信息密度的概念最早由前苏联数学家、信息论专家 Roland Dobrushin 于 1959 年提出¹⁸。还有一种说法认为信息密度是另一位著名的前苏联信息论专家 Mark Pinsker 在更早的一本书中提出的,但我尚未找到这本书。以 Strassen 矩阵乘法闻名于世的 Volker Strassen 在 1962 年给出了信息密度的首个理论分析结果¹⁹。具体来说,信息密度ı(x;y) 定义为:







定向信息的计算和估计
在实际应用中,定向信息的计算和估计是很困难的。在数值算法方面,Haim Permuter 与他的合作者提出将经典的 BA 算法推广到计算定向信息²³。这篇论文利用了输入分布的凹性和定向信息的因果结构,并结合动态规划原理,提出了面向定向信息的 BA 算法。
基于互信息的 Donsker-Varadhan 表示²⁴,Belghazi 等人在互信息神经估计器(Mutual Information Neural Estimator,MINE)取得重要进展²⁵。受此启发,Permuter 及其合作者进一步提出了基于 RNN 的定向信息神经估计器(Directed Information Neural Estimator,DINE)²⁶。更进一步地,他们最近的工作则提出 Transformer 本身就可以用来估计传递熵(TRansfer Entropy Estimation via Transformers,TREET),即有限长度版本的定向信息²⁷。TREET 将传递熵的估计问题转化为一个离散序列的自回归预测问题,利用 Transformer 的上下文学习能力来精确计算条件概率的对数似然差。从这个角度看,Transformer 和定向信息是天然结合在一起的。
Granger 因果与 Pearl 因果
在本系列的第一篇《统计物理篇》和第二篇《信号处理篇》中,我们都指出:大模型推理的本质,是通过预测下一个 Token 这一看似简单的训练目标,实现逼近人类水平的 Granger 因果推断。

机器学习领域的著名专家,2011 年图灵奖得主,Judth Pearl 教授曾严厉批评 Granger 因果,认为它混淆了因果的定义,给这一领域带来了误导。在 Pearl 看来,Granger 因果并非本质上的因果关系,而是属于具有时间顺序的统计。进一步地,Pearl 认为没有模型假设的数据,永远无法推导出真正的因果结论。可以这样概括两种因果概念如下:
Granger 因果在哲学上属于经验主义,关注的是数据驱动的预测;
Pearl 因果在哲学上属于结构主义,关注的是模型假设下的干预和反事实。
具体来说,Pearl 因果分为三个层级:
Level-A(关联问题):从数据中观察 X 和 Y 是否有关联,即 P(Y∣X).
Level-B(干预问题):执行 do(⋅) 算子,观察干预 X 后 Y 的情况,即 P (Y∣do(X)).
Level-C(反事实问题):观察到事件 {X=x,Y=y} 后,强行假设 x' 发生时 Y 的情况,即P (Y_(x' )∣X=x,Y=y).
Pearl 证明:仅凭较低层级的信息,无法推导出较高层级问题的答案,除非引入额外的、不可从数据中识别的因果假设³¹ ³²。容易看出,Granger 因果属于 Level-A(关联问题),但定义了时序关系,因此是数据驱动的预测能力极限。根据 Pearl 的定理,如果大模型只在 Level-A 的语料上训练,则永远无法做出 Level-B/C 的推理。
随着强化学习和 Mote Carlo 树搜索等算法与大模型相结合³³ ³⁴,大模型的推理能力得到了显著提升。然而本质上,这类算法是在模型固定的前提下,极致模仿人类语料中的干预问题和反事实问题。简言之,大模型可以写出非常像干预和反事实的句子,因为它模仿了人类的语言模式。但这只是大模型在做数据驱动的预测,而不是真正进行因果推理³⁵。从另一个角度看,当前人类与大模型互动的价值,正是引入了不可从数据中识别的因果假设,从而将大模型作为工具来大幅提升人们的工作效率。
结语:一个新时代的开始
本篇是系列解读文章的最后一篇,它围绕 TOKEN 为大模型建立语义信息论框架。在这里我要解释一下,原论文的题目叫 Forget BIT, It is All about TOKEN 没有丝毫贬低 BIT 的意思。事实上,我始终认为信息时代最伟大的发明就是 BIT。这是 2023 年初我和 5G Polar 码发明人、2019 年香农奖得主,Erdal Arikan 教授的圆桌论坛上,他在回答吴博士的问题时提出的核心观点。这一观点启发我一直思考 AI 时代的核心概念 —— 和 BIT 同等重要的概念 —— 到底是什么?BIT 连接了计算和通信,两个理论基础和哲学理念完全不同,却又相互促进、相互限制的学科。我现在坚信 Kolmogorov 的观点是对的:信息论不应该建立在概率论的基础上,信息论比概率论更加基础,它和 Turing 的计算理论一样,建立在逻辑的基础上。这也就是为什么 Kolmogorov 提出了基于 Turing 机的 Kolmogorov 复杂度,并由此推导出 Shannon 熵是 Kolmogorov 复杂度的数学期望。另一方面,直觉主义逻辑的 Brouwer-Heyting-Kolmogorov 释义(BHK Interpretation),即一个数学命题的意义等同于证明这个命题的方法,则是现代计算机科学中的柯里-霍华德对应(Curry-Howard Correspondence)的逻辑基础。它告诉我们:命题即类型和证明即程序。人类已迈向 AI 时代,其核心概念我认为就是 TOKEN。从这个角度出发,可以大胆推测,正如 BIT 连接了计算和通信一样,TOKEN 将连接经验(记忆、推断)和理性(推理),或者按照 Daniel Kahneman 的说法就是连接了系统 1 和系统 2³⁶。因此,BIT 定义了信息时代,而 TOKEN 则将定义 AI 时代。
无论大模型当前的技术路径是否能真正通往通用人工智能(Artificial General Intelligence,AGI) 和超级人工智能(Artificial Super Intelligence,ASI),我想通过这篇论文和这个系列的解读文章来说明:AI 时代的大幕已经正式开启,我们要围绕新的核心概念开展研究与开发,构筑新的理论和系统。也许大模型的下一个 Token 预测并非真的在思考,但无论是谁也无法否认大模型革命性地提升了自动化整合和处理信息的能力。也许正如电影《模仿游戏》中 Turing 的那句震撼心灵的台词:有趣的问题是,只因为某样东西与你思考的方式不同,就意味着它不思考吗?(The interesting question is, just because something thinks differently from you, does that mean it's not thinking?)
参考文献
¹ B. Bai, "Forget BIT, it is all about TOKEN: Towards semantic information theory for LLMs," arXiv: 2511.01202, Nov. 2025.
² C. Shannon, "A mathematical theory of communication," The Bell System Technical Journal, vol. 27, no. 7, pp. 379-423, Oct. 1948.
³ W. Weaver and C. Shannon, "Recent contributions to the mathematical theory of communications," The Rockefeller Foundation, Sep. 1949.
⁴ C. Shannon, "A mathematical theory of communication," The Bell System Technical Journal, vol. 27, no. 7, pp. 379-423, Oct. 1948.
⁵ R. Ash, Information Theory. New York, NY, USA: Dover Publications, 1990.
⁶ N. Alon and J. Spencer, The Probabilistic Method, 4th ed. Hoboken, NJ, USA: John Wiley & Sons, 2016.
⁷ R. Sutton, "The Oak architecture: A vision of super intelligence from experience," Invited talk at NeurIPS ’25, San Diego, CA, USA, Dec. 03, 2025.
⁸ C. Shannon, "A mathematical theory of communication," The Bell System Technical Journal, vol. 27, no. 7, pp. 379-423, Oct. 1948.
⁹ T. Berger, Rate Distortion Theory: A Mathematical Basis for Data Compression. Englewood Cliffs, NJ, USA: Prentice Hall PTR, 1971.
¹⁰ R. Blahut, "Computation of channel capacity and rate-distortion functions," IEEE Transactions on Information Theory, vol. 18, no. 4, pp. 460-473, Jul. 1972.
¹¹ S. Arimoto, "An algorithm for computing the capacity of arbitrary discrete memoryless channels," IEEE Transactions on Information Theory, vol. 18, no. 1, pp. 14-20, Jan. 1972.
¹² S. Wu, W. Ye, H. Wu, H. Wu, W. Zhang, and B. Bai, "A communication optimal transport approach to the computation of rate distortion functions," arXiv: 2212.10098, Dec. 2022.
¹³ J. Massey, "Causality, feedback and directed information," in Proc. IEEE International Symposium on Information Theory ’90, Waikiki, HI, USA, Nov. 1990.
¹⁴ R. Ash, Information Theory. New York, NY, USA: Dover Publications, 1990.
¹⁵ H. Marko, "The bidirectional communication theory: A generalization of information theory," IEEE Transactions on Communications, vol. 21, no. 12, pp. 1345-1351, Dec. 1973.
¹⁶ G. Kramer, "Directed information for channels with feedback," Ph. D Dissertation, ETH Zurich, Zurich, Switzerland, 1998.
¹⁷ D. Tsur, O. Sabag, N. Kashyap, H. Permuter, and G. Kramer, "Directed information: Estimation, optimization and applications in communications and causality," arXiv: 2602.09711, Feb. 2026.
¹⁸ R. Dobrushin, "General formulation of Shannon's main theorem in information theory," American Mathematical Society Translations: Series 2, vol. 33, no. 2, pp. 323-438, 1963.
¹⁹ V. Strassen, "Asymptotische abschätzungen in Shannon's informationstheorie," in Transactions of 3rd Prague Conference on Information Theory '62, Prague, Czech Republic, 1962.
²⁰ Y. Polyanskiy and Y. Wu, Information Theory: From Coding to Learning. Cambridge, UK: Cambridge University Press, 2025.
²¹ R. Rafailov, A. Sharma, E. Mitchell, S. Ermon, C. Manning, and C. Finn, "Direct preference optimization: Your language model is secretly a reward model," arXiv: 2305.18290, Jul. 2024.
²² D. Williams, Probability with Martingales. Cambridge, UK: Cambridge University Press, 1991.
²³ I. Naiss and H. Permuter, "Extension of the Blahut-Arimoto algorithm for maximizing directed information," IEEE Transactions on Information Theory, vol. 59, no. 1, pp. 204-222, Jan. 2013.
²⁴ M. Donsker and S. Varadhan, "Asymptotic evaluation of certain Markov process expectations for large time, IV," Communications on Pure and Applied Mathematics, vol. 36, no. 2, pp. 183-212, Mar. 1983.
²⁵ M. Belghazi et al., "MINE: Mutual information neural estimation," arXiv: 1801.04062, Aug. 2021.
²⁶ D. Tsur, Z. Aharoni, Z. Goldfeld, and H. Permuter, "Neural estimation and optimization of directed information over continuous spaces," IEEE Transactions on Information Theory, vol. 69, no. 8, pp. 4777-4798, Aug. 2023.
²⁷ O. Luxembourg, D. Tsur, and H. Permuter, "TREET: Transfer entropy estimation via transformers," arXiv: 2402.06919, Jul. 2025.
²⁸ T. Schreiber, "Measuring information transfer," Physical Review Letters, vol. 85, no. 2, pp. 461-464, Jul. 2000.
²⁹ L. Barnett, A. B. Barrett, and A. K. Seth, "Granger causality and transfer entropy are equivalent for Gaussian variables," Physical Review Letters, vol. 103, no. 23, pp. 238701, Dec. 2009.
³⁰ P. Amblard and O. Michel, "The relation between Granger causality and directed information theory: A review," Entropy, vol. 15, no. 1, pp. 113-143, Jan. 2013.
³¹ J. Pearl, Causality: Models, Reasoning, and Inference, 2nd ed. New York, NY, USA: Cambridge University Press, 2009.
³² J. Pearl and D. Mackenzie, The Book of Why: The New Science of Cause and Effect. New York, NY, USA: Basic Books, 2018.
³³ D. Silver et al., "Mastering the game of Go without human knowledge, Nature, vol. 550, no. 7676, Oct. 2017.
³⁴ DeepSeek-AI, "DeepSeek-R1: Incentivizing reasoning capability in LLMs via reinforcement learning," DeepSeek, Hangzhou, China, Jan. 2025.
³⁵ L. Berglund et al., "The reversal curse: LLMs Trained on 'A is B' fail to learn 'B is A'," arXiv: 2309.12288, May 2024.
³⁶ D. Kahneman, Thinking, Fast and Slow. New York, NY, USA: Farrar, Straus and Giroux, 2013.