原文:Claude E. Shannon, “Prediction and Entropy of Printed English”, Bell System Technical Journal, Vol. 30, pp. 50–64, January 1951.
1. 引言
语言——尤其是印刷英语——在通信理论中占有核心地位。语音、电视和一般通信系统所传输的信息,最终都可以用语言来描述。因此,了解语言的信息特性对于通信理论至关重要。
本文的目标是估算印刷英语的熵(entropy)和冗余度(redundancy)。熵度量了每个字母所携带的平均信息量,而冗余度则衡量了语言中”多余”部分的比例——即为了传达给定信息量所需要的额外字母数。
这个问题可以通过多种方式加以探讨。我们可以将英语视为一个统计过程,通过考察其 n-gram 频率(单字母、双字母、三字母等统计)来估算其熵。或者,我们可以通过人类受试者来预测文本,利用他们掌握的语言统计知识。
2. 基于单字母频率的熵
如果英语的 26 个字母加空格(共 27 个字符)是独立且等概率出现的,那么每个字符将携带 log₂ 27 ≈ 4.76 bits 的信息量。然而,英语各字母的出现频率远非均匀分布。
根据实际印刷英语的单字母频率统计,Shannon 计算出基于独立但不等概率字母的一阶熵近似为:
H₁ ≈ 4.14 bits/字母
其中最常见的字母 E 频率约为 13%,而 Z 等罕见字母频率约为 0.1%。这个数字虽然低于均匀分布的 4.76 bits,但仍是熵的上界,因为字母之间的依赖性尚未被考虑。
3. 基于 digram 和 trigram 统计的熵
英语不是由独立字母组成的。某些字母对(digrams)出现频率极高(如 TH、HE、AN、IN),而其他组合几乎不出现。这意味着给定前一个字母后,下一个字母的不确定性大大降低。
Shannon 借助已有的大规模双字母(digram)频率统计表,计算出条件熵:
H₂ ≈ 3.56 bits/字母
使用三字母组合(trigram)频率进一步降低:
H₃ ≈ 3.3 bits/字母
这些数字给出了熵的逐步收紧的上界。随着考虑的上下文长度增加,熵值应当继续下降,逐渐逼近真实熵。
4. 基于单词频率的估计
Shannon 也探讨了基于单词统计的熵估算方法。如果将英语单词(而非字母)视为基本符号,同样可以通过单词频率分布来估算熵。利用单词频率表,他得到了与字母级分析一致的结果。
单词频率也遵循 Zipf 定律——最常见的 “the” 出现频率远高于罕用词。基于单词的估计进一步确认了英语高冗余度的特性。
5. 预测实验
这是本文最具创造性的部分。Shannon 设计了人类预测实验来直接测量英语的熵。
实验方法如下:
- 给受试者一段未知的英语文本
- 受试者逐个猜测下一个字母是什么
- 如果猜错,告知正确答案,然后继续猜下一个字母
- 记录每个字母猜测所需的尝试次数
关键洞察:受试者在猜测时所犯的错误数,直接反映了字母的不确定性(即局部熵)。如果字母完全可以预测(如 QU 后的字母几乎总是元音),受试者会一次猜中。如果字母高度不确定,则需要多次尝试。
Shannon 通过数理推导证明,受试者所需猜测次数与熵之间存在数学关系。一种简单的情景是:如果受试者知道真实概率分布并以最优策略猜测,则所需尝试次数为:
平均尝试次数 ≈ 2^(H) − 1
6. 预测实验的结果
通过多次实验,Shannon 得到了印刷英语的熵估计:
H ≈ 0.6 ~ 1.3 bits/字母
最优估计值约为:
H ≈ 1.0 bit/字母
与均匀分布的 4.76 bits/字母相比,这意味着:
冗余度 ≈ (4.76 − 1.0) / 4.76 ≈ 75%
也就是说,印刷英语中大约 75% 的字母是”多余”的——它们并非传递信息所必须,而是由语言的结构和统计规律强加的。理论上,我们可以将英语文本压缩到原大小的四分之一左右,而不损失任何信息。
7. 上下界
Shannon 将各种估计方法的结果总结为一组不断收紧的上下界:
| 方法 | 熵估计 (bits/字母) | 说明 |
|---|---|---|
| 均匀分布 | 4.76 | 理论最大值 |
| 单字母频率 | 4.14 | 上界 (忽略依赖) |
| Digram 频率 | 3.56 | 上界 (2-gram) |
| Trigram 频率 | 3.3 | 上界 (3-gram) |
| 单词频率 | ~1.6–2.1 | 进一步收紧 |
| 人类预测实验 | 0.6–1.3 | 最优估计 |
8. 讨论与意义
这项研究具有深远的影响:
- 数据压缩:75% 的冗余度表明,英语文本理论上的最大压缩比约为 4:1。这为后来的 Huffman 编码、Lempel-Ziv 压缩等算法提供了理论基础。
- 通信效率:冗余度解释了为什么我们可以在嘈杂的信道中阅读和理解含有拼写错误或遗漏字母的文本——冗余提供了纠错能力。
- 密码学:语言的冗余是密码分析的核心突破口。高冗余度的语言在加密后仍然保留了统计特征,为破解提供了线索。
- 自然语言处理:对语言统计规律的系统量化,开启了用概率方法处理语言的范式。
Shannon 在这篇简短而精美的论文中,将一个看似”无法量化”的问题——语言的预测性和不确定性——转化为可精确测量的科学量,奠定了现代信息论与语言统计学的基石。
9. 结论
Shannon 总结道:印刷英语的熵约为 1 bit/字符,冗余度约为 75%。这个数字至今仍在教科书中被广泛引用。论文所开创的人类预测实验方法,也成为信息论中一个经典的思想实验——将不可见的信息量,转化为可见的猜测行为。
本文根据 Claude E. Shannon 1951 年经典论文 “Prediction and Entropy of Printed English” 翻译整理。
翻译发布:blog.fennubird.cn | 原文出处:Bell System Technical Journal, Vol. 30, pp. 50–64, 1951

发表回复