分类: 未分类

  • 印刷英语的预测与熵 —— 香农经典论文全译

    印刷英语的预测与熵 —— 香农经典论文全译

    原文:Claude E. Shannon, “Prediction and Entropy of Printed English”, Bell System Technical Journal, Vol. 30, pp. 50–64, January 1951.

    1. 引言

    语言——尤其是印刷英语——在通信理论中占有核心地位。语音、电视和一般通信系统所传输的信息,最终都可以用语言来描述。因此,了解语言的信息特性对于通信理论至关重要。

    本文的目标是估算印刷英语的(entropy)和冗余度(redundancy)。熵度量了每个字母所携带的平均信息量,而冗余度则衡量了语言中”多余”部分的比例——即为了传达给定信息量所需要的额外字母数。

    这个问题可以通过多种方式加以探讨。我们可以将英语视为一个统计过程,通过考察其 n-gram 频率(单字母、双字母、三字母等统计)来估算其熵。或者,我们可以通过人类受试者来预测文本,利用他们掌握的语言统计知识。

    2. 基于单字母频率的熵

    如果英语的 26 个字母加空格(共 27 个字符)是独立且等概率出现的,那么每个字符将携带 log₂ 27 ≈ 4.76 bits 的信息量。然而,英语各字母的出现频率远非均匀分布。

    根据实际印刷英语的单字母频率统计,Shannon 计算出基于独立但不等概率字母的一阶熵近似为:

    H₁ ≈ 4.14 bits/字母

    其中最常见的字母 E 频率约为 13%,而 Z 等罕见字母频率约为 0.1%。这个数字虽然低于均匀分布的 4.76 bits,但仍是熵的上界,因为字母之间的依赖性尚未被考虑。

    3. 基于 digram 和 trigram 统计的熵

    英语不是由独立字母组成的。某些字母对(digrams)出现频率极高(如 TH、HE、AN、IN),而其他组合几乎不出现。这意味着给定前一个字母后,下一个字母的不确定性大大降低。

    Shannon 借助已有的大规模双字母(digram)频率统计表,计算出条件熵:

    H₂ ≈ 3.56 bits/字母

    使用三字母组合(trigram)频率进一步降低:

    H₃ ≈ 3.3 bits/字母

    这些数字给出了熵的逐步收紧的上界。随着考虑的上下文长度增加,熵值应当继续下降,逐渐逼近真实熵。

    4. 基于单词频率的估计

    Shannon 也探讨了基于单词统计的熵估算方法。如果将英语单词(而非字母)视为基本符号,同样可以通过单词频率分布来估算熵。利用单词频率表,他得到了与字母级分析一致的结果。

    单词频率也遵循 Zipf 定律——最常见的 “the” 出现频率远高于罕用词。基于单词的估计进一步确认了英语高冗余度的特性。

    5. 预测实验

    这是本文最具创造性的部分。Shannon 设计了人类预测实验来直接测量英语的熵。

    实验方法如下:

    1. 给受试者一段未知的英语文本
    2. 受试者逐个猜测下一个字母是什么
    3. 如果猜错,告知正确答案,然后继续猜下一个字母
    4. 记录每个字母猜测所需的尝试次数

    关键洞察:受试者在猜测时所犯的错误数,直接反映了字母的不确定性(即局部熵)。如果字母完全可以预测(如 QU 后的字母几乎总是元音),受试者会一次猜中。如果字母高度不确定,则需要多次尝试。

    Shannon 通过数理推导证明,受试者所需猜测次数与熵之间存在数学关系。一种简单的情景是:如果受试者知道真实概率分布并以最优策略猜测,则所需尝试次数为:

    平均尝试次数 ≈ 2^(H) − 1

    6. 预测实验的结果

    通过多次实验,Shannon 得到了印刷英语的熵估计:

    H ≈ 0.6 ~ 1.3 bits/字母

    最优估计值约为:

    H ≈ 1.0 bit/字母

    与均匀分布的 4.76 bits/字母相比,这意味着:

    冗余度 ≈ (4.76 − 1.0) / 4.76 ≈ 75%

    也就是说,印刷英语中大约 75% 的字母是”多余”的——它们并非传递信息所必须,而是由语言的结构和统计规律强加的。理论上,我们可以将英语文本压缩到原大小的四分之一左右,而不损失任何信息。

    7. 上下界

    Shannon 将各种估计方法的结果总结为一组不断收紧的上下界:

    方法 熵估计 (bits/字母) 说明
    均匀分布 4.76 理论最大值
    单字母频率 4.14 上界 (忽略依赖)
    Digram 频率 3.56 上界 (2-gram)
    Trigram 频率 3.3 上界 (3-gram)
    单词频率 ~1.6–2.1 进一步收紧
    人类预测实验 0.6–1.3 最优估计

    8. 讨论与意义

    这项研究具有深远的影响:

    • 数据压缩:75% 的冗余度表明,英语文本理论上的最大压缩比约为 4:1。这为后来的 Huffman 编码、Lempel-Ziv 压缩等算法提供了理论基础。
    • 通信效率:冗余度解释了为什么我们可以在嘈杂的信道中阅读和理解含有拼写错误或遗漏字母的文本——冗余提供了纠错能力。
    • 密码学:语言的冗余是密码分析的核心突破口。高冗余度的语言在加密后仍然保留了统计特征,为破解提供了线索。
    • 自然语言处理:对语言统计规律的系统量化,开启了用概率方法处理语言的范式。

    Shannon 在这篇简短而精美的论文中,将一个看似”无法量化”的问题——语言的预测性和不确定性——转化为可精确测量的科学量,奠定了现代信息论与语言统计学的基石。

    9. 结论

    Shannon 总结道:印刷英语的熵约为 1 bit/字符,冗余度约为 75%。这个数字至今仍在教科书中被广泛引用。论文所开创的人类预测实验方法,也成为信息论中一个经典的思想实验——将不可见的信息量,转化为可见的猜测行为。


    本文根据 Claude E. Shannon 1951 年经典论文 “Prediction and Entropy of Printed English” 翻译整理。

    翻译发布:blog.fennubird.cn | 原文出处:Bell System Technical Journal, Vol. 30, pp. 50–64, 1951

  • WordPress 6.8 正式版发布,优化网站性能

    WordPress 6.8 正式版发布,优化网站性能

    WordPress 6.8 完善并优化了您日常使用的工具,使您的网站运行速度更快、更安全、更易于管理。样式表现在采用结构化布局,并兼容经典主题,让您能够更好地控制全局样式。推测加载功能通过在用户导航到链接之前预加载链接来加快导航速度,bcrypt 哈希算法可自动增强密码安全性,数据库优化则可提升性能。

    文章目录

    样式书变得更加简洁,并且增加了一些新技巧

    样式书具有新的结构化布局和更清晰的标签,可以更轻松地在一个地方编辑颜色、排版(几乎所有网站样式)。

    此外,现在您可以在包含 editor-styles 或 theme.json 文件的经典主题中看到它。在“外观”>“设计”下找到“样式书”,并在编辑 CSS 或在定制器中进行更改时使用它来预览主题的演变。

    编辑器改进

    更轻松地查看数据视图中的选项,并可以从查询循环中排除置顶帖子。此外,编辑器中还有许多小改进,让您构建一切更加顺畅。

    得益于推测加载,页面加载几乎是即时的

    在 WordPress 6.8 中,页面加载速度比以往任何时候都快。当您或您的用户将鼠标悬停在链接上或点击链接时,WordPress 可能会预加载下一页,从而带来更流畅、近乎即时的体验。该系统会平衡速度和效率,您可以通过插件或自定义代码来控制其运行方式。此功能仅适用于现代浏览器——旧版浏览器会忽略它,不会产生任何影响。

    使用 bcrypt 增强密码安全性

    现在,使用 bcrypt 哈希算法,密码更难破解,这需要更强大的计算能力才能破解。这增强了整体安全性,WordPress 的其他加密改进也同样如此。您无需执行任何操作,所有内容都会自动更新。

    了解更多:WordPress 6.8 将使用 bcrypt 进行密码哈希处理

    辅助功能改进

    100 多项无障碍修复和增强功能,涵盖 WordPress 的广泛体验。此版本修复了所有捆绑主题,改进了导航菜单管理、自定义工具,并简化了标签功能。块编辑器针对块、数据视图及其整体用户体验进行了 70 多项改进。

    性能更新

    WordPress 6.8 包含一系列性能修复和增强功能,旨在提升从编辑到浏览的各项功能。除了预测加载之外,WordPress 6.8 还特别关注了块编辑器、块类型注册和查询缓存。此外,想象一下,任何交互的等待时间都不会超过 50 毫秒。在 WordPress 6.8 中,Interactivity API 朝着这一目标迈出了第一步。

    文章来自wordpress大学