熵
我们来详细探讨香农熵(Shannon entropy)、瑞利熵(Rényi entropy)和塔利斯熵(Tsallis entropy)。这三种熵都是度量概率分布不确定性或信息量的核心工具,但在背景、机制、性质和应用上各有侧重。
核心概念统一性:
它们都基于一个离散随机变量 X,其取值为 {x₁, x₂, ..., xn}
,对应的概率分布为 P = (p₁, p₂, ..., pn)
,满足 pi ≥ 0
且 Σpi = 1
。熵 H(P)
量化了根据该分布抽取一个样本结果的不确定性或信息量。
1. 香农熵 (Shannon Entropy)
-
背景:
- 由克劳德·香农于1948年在其开创性论文《通信的数学理论》中提出。
- 目标是解决可靠和高效通信的基本问题:如何量化消息中包含的“信息”,如何压缩信息(无损压缩的理论极限),以及信道能可靠传输的最大信息速率(信道容量)。
- 它是信息论的基石。
-
机制:
- 定义单个事件
xi
发生的“自信息”为I(xi) = -log₂(pi)
(比特为单位)。自信息度量了事件发生带来的“惊讶度”(概率越小,惊讶度越大)。 - 香农熵定义为自信息的期望值(平均值):
H(P) = E[I(X)] = Σ pi * I(pi) = -Σ pi * log₂(pi)
。 - 核心思想:熵越大,表示分布越均匀,不确定性越高,要确定具体结果所需的信息量(或平均编码长度)就越大。熵越小,表示分布越集中(某些事件概率很大),不确定性越低。
- 定义单个事件
-
核心公式:
H(P) = - Σ_{i=1}^{n} p_i \log_b p_i
b
是对数的底数(常用 2, e, 10)。b=2
时单位为比特 (bit),b=e
时单位为奈特 (nat)。- 关键性质:
- 非负性:
H(P) ≥ 0
(当且仅当某个pi=1
时取等)。 - 可加性 (Additivity): 对于两个独立的随机变量
X
和Y
,其联合分布的熵等于各自熵之和:H(X, Y) = H(X) + H(Y)
。 - 凹性 (Concavity): 熵函数是其概率分布
P
的凹函数。 - 最大熵原理: 在给定约束(如固定均值)下,均匀分布具有最大熵。
- 非负性:
-
应用:
- 信息论基础: 无损数据压缩(熵是平均最小编码长度的极限,Huffman 编码、算术编码)、信道编码(信道容量定义)、密码学(密钥不确定性)。
- 机器学习: 决策树分裂准则(信息增益
IG = H(parent) - [weighted avg] * H(children)
)、特征选择。 - 统计物理: 在平衡态统计力学中与热力学熵联系(玻尔兹曼熵)。
- 复杂系统: 量化系统复杂度、多样性。
- 通信: 调制、编码理论的核心。
2. 瑞利熵 (Rényi Entropy)
-
背景:
- 由匈牙利数学家阿尔弗雷德·瑞利 (Alfréd Rényi) 于1961年提出。
- 目标是推广香农熵的概念,提供一个包含香农熵作为特例的、更一般的熵族。
- 通过引入一个阶数参数
α
(α ≥ 0, α ≠ 1
),可以捕捉概率分布不同方面的特征。不同的α
值强调分布的不同部分(如稀有事件或常见事件)。 - 它是信息论框架下的重要推广。
-
机制:
- 基于
α
阶的P
的ℓα
范数(||P||_α = (Σ pi^α)^{1/α}
)或α
阶期望Σ pi^α
。 - 定义
α
阶的瑞利熵为log(Σ pi^α)
的缩放版本。具体来说:
H_α(P) = \frac{1}{1-\alpha} \log_b \left( \sum_{i=1}^{n} p_i^{\alpha} \right)
- 核心思想:
α
就像一个“聚焦参数”:α → 1
:收敛到香农熵(通过洛必达法则)。α = 0
:H₀(P) = log_b(n)
(Hartley 熵/最大熵),只关心可能结果的数量n
,忽略具体概率。α → ∞
:H_∞(P) = -\log_b (\max_i p_i)
(最小熵),只关心最可能事件发生的概率。这对评估最坏情况下的不确定性(如密码学安全强度)至关重要。α = 2
:H₂(P) = -\log_b (\sum p_i^2) = -\log_b (P[collision])
(碰撞熵),度量从分布中独立抽取两个样本结果相同的概率(碰撞概率)的对数。常用于量子信息、散列函数分析。α
越大,对分布中高概率事件越敏感;α
越小,对低概率(稀有)事件越敏感。
- 基于
-
核心公式:
H_\alpha(P) = \frac{1}{1-\alpha} \log_b \left( \sum_{i=1}^{n} p_i^{\alpha} \right) \quad (\alpha \geq 0, \alpha \neq 1)
H_1(P) = \lim_{\alpha \to 1} H_\alpha(P) = -\sum_{i=1}^{n} p_i \log_b p_i
(即香农熵)- 关键性质:
- 非负性:
H_α(P) ≥ 0
。 - 单调性: 对于
α ≤ β
,有H_α(P) ≥ H_β(P)
。阶数α
越大,熵值越小(或相等)。 - 可加性 (Additivity): 和香农熵一样,对于独立随机变量,
H_α(X, Y) = H_α(X) + H_α(Y)
。 - 广义凹性:
H_α(P)
在α > 0
时是P
的凹函数。
- 非负性:
- 关键性质:
-
应用:
- 密码学: 最小熵 (
α→∞
) 评估密钥或随机数生成器的强度(抵抗暴力攻击);碰撞熵 (α=2
) 分析散列函数冲突。 - 生态学:
α=0, 1, 2
分别对应物种丰富度、香农多样性指数、辛普森多样性指数,用于量化生物多样性。 - 信息论: 广义信息度量、信道容量研究。
- 量子信息: 量化量子态的纠缠和相干性。
- 机器学习: 作为正则化项或目标函数的一部分,有时能提供比香农熵更鲁棒或有特定偏好的结果。
- 分形维数估计: 某些
α
下的瑞利熵与分形维数有关。
- 密码学: 最小熵 (
3. 塔利斯熵 (Tsallis Entropy)
-
背景:
- 由巴西物理学家康斯坦丁诺·塔利斯 (Constantino Tsallis) 于1988年提出。
- 动机源于推广标准玻尔兹曼-吉布斯统计力学以处理具有长程相互作用、非马尔可夫过程、分形结构等特性的非广延系统 (nonextensive systems)。
- 引入一个非广延性参数
q
(q ∈ ℝ, q ≠ 1
)。 - 它植根于统计物理,旨在描述更广泛的复杂系统。
-
机制:
- 标准熵(香农/玻尔兹曼-吉布斯熵)在热力学平衡态下是广延量(可加性):系统总熵等于各部分熵之和(前提是各部分独立或短程相互作用)。
- 塔利斯观察到许多复杂系统(如自引力系统、湍流、某些非平衡态)不满足这种可加性,熵不是广延量,而是非广延量。
- 塔利斯熵的定义刻意打破了可加性,引入了伪可加性 (Pseudo-additivity):
S_q(A + B) = S_q(A) + S_q(B) + (1-q)S_q(A)S_q(B)
其中A
和B
是两个独立系统。当q=1
时,右边第三项消失,恢复标准可加性S₁(A+B)=S₁(A)+S₁(B)
。 - 核心公式定义为:
S_q(P) = \frac{1}{q-1} \left( 1 - \sum_{i=1}^{n} p_i^q \right) = -\sum_{i=1}^{n} p_i^q \ln_q p_i
(其中\ln_q x \equiv \frac{x^{1-q}-1}{1-q}
称为q
-对数) - 核心思想:
q
参数量化了系统的“非广延性”程度:q → 1
:收敛到香农熵(通过洛必达法则)。q < 1
:对低概率事件更敏感。q > 1
:对高概率事件更敏感。- 伪可加性描述了子系统间存在某种关联或长程相互作用时,整体熵不等于部分熵之和的现象。
(1-q)
项表征了这种相互作用的强度。
-
核心公式:
S_q(P) = \frac{k}{q-1} \left( 1 - \sum_{i=1}^{n} p_i^q \right)
(k
是玻尔兹曼常数,信息论中常取k=1
或k=1/lnb
使单位一致)
S_1(P) = \lim_{q \to 1} S_q(P) = -k \sum_{i=1}^{n} p_i \ln p_i
(即香农熵/玻尔兹曼熵)- 关键性质:
- 非负性:
S_q(P) ≥ 0
。 - 伪可加性 (Pseudo-additivity): 如上所述,对于独立系统
A
,B
:S_q(A+B) = S_q(A) + S_q(B) + (1-q)S_q(A)S_q(B)
。 - 非广延性: 当
q ≠ 1
时,熵不再是广延量。 - 凹性/凸性:
S_q(P)
在q > 0
时是P
的凹函数。 - 最大熵原理: 在给定约束下,极大化
S_q(P)
会得到q
-指数分布(标准统计力学中q=1
对应指数/高斯分布)。
- 非负性:
- 关键性质:
-
应用:
- 非广延统计力学: 描述具有长程相关、分形时空、非各态历经行为的物理系统(如等离子体、自引力系统、湍流、低维系统)。
- 复杂系统: 分析金融时间序列(股票收益)、交通流、生物系统(蛋白质折叠、DNA序列)、神经网络动力学。
- 信号处理:
q
-熵用于特征提取、分割、去噪,有时对重尾或脉冲噪声更鲁棒。 - 优化: 作为目标函数或约束,例如在
q
-均值和q
-方差约束下的最大S_q
原理。 - 热力学: 推广热力学定律到非广延系统。
三者的异同总结
特性 | 香农熵 (Shannon) | 瑞利熵 (Rényi) | 塔利斯熵 (Tsallis) |
---|---|---|---|
背景起源 | 信息论 (通信) | 信息论 (数学推广) | 统计物理 (非广延系统) |
核心参数 | 无 | 阶数 α (α ≥ 0, α ≠ 1 ) |
非广延参数 q (q ∈ ℝ, q ≠ 1 ) |
极限关系 | - | α → 1 时等于香农熵 |
q → 1 时等于香农熵 |
核心公式 | -Σ p_i log p_i |
\frac{1}{1-\alpha} \log (\sum p_i^\alpha) |
\frac{1}{q-1} (1 - \sum p_i^q) |
可加性 | 可加 (Additive): H(X+Y) = H(X) + H(Y) (X,Y独立) |
可加 (Additive): H_α(X+Y) = H_α(X) + H_α(Y) (X,Y独立) |
伪可加 (Pseudo-additive): S_q(X+Y) = S_q(X) + S_q(Y) + (1-q)S_q(X)S_q(Y) (X,Y独立) |
广延性 | 广延量 | 广延量 | 非广延量 (当 q ≠ 1 ) |
主要侧重 | 平均不确定性/信息量,编码极限 | 通过 α 强调分布的不同方面(稀有/常见事件) |
通过 q 描述系统非广延性,子系统关联 |
关键特例 | - | α=0 : Hartley熵 (log n) α=2 : 碰撞熵 α→∞ : 最小熵 |
- |
典型应用领域 | 信息论、通信、压缩、密码学基础、机器学习 | 密码学(最小熵、碰撞熵)、生态学(多样性)、量子信息 | 非广延统计物理、复杂系统(金融、生物、交通)、信号处理 |
更直观的比喻:
- 香农熵: 像一个标准的尺子,测量平均的不确定性长度。
- 瑞利熵: 像一套不同放大倍数的镜头(
α
控制放大倍数)。α
小,镜头看全景(有多少种可能);α
大,镜头聚焦在最可能的结果上;α=1
是标准镜头(看平均)。 - 塔利斯熵: 像在测量一个由相互连接的模块组成的结构的“复杂总量”(
q
控制模块间相互作用的强度)。当模块独立 (q=1
) 时,总量就是各模块和;当模块强关联 (q≠1
) 时,总量不等于简单相加,需要额外的相互作用项(1-q)S(A)S(B)
来修正。
总结:
- 香农熵是信息论的基石,定义了平均信息量和不确定性,具有完美的可加性(广延性)。
- 瑞利熵在信息论框架内推广了香农熵,通过参数
α
提供了描述概率分布不同特征的灵活性(如多样性、稀有事件、常见事件、最坏情况),保持了可加性。 - 塔利斯熵源于对非广延物理系统的研究,通过参数
q
打破了可加性,引入了伪可加性来描述子系统间的关联效应,适用于更广泛的复杂系统建模。
三者相互关联(在 α→1
或 q→1
时都回归到香农熵),但各有其独特的视角、数学表达和应用场景。选择哪种熵取决于具体问题的背景和需要度量的特性(平均信息、特定事件权重、系统非广延性)。