Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

相对熵和互信息

随机变量的熵是衡量随机变量不确定性的指标;它衡量的是描述该随机变量所需的平均信息量。本节我们将介绍两个相关概念:相对熵和互信息。

相对熵是两个分布之间距离的度量。在统计学中,它作为似然比的期望对数而出现。相对熵 D(p||q) 是在真实分布为 p 时假设分布为 q 的低效率度量。例如,如果我们知道随机变量的真实分布 p,我们就可以用平均描述长度 H(p) 构造一个编码。相反,如果我们使用分布为 q 的编码,则平均需要 H(p) + D(p||q) 比特来描述随机变量。

定义 两个概率质量函数p(x)和q(x)之间的相对熵或Kullback-Leibler距离定义为 \begin{align} D(p||q) &= \sum_{x\in\mathcal{X}}p(x)\ \text{log}\ \frac{p(x)}{q(x)} \tag{2.26}\\ &= E_p\ \text{log}\ \frac{p(X)}{q(X)}.\tag{2.27} \end{align}

在上述定义中,我们使用 \(0\ \text{log}\ \frac{0}{0} = 0\)的约定,以及 \(0\ \text{log}\ \frac{0}{q} = 0\) 且\(p\ \text{log}\ \frac{p}{0} = \infty\)的约定(基于连续性论证)。因此,如果存在任意符号 \(x\in\mathcal{X}\),使得 \(p(x) \gt 0\) 且 \(q(x) = 0\),则 \(D(p||q) = \infty\)。

很快我们会证明相对熵总是非负的,以及当且仅当 p=q时,为0。然而,它不是分布间真实的距离,因为它不是对称的,并且不满足三角不等式。尽管如此,将相对熵认为是分布间的距离通常是有用的。

现在我们介绍互信息,它衡量一个随机变量包含的关于另一个随机变量的信息量。它是指由于了解另一个随机变量而减少的一个随机变量的不确定性。

定义 考虑两个随机变量X和Y,联合概率质量函数为\(p(x,y)\),且边缘概率质量函数为p(x)和p(y)。互信息\(I(X;Y)\)是联合分布p(x,y)p(x)p(y)乘积分布之间的相对熵:

\begin{align} I(X;Y) &= \sum_{x\in\mathcal{X}}\sum_{y\in\mathcal{Y}}p(x,y)\ \text{log}\ \frac{p(x,y)}{p(x)p(y)}\tag{2.28}\\ &= D(p(x,y) || p(x)p(y)) \tag{2.29}\\ &= E_{p(x,y)}\text{log}\frac{p(X,Y)}{p(X)p(Y)}.\tag{2.30} \end{align}

在第 8 章中,我们将此定义推广到连续随机变量,并在 (8.54) 中推广到可能是离散随机变量和连续随机变量混合的一般随机变量。

示例 2.3.1 设\(\mathcal{X} = \{0,1\}\),并考虑\(\mathcal{X}\)上的两个分布p和q。令 \(p(0) = 1 - r\),且 \(q(0) = 1 - s\),\(q(1) = s\)。那么

\[D(p||q) = (1- r)\text{log}\frac{1-r}{1-s} + r\ \text{log}\frac{r}{s}\tag{2.31}\]

\[D(q||p) = (1-s)\text{log}\frac{1-s}{1-r} + s\ \text{log}\frac{s}{r}. \tag{2.32}\]

若 \(r = s\),那么 \(D(p||q) = D(q||p) = 0\)。若 \(r =\frac{1}{2})\, \(s = \frac{1}{4}\),那么我们可以计算 \[D(p||q) = \frac{1}{2}\ \text{log}\frac{\frac{1}{2}}{\frac{3}{4}} + \frac{1}{2}\ \text{log}\frac{\frac{1}{2}}{\frac{1}{4}} = 1 - \frac{1}{2}\ \text{log} 3 = 0.2075\ bit, \tag{2.33}\]

以及

\[D(q||p) = \frac{3}{4}\ \text{log}\frac{\frac{3}{4}}{\frac{1}{2}} + \frac{1}{4}\ \text{log}\frac{\frac{1}{4}}{\frac{1}{2}} = \frac{3}{4}\ \text{log} 3 - 1 = 0.1887\ bit, \tag{2.34}\]

请注意,一般来说,\(D(p||q) \ne D(q||p)\)。