Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

熵和互信息之间的关系

我们可以将互信息\(I(X;Y)\)的定义重写为

\begin{align} I(X;Y) &= \sum_{x,y}p(x,y)\ \text{log}\ \frac{p(x,y)}{p(x)p(y)} \tag{2.35}\\ &= \sum_{x,y}p(x,y)\ \text{log}\frac{p(x|y)}{p(x)}\tag{2.36}\\ &= -\sum_{x,y}p(x,y)\ \text{log}\ p(x) + \sum_{x,y}\ p(x,y)\ \text{log}\ p(x|y)\tag{2.37}\\ &= -\sum_{x,y}p(x)\ \text{log}\ p(x) - \big(-\sum_{x,y}p(x,y)\ \text{log}\ p(x|y)\big)\tag{2.38}\\ &= H(X) - H(X|Y). \tag{2.39} \end{align}

因此,互信息 I (X; Y) 是由于了解 Y 而导致的 X 的不确定性的减少。

根据对称性,也可以得出 \[I(X;Y) = H(Y) - H(Y|X)/ \tag{2.40}\]

因此,X对Y的描述与Y对X的描述一样多。

由于\(H(X,Y) = H(X) + H(Y|X)\),如第2.2节所示,我们有

\[I(X;Y) = H(X) + H(Y) - H(X,Y). \tag{2.41}\]

最后,我们注意到 \[I(X;X) = H(X) - H(X|X) = H(X). \tag{2.42}\]

因此,随机变量与其自身的互信息就是该随机变量的熵。这就是熵有时被称为自信息的原因。

综合这些结果,我们得到以下定理。

定理 2.4.1 (互信息和熵) \[I(X;Y) = H(X) - H(X|Y) \tag{2.43}\]

\[I(X;Y) = H(Y) - H(Y|X)\tag{2.44}\]

\[I(X;Y) = H(X) + H(Y) - H(X,Y)\tag{2.45}\]

\[I(X;Y) = I(Y;X)\tag{2.46}\]

\[I(X;X) = H(X). \tag{2.47}\]

H(X)、H(Y)、H(X, Y)、H(X|Y)、H(Y|X) 和 I(X; Y) 之间的关系可以用韦恩图表示(图 2.2)。注意,互信息 I(X; Y) 对应于 X 中的信息与 Y 中信息的交集。

示例 2.4.1 对于示例2.2.1中的联合分布,很容易计算互信息\(I(X;Y) = H(X) - H(X|Y) = H(Y) - H(Y|X) = 0.375\ bit\)。