Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

熵、相对熵和互信息的链式法则

我们现在表明,随机变量集合的熵是条件熵的总和。

定理 2.5.1 (熵的链式法则) 设\(X_1,X_2,\dots,X_n\)根据 \(p(x_1,x_2,\dots,x_n)\)抽取。那么

\[H(X_1,X_2,\dots,X_n) = \sum_{i=1}^n\ H(X_i |X_{i-1},\dots,X_1).\tag{2.48}\]

证明: 通过反复应用熵的双变量展开规则,我们得到

\[H(X_1,X_2) = H(X_1) + H(X_2|X_1), \tag{2.49}\]

\begin{align} H(X_1,X_2,X_3) &= H(X_1) + H(X_2, X_3|X_1)\tag{2.50}\\ &= H(X_1) + H(X_2|X_1) + H(X_3|X_2, X_1), \tag{2.51}\\ &\vdots\\ H(X_1,X_2,X_n) &= H(X_1) + H(X_2|X_1) + \dots + H(X_n|X_{n-1},\dots,X_1)\tag{2.52}\\ &= \sum_{i=1}^n H(X_i| X_{i-1},\dots,X_1).\tag{2.53} \end{align}

替代证明: 我们写为\(p(x_1,\dots,x_n) = \prod_{i=1}^n\ p(x_i|x_{i-1},\dots,x_1)\),并评估

\begin{align} H(X_1,X_2,\dots,X_n)\\ \quad&= - \sum_{x_1,x_2,\dots,x_n}p(x_1,x_2,\dots,x_n)\ \text{log}\ p(x_1,x_2,\dots,x_n)\tag{2.54}\\ &= - \sum_{x_1,x_2,\dots,x_n}p(x_1,x_2,\dots,x_n)\ \text{log}\ \prod_{i=1}^n\ p(x_i|x_{i-1},\dots,x_1)\tag{2.55}\\ &= - \sum_{x_1,x_2,\dots,x_n}\sum_{i=1}^n\ p(x_1,x_2,\dots,x_n)\ \text{log}\ p(x_i|x_{i-1},\dots,x_1)\tag{2.56}\\ &= - \sum_{i=1}^n\sum_{x_1,x_2,\dots,x_n}\ p(x_1,x_2,\dots,x_n)\ \text{log}\ p(x_i|x_{i-1},\dots,x_1)\tag{2.57}\\ &= - \sum_{i=1}^n\sum_{x_1,x_2,\dots,x_i}\ p(x_1,x_2,\dots,x_i)\ \text{log}\ p(x_i|x_{i-1},\dots,x_1)\tag{2.58}\\ &= \sum_{n=1}^n H(X_i|X_{i-1},\dots,X_1).\tag{2.59} \end{align}

我们现在将条件互信息定义为在给定Z时,由于知道Y而导致的X不确定性的降低。

定义 给定X,随机变量X和Y的条件互信息定义为 \begin{align} I(X;Y|Z) &= H(X|Z) - H(X|Y, z)\tag{2.60}\\ &= E_{p(x,y,z)}\text{log}\frac{p(X,Y|Z)}{p(X|Z)p(Y|Z)}.\tag{2.61} \end{align}

互信息也满足链式法则。

定理 2.5.2 (信息的链式法则) \[I(X_1,X_2,\dots,X_n;Y) = \sum_{i=1}^n I(X_i;Y|X_{i-1},X_{i-1},\dots,X_1).\tag{2.62}\]

证明 \begin{align} I(X_1,X_2,\dots,X_n;Y)\\ &= H(X_1,X_2,\dots,X_n) - H(X_1,X_2,\dots,X_n|Y)\tag{2.63}\\ &= \sum_{i=1}^n H(X_i|X_{i-1},\dots,X_1)- \sum_{i=1}^n H(X_i|X_{i-1},\dots,X_1, Y)\\ &= \sum_{i=1}^n I(X_i;Y|X_1,X_2,\dots,X_{i-1}). \tag{2.64} \end{align}

我们定义相对熵的条件版本。

定义 对于联合概率质量函数p(x,y)和q(x,y),条件相对熵\(D(p(y|X)||q(y|x))\)是条件概率质量函数\(p(y|x)\)和q(y|x)之间的相对熵在概率质量函数p(x)上的平均值。更准确地说 \begin{align} D(p(y|x)||q(y|x)) &= \sum_{x}p(x)\sum_y p(y|x)\ \text{log}\ \frac{p(y|x)}{q(y|x)}\tag{2.65}\\ &= E_{p(x,y)}\ \text{log}\frac{p(Y|X)}{q(Y|X)}.\tag{2.66} \end{align}

条件相对熵的表示法并不明确,因为它忽略了条件随机变量的分布p(x)。然而,通常从上下文来理解。

一对随机变量上两个联合分布之间的相对熵可以展开为相对熵和条件相对熵之和。相对熵的链式法则在第4.4节中用于证明热力学第二定律的一个版本。

定理 2.5.3 (相对熵的链式法则) \[D(p(x,y)||q(x,y)) = D(p(x)||q(x)) + D(p(y|x)||q(y|x)).\tag{2.67}\]

证明

\begin{align} D(p(x,y)||q(x,y))\\ &= \sum_x\sum_yp(x,y)\ \text{log}\frac{p(x,y)}{q(x,y)}\tag{2.68}\\ &= \sum_x\sum_yp(x,y)\ \text{log}\frac{p(x)p(y|x)}{q(x)q(y|x)}\tag{2.69}\\ &= \sum_x\sum_yp(x,y)\ \text{log}\frac{p(x)}{q(x)} + \sum_x\sum_y p(x,y)\ \text{log}\frac{p(y|x)}{q(y|x)}\tag{2.70}\\ &= D(p(x)||q(x)) + D(p(y|x)||q(y|x)).\tag{2.71} \end{align}