总结
以下摘要省略了限定条件。
定义 离散随机变量X的熵H(X)定义为 \[H(X) = -\sum_{x\in\mathcal{X}}p(x)\ \text{log}\ p(x).\tag{2.156}\]
H 的属性
-
\(H(X) \ge 0\)。
-
\(H_b(X) = (log_b^a)H_a(X)\)。
-
(条件作用减少熵) 对于任意两个随机变量X和Y,有 \[H(X|Y) \le H(X)\tag{2.157}\] 当且仅当X和Y独立时,等式成立。
-
\(H(X_1,X_2,\dots,X_n) \le \sum_{i=1}^n H(X_i)\),当且仅当\(X_i\)独立时,等式成立。
-
\(H(X) \le \text{log}\ |\mathcal{X}|\),当且仅当X时\(mathcal{X}\)熵的均匀分布时,等式成立。
-
H(p)在p中是凹函数。
定义 概率质量函数p相对于概率质量函数q的相对熵D(pq)由下式定义:
\[D(p||q) = \sum_x p(x)\ \text{log}\frac{p(x)}{q(x)}.\tag{2.158}\]
定义 两个随机变量X和Y之间的互信息定义为 \[I(X;Y) = \sum_{x\in\mathcal{X}}\sum_{y\in\mathcal{Y}}p(x,y)\ \text{log}\ \frac{p(x,y)}{p(x)p(y)}.\tag{2.159}\]
其他表达方式
\[H(X) = E_p\ \text{log}\frac{1}{p(X)},\tag{2.160}\]
\[H(X,Y) = E_p\ \text{log}\frac{1}{p(X,Y)},\tag{2.161}\]
\[H(X|Y) = E_p\ \text{log}\frac{1}{p(X|Y)},\tag{2.162}\]
\[I(X;Y) = E_p\ \text{log}\frac{p(X,Y)}{p(X)p(Y)},\tag{2.163}\]
\[D(p||q) = E_p \ \text{log}\frac{p(X)}{q(X)}.\tag{2.164}\]
D 和 I 的性质
-
- \(I(X;Y) = H(X) - H(X|Y) = H(Y) -H(Y|X) = H(X) + H(Y) - H(X,Y).\)
-
- \(D(p||q) \ge 0\),当且仅当,对于所有\(x\in\mathcal{X}\),\(p(x)=q(x)\)时,等式成立。
-
- \(I(X;Y) = D(p(x,y)||p(x)p(y)) \ge 0\),当且仅当\(p(x,y) = p(x)p(y)\)(即X和Y独立)时,等式成立。
-
- 若\(|\mathcal{X}|\),且u是\(\mathcal{X}\)上的均匀分布,那么\(D(p||u) = \text{log}\ m - H(p)\)。
-
- \(D(p||q)\)在对\((p,q)\)中是凸性的。
链式法则 熵:\(H(X_1,X_2,\dots,X_n) = \sum_{i=1}^n H(X_i|X_{i-1},\dots,X_1)\)。 互信息:\(I(X_1,X_2,\dots,X_n;Y) = \sum_{i=1}^n I(X_i;Y|X_1,X_2,\dots,X_{i-1})\)。 相对熵:\(D(p(x,y)||q(x,y)) = D(p(x)||q(x)) + D(p(y|x)||q(y|x))\)。
Jensen不等式。若f是凸函数,那么\(Ef(x)\ge f(EX)\)。
对数和不等式。对于n个整数,\(a_1,a_2,\dots,a_n\)和\(b_1,b_2,\dots,b_n\), \[ \sum_{i=1}^n a_i \ \text{log}\frac{a_i}{b_i} \ge \Big(\sum_{i=1}^n a_i\Big)\text{log}\frac{\sum_{i=1}^n a_i}{\sum_{i=1}^n b_i}\tag{2.165} \] 当且仅当\(\frac{a_i}{b_i} = \text{const}\)时,等式成立。
数据处理不等式。 若\(X\rightarrow Y\rightarrow Z\)形成马尔科夫链,\(I(X;Y)\ge I(X;Z)\)。
充分统计量。T(X)相对于\(\{f_{\theta}(x)\}\)是充分的,当且仅当\(I(\theta;X) = I(\theta;T(x))\),对于\(\theta\)上的全部分布。
法诺不等式。设\(P_e = Pr\{\hat{X}(Y)\ne X\}\)。那么 \[H(P_e) + P_e\ \text{log} |\mathcal{X}| \ge H(X|Y). \tag{2.166}\]
不等式。若X和X’独立同分布,那么 \[Pr(X = X’) \ge 2^{-H(X)}, \tag{2.167}\]