对数和不等式及其应用
我们现在证明了对数凹性的一个简单结果,该结果将用于证明熵的一些凹性结果。
定理 2.7.1 (对数和不等式)对于非负数,\(a_1,a_2,\dots,a_n\)和\(b_1,b_2,\dots,b_n\),
\[\sum_{i=1}^n a_i\ \text{log}\ \frac{a_i}{b_i} \ge \big(\sum_{i=1}^n a_i\big)\text{log}\frac{\sum_{i=1}^n a_i}{\sum_{i=1}^n b_i}\tag{2.99}\]
当且仅当\(\frac{a_i}{b_i} = \text{const}\)时,等号成立。
我们再次使用以下约定:\(0\ \text{log}\ 0 = 0\),如果 a > 0,则 \(a\ \text{log}\frac{a}{0} = \infty\),并且\(0\ \text{log}\ \frac{0}{0} = 0\)。这些很容易从连续性中得出。
证明:在不失一般性的前提下,假设\(a_i \gt 0\)和\(b_i\gt 0\)。函数\(f(t) =t \ \text{log}\ t\)是严格凸的,因为\(f’’(t) =\frac{1}{t}\ \text{log}\ e\gt 0\)对于所有正t。因此,根据Jensen不等式,我们有
\[\sum\alpha_if(t_i) \ge f(\sum\alpha_it_i)\tag{2.100}\]
对于\(\alpha_i \ge 0, \sum_i\alpha_i = 1\)。设\(\alpha_i = \frac{b_i}{\sum_{j=1}^n b_j}\)且\(t_i = \frac{a_i}{b_i}\),得到
\[\sum\frac{a_i}{\sum b_j}\text{log}\frac{a_i}{b_i} \ge \sum\frac{a_i}{\sum b_j}\text{log}\sum\frac{a_i}{\sum b_j}, \tag{2.101}\]
即对数和不等式。
我们现在使用对数和不等式来证明各种凸性结果。我们首先重新证明定理2.6.3,该定理指出D(p||q)≥0,当且仅当p(x)=q(x)时,等号成立。根据对数和不等式,
\begin{align} D(p||q) &= \sum p(x)\ \text{log}\frac{p(x)}{q(x)} \tag{2.102}\\ &\ge (\sum p(x))\text{log}\sum p(x) / sum q(x) \tag{2.103}\\ &= 1\ \text{log}\ \frac{1}{1} = 0 \tag{2.104} \end{align}
当且仅当 \(\frac{p(x)}{q(x)} = c\)时,等号成立。由于p和q都是概率质量函数,c=1,因此,当且仅当对于所有x,\(p(x) = q(x)\)时,\(D(p||q) = 0\)。
定理 (相对熵的凸性) \(D(p||q)\) 在对 (p, q) 中是凸的;即,如果\((p_1,q_1)\)和\((p_2,q_2)\)时两对概率质量函数,那么
\[D(\lambda p_1 + (1-\lambda)p_2||\lambda q_1 + (1-\lambda)q_2) \le \lambda D(p_1||q_1) + (1-\lambda)D(p_2||q_2) \tag{2.105}\]
对于所有\(0 \le \lambda \le 1\)。
证明:我们在(2.105)左侧项应用对数和不等式: \begin{align} (\lambda p_1(x) + (1-\lambda)p_2(x))\text{log}\frac{\lambda p_1(x) + (1-\lambda)p_2(x)}{\lambda q_1(x) + (1-\lambda)q_2(x)}\\ \le \lambda p_1(x)\text{log}\frac{\lambda p1(x)}{\lambda q_1(x)} + (1-\lambda)p_2(x)\text{log}\frac{(1-\lambda)p_2(x)}{(1-\lambda)q_2(x)}.\tag{2.106} \end{align}
将其对所有 x 求和,我们得到所需的属性。
定理 2.7.3 (熵的凹性) H(p)是p的凹函数。
证明
\[H(p) = \text{log}\ |\mathcal{X}| - D(p||u), \tag{2.107}\]
其中,u是\(|\mathcal{X}|\)结果上的均匀分布。H的凹性直接来自D的凸性。
替代证明:设\(X_1\)是分布为\(p_1\)的随机变量,取值在集合A上。设\(X_2\)为同一集合上分布为\(p_2\)的另一随机变量。令
\[ \theta = \begin{cases} &1\quad \text{概率}\lambda,\\ &2\quad \text{概率}1 -\lambda. \end{cases} \tag{2.108} \]
设 \(Z = X_{\theta}\)。那么Z的分布是\(\lambda p_1) + (1-\lambda)p_2\)。由于条件作用减少熵,我们得到
\[H(Z) \ge H(Z|\theta), \tag{2.109}\]
或等价地,
\[H(\lambda p_1 + (1-\lambda)p_2) \ge \lambda H(P_1) + (1-\lambda)H(p_2), \tag{2.110}\]
证明了熵作为分布函数的凹性。
熵凹性的一个后果是,混合两种熵相等的气体会产生熵更高的气体。
定理 2.7.4 设\((X,Y) \sim p(x,y) = p(x)p(y|x)\)。固定p(y|x),互信息I(X;Y)是p(x)的凹函数;固定p(x),I(X;Y)是p(y|x)的凸函数。
证明: 为证明第一部分,我们展开互信息 \[I(X;Y) = H(Y) - H(Y|X) = H(Y) - \sum_{x}p(x)H(Y|X=x).\tag{2.111}\]
如果p(y|x)固定,那么p(y)是p(x)的线性函数。因此,作为p(y)的凹函数的H(Y),也是p(x)的凹函数。第二项是p(x)的线性函数。因此,差值是p(x)的凹函数。
为证明第二部分,我们固定p(x),并考虑两个不同的条件分布\(p_1(y|x)\)和\(p_2(y|x)\)。相应的联合分布是\(p_1(x,y) = p(x)p_1(y|x)\)和\(p_2(x,y) = p(x)p_2(y|x)\),以及它们各自的边缘是\(p(x), p_1(y)\)和\(p(x), p_2(y)\)。考虑条件分布
\[p_{\lambda}(y|x) = \lambda p_1(y|x) + (1-\lambda)p_2(y|x),\tag{2.112}\]
是\(p_1(y|x)\)和\(p_2(y|x)\)的混合,其中\(0\le \lambda\le 1\)。相应的联合分布也是相应联合分布的混合
\[p_{\lambda}(x,y) = \lambda p_1(x,y) + (1-\lambda)p_2(x,y), \tag{2.113}\]
且,Y的分布也是一个混合, \[p_{\lambda}(y) = \lambda p_1(y) + (1-\lambda)p_2(y).\tag{2.114}\]
如果我们令边缘分布的乘积为\(q_{\lambda}(x,y) = p(x)p_{\lambda}(y)\),得到
\[q_{\lambda}(x,y) = \lambda q_1(x,y) + (1-\lambda)q_2(x,y). \tag{2.115}\]
由于互信息是联合分布和边缘乘积的相对熵, \[I(X;Y) = D(p_{\lambda}(x,y)||q_{\lambda}(x,y)), \tag{2.116}\]
以及相对熵\(D(p||q)\)是(p,q)的凸函数,得到互信息是条件分布的凸函数。