渐近均分性质
在信息论中,大数定律的类似物是渐近均分性质(AEP)。它是弱大数定律的直接推论。大数定律指出,对于独立同分布(i.i.d)随机变量,当n值较大时,\(\frac{1}{n}\sum_{i=1}^n X_i\)接近其期望值EX。AEP指出,\(\frac{1}{n}\frac{1}{p(X_1,X_2,\dots,X_n)}\)接近其熵H,其中\(X_1,X_2,\dots,X_n\)是i.i.d随机变量,\(p(X_1,X_2,\dots,X_n)\)是观测序列\(X_1,X_2,\dots,X_n\)的概率。因此,分配给观察序列的概率\(p(X_1,X_2,\dots,X_n)\),将接近 \(2^{−nH}\)。
这样,我们就可以将包含所有序列的集合分为两组:典型序列集,其中样本熵接近真实熵;非典型序列集,包含其他序列。我们的大部分注意力将集中在典型序列上。任何针对典型序列证明的性质都将以高概率成立,并将决定大样本的平均行为。
首先,一个示例。设随机变量\(X\in\{0,1\}\)的概率质量函数,定义为\(p(1) = p\),和\(p(0) = q\)。若\(X_1,X_2,\dots,X_n\)服从\(p(x)\)独立同分布,序列\(x_1,x_2,\dots,x_n\)的概率是\(\prod_{i=1}^n p(x_i)\)。例如,序列(1,0,1,1,0,1)的概率是\(p^{\sum X_i}q_{n - \sum X_i} = p^4q^2\)。很明显,长度为 n的\(2^n\)个序列不是有同样的概率。
然而,我们或许能够预测我们实际观测到的序列的概率。我们求解输出\(X_1,X_2,\dots,X_n\)的概率\(p(X_1,X_2,\dots,X_n)\),其中\(X_1,X_2,\dots,\)是服从p(x)的独立同分布。这是隐秘的自我指涉,但定义却很明确。显然,我们在求解抽取自同一概率分布的事件的概率。这里证明,\(p(X_1,X_2,\dots,X_n)\)以高概率接近\(2^{-nH}\)。
我们总结道:“几乎所有事件都同样令人惊讶。” 也就是说
\[Pr\big\{(X_1,X_2,\dots,X_n): p(X_1,X_2,\dots,X_n) = 2^{-n(H\pm \epsilon)}\big\} \approx 1\tag{3.1}\]
若\(X_1,X_2,\dots,X_n\)是服从p(x)的独立同分布。
刚才的例子中,\(p(X_1,X_2,\dots,X_n) = p^{\sum X_i}q^{n - \sum X_i}\),简单说是,序列中1的数量接近np个(具有高概率),且全部这种序列有(粗略地)同样的概率\(2^{-nH(p)}\)。我们使用概率收敛思想,定义如下:
定义 (随机变量收敛)。给定随机变量序列,\(X_1,X_2,\dots\),我们说序列\(X_1,X_2,\dots\),收敛到随机变量X:
- 若对于每个\(\epsilon \ge 0\),概率\(Pr\{|X_n - X|\} \ge \epsilon) \rightarrow 0\)
- 若均方\(E(X_n - X)^2 \rightarrow 0\)
- 具有概率1(也称几乎确定),若\(Pr\{\text{lim}_{n\rightarrow\infty} X_n = X\} = 1\)