充分统计量
本节将侧重展示数据处理不等式在阐明统计学中一个重要概念方面的作用。假设我们有一个概率质量函数族 {\(f_{\theta}(x)\)},其指标为 θ,X 是该族中某个分布的样本。T (X) 是任意统计量(样本函数),例如样本均值或样本方差。然后,\(\theta \rightarrow X \rightarrow T (X)\),根据数据处理不等式,我们有
\[I(\theta; T(X)) \le I(\theta; X)\tag{2.123}\]
对于\(\theta\)上的任意分布。若等号成立,则没有信心丢失。
如果统计量 T(X) 包含 X 中关于 θ 的所有信息,则称其为θ的充分统计量。
定义 如果对于 θ 上的任意分布,给定 T(X),X 与 θ 无关,则函数 T(X) 被称为关于族 {fθ(x)} 的充分统计量[即 θ → T(X) → X 形成马尔可夫链]。
这与数据处理不等式中的相等条件相同,
\[I(\theta;X) = I(\theta;T(X))\tag{2.124}\]
对于\(\theta\)上的所有分布。因此,充分的统计数据可以保留相互的信息,反之亦然。
以下是一些充分统计的例子:
-
1.设\(X_1,X_2,\dots,X_n,\ X_i\in \{0,1\}\),为未知参数\(\theta = Pr(X_i=1)\)的硬币的独立同分布(i.i.d)抛硬币序列。给定n,序列中1的数量是\(\theta\)的充分统计量。这里\(T(X_1,X_2,\dots,X_n) = \sum_{i=1}^n X_i\)。事实上,我们可以证明,给定T,所有包含那么多 1 的序列都具有相同的概率,并且与参数 θ 无关。具体来说,
\begin{align} Pr\ \Big\{(X_1,X_2,\dots,X_n) = (x_1,x_2,\dots,x_n)\big|\sum_{i=1}^n X_i = k\Big\} \\ = \begin{cases} &\frac{1}{\begin{pmatrix}n\\k \end{pmatrix}}\quad&\text{若}\sum x_i = k, \\ &\ 0&\text{否则.} \end{cases} \tag{2.125} \end{align}
因此,\(\theta \rightarrow X_i \rightarrow (X_1,X_2,\dots,X_n)\)形成马尔科夫链,且T是\(\theta\)的充分统计量。
接下来两个例子涉及概率密度而不是概率质量函数,但该定理仍然可用。我们在第8章定义连续随机变量的熵和互信息。
-
2.若X是均值为\(\theta\),方差为1的正态分布。即,若
\[f_{\theta}(x) = \frac{1}{\sqrt{2\pi}}e^{-(x-\theta)^2/2} = N(0,1),\tag{2.126}\]
且\(X_1,X_2,\dots,X_n\)是根据此分布抽取,\(\theta\)的充分统计量是样本均值\(\overline{X_n}= \frac{1}{n}\sum_{i=1}^n X_i\)。可以证明,\(X_1,X_2,\dots,X_n\)的条件分布,在\(\overline{X_n}\)和n的条件下,并不依赖于\(\theta\)。
-
- 若\(f_{\theta} = \text{Uniform}(\theta,\theta+1)\),\(\theta\)的充分统计量是 \begin{align} T(X_1,&X_2,\dots,X_n)\\ &= (\text{max}\{X_1,X_2,\dots,X_n\}, \text{min}\{X_1,X_2,\dots,X_n\}).\tag{2.127} \end{align}
证明这一点稍微复杂一些,但可以再次证明,在给定统计量T的情况下,数据的分布与参数无关。
最小充分统计量是所有其他充分统计量的函数。
定义 如果统计量 T (X) 是其他所有充分统计量 U 的函数,则它相对于 {fθ(x)} 是最小充分统计量。用数据处理不等式来解释,这意味着
\[\theta \rightarrow T(X) \rightarrow U(X)\rightarrow X. \tag{2.128}\]
因此,最小充分统计量会最大限度地压缩样本中关于θ的信息。其他充分统计量可能包含其他无关信息。例如,对于均值为θ的正态分布,给出所有奇数样本均值和所有偶数样本均值的函数对是充分统计量,但不是最小充分统计量。在前面的例子中,充分统计量也是最小的。