$\gdef \vec#1{\boldsymbol{#1}} \\ \gdef \rank {\mathrm{rank}} \\ \gdef \det {\mathrm{det}} \\ \gdef \Bern {\mathrm{Bern}} \\ \gdef \Bin {\mathrm{Bin}} \\ \gdef \Mn {\mathrm{Mn}} \\ \gdef \Cov {\mathrm{Cov}} \\ \gdef \Po {\mathrm{Po}} \\ \gdef \HG {\mathrm{HG}} \\ \gdef \Geo {\mathrm{Geo}}\\ \gdef \N {\mathrm{N}} \\ \gdef \LN {\mathrm{LN}} \\ \gdef \U {\mathrm{U}} \\ \gdef \t {\mathrm{t}} \\ \gdef \F {\mathrm{F}} \\ \gdef \Exp {\mathrm{Exp}} \\ \gdef \Ga {\mathrm{Ga}} \\ \gdef \Be {\mathrm{Be}} \\ \gdef \NB {\mathrm{NB}}$
「十分統計量」ですか。
『十分な』情報をもった統計量、という感じでしょうか?
ニュアンス的にはその通りです。
まず復習ですが、「統計量」とは観測データから構成される量、でしたね。
そうでした!
例えばある分布に従う$3$つの確率変数$X_1, X_2, X_3$について、
$(X_1, X_2, X_3)$自体も統計量ですが、${\bar X}=\frac{X_1+X_2+X_3}{3}$も統計量です。
確かに${\bar X}$も観測データ$X_1, X_2, X_3$から構成される量ですもんね。
はい。そして本題の「十分統計量」とは、分布パラメータについての情報を十分にもった統計量です。
1. 十分統計量
(定義)
確率変数$X_1, \ldots, X_n$に対して、$T={\small (X_1, \ldots, X_nの関数)}$とした時、
$$\begin{aligned} 『Tが分布パラメ&ータ\thetaの十分統計量』 \\ &\Updownarrow \\ 『Pr\{ X_1, \ldots, X_n | T=t \}が&分布パラメータ\thetaに依存しない』 \end{aligned}$$となります。
これだけではなかなかイメージしにくいかと思うので、以下の例でイメージを確立してください。
例題1.
『確率$p~{\small (0 \leqq p \leqq 1)}$で「$1$」を、確率$(1-p)$で「$0$」を引く』というベルヌーイ試行を$n$回行うとする。各試行における点数を$X_i~{\small (i=1, \ldots, n)}$として、その合計を$Y(=\sum_{i=1}^{n}X_i)$とする。
この時、$Y$は$p$の十分統計量となっているかを確認せよ。
解答.
$Pr\{ X_1=x_1, \ldots, X_n=x_n \}, Pr\{ Y=y \}$を考えると、
$$\begin{aligned} Pr\{ X_1=x_1, \ldots, X_n=x_n \} &= p^{\sum_{i=1}^{n} x_i} \cdot (1-p)^{n-\sum_{i=1}^{n} x_i} \\[10px] Pr\{ Y=y \} &= \binom{n}{y} \cdot p^{y} \cdot (1-p)^{n-y} \end{aligned}$$となる。
・$y = \sum_{i=1}^{n} x_i$である時
$Pr\{ X_1=x_1, \ldots, X_n=x_n | Y=y \}$は、
$$\begin{aligned} Pr\{ X_1=x_1, \ldots, X_n=x_n | Y=y \} &= \dfrac{Pr\{ X_1=x_1, \ldots, X_n=x_n, Y=y \}}{Pr\{ Y=y \}} \\[10px] &= \dfrac{Pr\{ X_1=x_1, \ldots, X_n=x_n \}}{Pr\{ Y=y \}} \\ &{\scriptsize (X_1=x_1, \ldots, X_n=x_nが定まれば自動的にY=yは定まる)} \\[10px] &= \dfrac{p^{\sum_{i=1}^{n} x_i} \cdot (1-p)^{n-\sum_{i=1}^{n} x_i}}{\binom{n}{y} \cdot p^{y} \cdot (1-p)^{n-y}} \\[10px] &= \dfrac{p^{y} \cdot (1-p)^{n-y}}{\binom{n}{y} \cdot p^{y} \cdot (1-p)^{n-y}} \\[10px] &= \dfrac{1}{\binom{n}{y}} \end{aligned}$$となるため、$p$を含まない。
・$y \neq \sum_{i=1}^{n} x_i$である時
$Pr\{ X_1=x_1, \ldots, X_n=x_n | Y=y \}$は、
$$\begin{aligned} Pr\{ X_1=x_1, \ldots, X_n=x_n | Y=y \} &= \dfrac{Pr\{ X_1=x_1, \ldots, X_n=x_n, Y=y \}}{Pr\{ Y=y \}} \\[10px] &= \dfrac{0}{Pr\{ Y=y \}} \\ &{\scriptsize (Y=\sum_{i=1}^{n}X_iと定義されており、y \neq \sum_{i=1}^{n} x_iである時分子は0になる)} \\[10px] &= 0 \end{aligned}$$となるため、$p$を含まない。
以上より、$Y$は$p$の十分統計量である。
つまり、$Y$は$p$についての情報を十分にもっている、ということです。
$Y=\sum_{i=1}^{n} X_i$と観測データを集約したことで、「$1$」「$0$」の並び順という情報は抜け落ちてしまいましたが、この『並び順』は$p$の推定には不要な情報でした。
2. フィッシャー・ネイマンの分解定理
(定理)
・確率ベクトル$\vec X(=(X_1, \ldots, X_n))$
・$T$:($X_1, \ldots, X_n$の関数)
・$P(\vec x)$:$\vec X$の確率関数(確率密度関数)
である時、
$$\begin{aligned} 『Tが分布パラメ&ータ\thetaの十分統計量』 \\ &\Updownarrow \\ 『P(\vec x) = \underbrace{Q_{\theta}(t)}_{\thetaを含み \\ (tを通してしか) \\ \vec xを含まない} &\cdot \underbrace{R(\vec x)}_{\thetaを含まず \\ \vec xを含む} 、の形に分解できる』 \end{aligned}$$となります。
- ある統計量が十分統計量であるかを判定する時、十分統計量の定義から確認しようと思うと、$Pr\{ X_1, \ldots, X_n | T=t \}$を逐一計算する必要があり面倒です。
「(フィッシャー・ネイマンの)分解定理」を用いることで、この計算の手間を省くことができます。
こちらもなかなかイメージが湧きにくいかと思うので、以下の例でイメージを確立してください。
例題2.
$X_i \overset{i.i.d}\sim \Po(\lambda) ~~ {\small (i=1, \ldots, n)}$である時、$\lambda$の十分統計量を$1$つ挙げよ。
ただし、$\Po(\lambda)$の確率関数$P(x)$は、
$$\begin{aligned} P(x) = \dfrac{\lambda^x e^{-\lambda}}{x!} \end{aligned}$$である。
解答.
$Pr\{ X_1=x_1, \ldots, X_n=x_n \}$を考えると、
$$\begin{aligned} Pr\{ X_1=x_1, \ldots, X_n=x_n \} &= \prod_{i=1}^{n} P(x_i) \\ &\scriptsize{(X_i ~{\small (i=1, \ldots, n)}{\scriptsize の独立性より})} \\[10px] &= \prod_{i=1}^{n} \dfrac{\lambda^{x_i} e^{-\lambda}}{x_i!} \\[10px] &= \lambda^{- \sum_{i=1}^{n} x_i} \cdot e^{-n\lambda} \cdot \dfrac{1}{\prod_{i=1}^{n} x_i!} \\[10px] &= \underbrace{(\lambda^{-t} \cdot e^{-n\lambda})}_{\lambdaを含み \\ (tを通してしか) \\ \vec xを含まない} \cdot \underbrace{\dfrac{1}{\prod_{i=1}^{n} x_i!}}_{\lambdaを含まず \\ \vec xを含む} \\ &{\scriptsize (ただし、t=\sum_{i=1}^{n} x_i、とおいた)} \end{aligned}$$と分解される。
よって、(フィッシャー・ネイマンの)分解定理より$T=\sum_{i=1}^{n} X_i$は$\lambda$の十分統計量である。
- 例題2では『$\lambda$の十分統計量を$1$つ挙げよ』としていましたが、『$1$つ』としていたのは一般に十分統計量は$1$つに定まるものではないためです。
例えば例題2において、$T_1=\sum_{i=1}^{n^{\prime}} X_i, T_2 = \sum_{i=n^{\prime}+1}^{n} X_i ~~{\small (n^{\prime} \in \mathbb{N}, 1 \lt n^{\prime} \lt n)}$とすると、
$$\begin{aligned} Pr\{ X_1=x_1, \ldots, X_n=x_n \} &= \underbrace{(\lambda^{-(t_1 + t_2)} \cdot e^{-n\lambda})}_{\lambdaを含み \\ (t_1,t_2を通してしか) \\ \vec xを含まない} \cdot \underbrace{\dfrac{1}{\prod_{i=1}^{n} x_i!}}_{\lambdaを含まず \\ \vec xを含む} \end{aligned}$$と分解されるので、(フィッシャー・ネイマンの)分解定理より$(T_1, T_2)$も$\lambda$の十分統計量となります。
さらには、
$$\begin{aligned} Pr\{ X_1=x_1, \ldots, X_n=x_n \} &= \underbrace{(\lambda^{- \sum_{i=1}^{n} x_i} \cdot e^{-n\lambda})}_{\lambdaを含み \\ (x_1, \ldots, x_nを通してしか) \\ \vec xを含まない} \cdot \underbrace{\dfrac{1}{\prod_{i=1}^{n} x_i!}}_{\lambdaを含まず \\ \vec xを含む} \end{aligned}$$と分解されるので、(フィッシャー・ネイマンの)分解定理より$(X_1, \ldots, X_n)$も十分統計量となります。
例題3.
$X_i \overset{i.i.d}\sim \U[a,b] ~~ {\small (i=1, \ldots, n)}$である時、$(a,b)$の十分統計量を$1$つ挙げよ。
ただし、$\U[a,b]$の確率関数$P(x)$は、
$$\begin{aligned} P(x) = \begin{cases} \dfrac{1}{b-a} ~~ (a \leqq x \leqq b) \\[10px] 0 ~~ (otherwise) \end{cases} \end{aligned}$$である。
解答.
$Pr\{ X_1=x_1, \ldots, X_n=x_n \}$を考えると、
$$\begin{aligned} Pr\{ X_1=x_1, \ldots, X_n=x_n \} = \begin{cases} (\dfrac{1}{b-a})^n ~~ (a \leqq x_i \leqq b, ~ \forall i) \\[10px] 0 ~~ (otherwise) \end{cases} \end{aligned}$$である。
ここで指示関数*$I[\mathrm{max} ~ x_i \leqq b], I[\mathrm{min} ~ x_i \geqq a]$を用いると、
(*:$[]$内の条件が成立する時に$1$を、成立しない時に$0$を返す関数)
$$\begin{aligned} Pr\{ X_1=x_1, \ldots, X_n=x_n \} &= (\dfrac{1}{b-a})^n \cdot I[\max x_i \leqq b] \cdot I[\min x_i \geqq a] \\[10px] &= \{ (\dfrac{1}{b-a})^n \cdot I[\max x_i \leqq b] \cdot I[\min x_i \geqq a] \} \cdot 1 \\[10px] &= \underbrace{\{ (\dfrac{1}{b-a})^n \cdot I[t_1 \leqq b] \cdot I[t_2 \geqq a] \}}_{(a,b)を含み \\ (t_1,t_2を通してしか) \\ \vec xを含まない} \cdot \underbrace{1}_{(a,b)を含まず \\ \vec xを含む} \\ &{\scriptsize (ただし、t_1=\max x_i, t_2=\min x_i、とおいた)} \end{aligned}$$と分解される。
よって、(フィッシャー・ネイマンの)分解定理より$(T_1, T_2)=(\max ~ X_i, \min ~ X_i)$は$(a,b)$の十分統計量である。
例題4.
$X_i \overset{i.i.d}\sim \N(\mu, \sigma^2) ~~ {\small (i=1, \ldots, n)}$である時、$(\mu, \sigma^2)$の十分統計量を$1$つ挙げよ。
ただし、$\N(\mu, \sigma^2)$の確率密度関数$f(x)$は、
$$\begin{aligned} f(x) = \dfrac{1}{\sqrt{2 \pi \sigma^2}} \exp[-\dfrac{(x-\mu)^2}{2 \sigma^2}] \end{aligned}$$である。
解答.
$Pr\{ X_1=x_1, \ldots, X_n=x_n \}$を考えると、
$$\begin{aligned} Pr\{ X_1=x_1, \ldots, X_n=x_n \} &= \prod_{i=1}^{n} f(x_i) \\ &\scriptsize{(X_i ~(i=1, \ldots, n)の独立性より)} \\[10px] &= \prod_{i=1}^{n} \dfrac{1}{\sqrt{2 \pi \sigma^2}} \exp[-\dfrac{(x_i-\mu)^2}{2 \sigma^2}] \\[10px] &= \dfrac{1}{(2 \pi \sigma^2)^{\frac{n}{2}}} \exp[-\dfrac{\sum_{i=1}^{n}(x_i-\mu)^2}{2 \sigma^2}] \\[10px] &= \dfrac{1}{(2 \pi \sigma^2)^{\frac{n}{2}}} \exp[-\dfrac{\sum_{i=1}^{n}(x_i-{\bar x_n})^2 + n({\bar x_n}-\mu)^2}{2 \sigma^2}] \\ &{\scriptsize (\sum_{i=1}^{n}(x_i-\mu)^2 = \sum_{i=1}^{n}(x_i-{\bar x_n})^2 + n({\bar x_n}-\mu)^2)} \\[10px] &= \underbrace{\{ \dfrac{1}{(2 \pi \sigma^2)^{\frac{n}{2}}} \exp[-\dfrac{\sum_{i=1}^{n}(x_i-{\bar x_n})^2}{2 \sigma^2}] \cdot \exp[-\dfrac{n({\bar x_n}-\mu)^2}{2 \sigma^2}] \}}_{(\mu, \sigma^2)を含み \\ ({\bar x_n}, \sum_{i=1}^{n}(x_i-{\bar x_n})^2を通してしか) \\ \vec xを含まない} \cdot \underbrace{1}_{(\mu,\sigma^2)を含まず \\ \vec xを含む} ~~~~~ \mathrm{(A)} \\[10px] &= \underbrace{\{ \dfrac{1}{(2 \pi \sigma^2)^{\frac{n}{2}}} \exp[-\dfrac{(n-1) \cdot \frac{1}{n-1} \sum_{i=1}^{n}(x_i-{\bar x_n})^2}{2 \sigma^2}] \cdot \exp[-\dfrac{n({\bar x_n}-\mu)^2}{2 \sigma^2}] \}}_{(\mu, \sigma^2)を含み \\ ({\bar x_n}, \frac{1}{n-1} \sum_{i=1}^{n}(x_i-{\bar x_n})^2を通してしか) \\ \vec xを含まない} \cdot \underbrace{1}_{(\mu,\sigma^2)を含まず \\ \vec xを含む} ~~~~~ \mathrm{(B)} \end{aligned}$$と分解される。
よって、$\mathrm{(A)}$と(フィッシャー・ネイマンの)分解定理より$({\bar X_n}, \sum_{i=1}^{n}(X_i-{\bar X_n})^2)$は$(\mu, \sigma^2)$の十分統計量である。
また、$\mathrm{(B)}$と(フィッシャー・ネイマンの)分解定理より$({\bar X_n}, \frac{1}{n-1} \sum_{i=1}^{n}(X_i-{\bar X_n})^2)$も$(\mu, \sigma^2)$の十分統計量である。
3. 十分統計量について覚えておくべき性質
性質.
分布パラメータ$\theta$の十分統計量$T_1$と$1:1$対応する$T_2(=g(T_1))$がある時、$T_2$も$\theta$の十分統計量である。
例えば、例題4で$({\bar X_n}, \sum_{i=1}^{n}(X_i-{\bar X_n})^2)$は$(\mu, \sigma^2)$の十分統計量でしたが、
これと$({\bar X_n}, \frac{1}{n-1} \sum_{i=1}^{n}(X_i-{\bar X_n})^2)$は$1:1$対応するので、
$({\bar X_n}, \frac{1}{n-1} \sum_{i=1}^{n}(X_i-{\bar X_n})^2)$も$(\mu, \sigma^2)$の十分統計量であることはすぐにわかります。
以下では証明を$2$つ準備しています。
(証明1:定義を用いた証明)
$Pr \{ X_1=x_1, \ldots, X_n=x_n | T_2=t_2 \}$について、
$$\begin{aligned} Pr \{ X_1=x_1, \ldots, X_n=x_n | T_2=t_2 \} &= Pr \{ X_1=x_1, \ldots, X_n=x_n | g^{-1}(T_2)=g^{-1}(t_2) \} \\[10px] &= Pr \{ X_1=x_1, \ldots, X_n=x_n | T_1=t_1 \} \\ &{\scriptsize (t_1=g^{-1}(t_2)とおいた)} \end{aligned}$$となる。
$T_1$が$\theta$の十分統計量であることから$Pr \{ X_1=x_1, \ldots, X_n=x_n | T_1=t_1 \}$は$\theta$に依存しないため、上式より$Pr \{ X_1=x_1, \ldots, X_n=x_n | T_2=t_2 \}$も$\theta$に依存せず、$T_2$は$\theta$の十分統計量となる。
(証明2:分解定理を用いた証明)
$T_1$が$\theta$の十分統計量であるから(フィッシャー・ネイマンの)分解定理より、
$Pr\{ X_1=x_1, \ldots, X_n=x_n \} = Q_{\theta}(t_1) \cdot R(\vec x)$と分解できるが、 $Q_{\theta}(t_1) = Q_{\theta}(g^{-1}(t_2))$となるため、
$$\begin{aligned} Pr\{ X_1=x_1, \ldots, X_n=x_n \} = \underbrace{Q_{\theta}(g^{-1}(t_2))}_{\thetaを含み \\ (t_2を通してしか) \\ \vec xを含まない} \cdot \underbrace{R(\vec x)}_{\thetaを含まず \\ \vec xを含む} \end{aligned}$$と分解できる。
よって、十分統計量の定義から$T_2$も$\theta$の十分統計量である。
まとめ.
- 「十分統計量」とは、分布パラメータについての情報を十分にもった統計量である。
- ある統計量が(分布パラメータ)の十分統計量であるかを判定するには、十分統計量の定義に基づく判定か、(フィッシャー・ネイマンの)分解定理に基づく判定をする。
- (分布パラメータの)十分統計量$T_1$と$1:1$対応する$T_2$もまた(分布パラメータの)十分統計量である。