統計学

極限定理(確率収束、分布収束、大数の(弱)法則、中心極限定理)

$ \gdef \vec#1{\boldsymbol{#1}} \gdef \rank {\mathrm{rank}} \gdef \det {\mathrm{det}}$

すたどく

今回は大きく以下2つのテーマを扱います。
ⅰ. nを増やした時の確率変数の収束
ⅱ. nを増やした時の標本平均の収束

学習者

なんだか少し抽象的な印象ですね。。

すたどく

具体的にはⅰに対応するものとして、
①. 確率収束
②. 分布収束

を、ⅱに対応するものとして、
③. 大数の(弱)法則
④. 中心極限定理

を扱います。

(準備)

  • 「平均$\mu$、分散$\sigma^2$の任意の分布」が出現しますが、これを”$F~~(E[X] = \mu, V[X] = \sigma^2)$”の様に表現します。

1. 確率収束

(定義)
「確率変数列$\{ X_n \}$がある確率変数$X$に確率収束する」とは、
$$ \begin{aligned} \lim_{n \to \infty} Pr\{ | X_n – X | \gt \varepsilon \} = 0 ~~ (\forall \varepsilon \gt 0) \end{aligned} $$ が成立することです。

すたどく

$n$が十分大きい状況では、任意の正の実数$\varepsilon$に対して$X_n$と$X$の差分はそれより(ほぼ)必ず小さくなる、ということですね。

  • 「確率変数列$\{ X_n \}$がある確率変数$X$に確率収束する」とは、
    $X_n \overset{\displaystyle {p}}\longrightarrow X$“と表現されます。(”$p$”はprobabilityに由来)
    本サイトでも今後はこの表現を使用します。

2. 分布収束

(定義)
「確率変数列$\{ X_n \}$がある確率変数$X$に分布収束する」とは、
$\{ X_n \}, X$の分布関数をそれぞれ$F_n(x), F(x)$とした時に、
$$ \lim_{n \to \infty} F_n(x) = F(x) $$ が$F(x)$の任意の連続点$x$で成立することです。

  • 復習ですが、$$ \begin{aligned} F_n(x) &= Pr\{ X_n \leqq x \} \\ F(x) &= Pr\{ X \leqq x \} \end{aligned} $$でした。
    (参照:<分布関数と母関数>:「分布関数」)

  • 「確率変数列$\{ X_n \}$がある確率変数$X$に分布収束する」とは、
    $X_n \overset{\displaystyle {d}}\longrightarrow F(x)$“(または”$X_n \overset{\displaystyle {d}}\longrightarrow {\small (特定の分布を表す記号)}$“)と表現されます。
    (”$d$”はdistributionに由来)
    本サイトでも今後はこの表現を使用します。

  • 「確率収束」と「分布収束」の関係を確認します。
    ($\{ X_n \}$の)「確率収束」とは「$\{ X_n \}$自体が$n \to \infty$である確率変数に収束」を意味し、
    ($\{ X_n \}$の)「分布収束」とは「$\{ X_n \}$の分布が$n \to \infty$である確率変数の分布に収束」を意味しました。

    実は、「確率収束」の方が「分布収束」よりも強い主張であり、
    「$\{ X_n \}$が$X$に確率収束」$\longrightarrow$「$\{ X_n \}$が$X$に分布収束」は必ず成立しますが、
    「$\{ X_n \}$が$X$に分布収束」$\longrightarrow$「$\{ X_n \}$が$X$に確率収束」は必ずしも成立しません。

3. 大数の(弱)法則

(法則)
確率変数列$\{ X_n \}$に対して、$X_i \overset{i.i.d}\sim F~~(E[X_i] = \mu, V[X_i] = \sigma^2) ~ {\small (i=1, \ldots, n)}$である時、
その標本平均$\bar{X_n} (= \displaystyle \frac{1}{n} \sum_{i=1}^n X_i)$は$\mu$に確率収束します。
即ち、$\bar{X_n} \overset{\displaystyle {p}}\longrightarrow X$

(証明)
確率変数列$\{ X_n \}$に対して、$X_i \overset{i.i.d}\sim F~~(E[X_i] = \mu, V[X_i] = \sigma^2) ~ {\small (i=1, \ldots, n)}$である時、$$ \begin{aligned} Pr\{ |\bar{X_n} – E[\bar{X_n}]| \geqq \varepsilon \} &= \frac{V[\bar{X_n}]]}{\varepsilon^2} ~(\forall \varepsilon) \\ &{\scriptsize (<補足. チェビシェフの不等式>)} \\ &= \frac{\displaystyle \frac{\sigma^2}{n}}{\varepsilon^2} \\ &{\scriptsize (<補足. 標本平均の分散>)} \\ &\overset{ n \to \infty}\longrightarrow 0 \end{aligned}$$
(参照:<補足. チェビシェフの不等式><補足. 標本平均の分散>)

  • 「1. 確率収束」の定義では、確率収束先は「ある確率変数」としていましたが、ここでの確率収束先は$\mu$という定数でした。これは$\mu$を「確率1で$\mu$という値をとる確率変数」とみなせば整合性をとることができます。

例1.
確率変数列$\{ X_n \}$に対して、$X_i \overset{i.i.d}\sim {\small(区間[0, 1]の一様分布)} ~ {\small (i=1, \ldots, n)}$である時、 その標本平均$\bar{X_n}(= \displaystyle \frac{1}{n} \sum_{i=1}^n X_i)$はどの値に確率収束するのかを考える。

区間$[0, 1]$の一様分布の真の平均は明らかに$\displaystyle \frac{1}{2}$であり、 大数の(弱)法則より$$ \begin{aligned} \bar{X_n} \overset{\displaystyle {p}}\longrightarrow \frac{1}{2} \end{aligned}$$となる。

4. 中心極限定理

(定理)
確率変数列$\{ X_n \}$に対して、$X_i \overset{i.i.d}\sim F~~(E[X_i] = \mu, V[X_i] = \sigma^2) ~ {\small (i=1, \ldots, n)}$である時、
その標本平均$\bar{X_n} (= \displaystyle \frac{1}{n} \sum_{i=1}^n X_i)$を標準化した値$\displaystyle \frac{\bar{X_n} – \mu}{\displaystyle \frac{\sigma}{\sqrt n}}$は標準正規分布$\mathrm{N} (0, 1)$に分布収束します。
即ち、$\displaystyle \frac{\bar{X_n} – \mu}{\displaystyle \frac{\sigma}{\sqrt n}} \overset{\displaystyle {d}}\longrightarrow \mathrm{N}(0, 1)$

(証明)
示すべきは、「$Y_n = \displaystyle \frac{\bar{X_n} – \mu}{\displaystyle \frac{\sigma}{\sqrt n}}$が$n \to \infty$の時に標準正規分布$\mathrm{N}(0, 1)$に従う」、
即ち、
「積率母関数$M^{Y_n}(\theta) ~{\small (n \to \infty)}$が標準正規分布$\mathrm{N}(0, 1)$の積率母関数$\exp \left( \displaystyle \frac{\theta^2}{2} \right)$*と一致する」 である。
(*:標準正規分布$\mathrm{N}(0, 1)$の積率母関数が$\exp \left( \displaystyle \frac{\theta^2}{2} \right)$であることは、<連続分布>:「2. 正規分布」を参照ください。厳密には積率母関数が存在する場合を扱っています。)


積率母関数$M^{Y_n}(\theta)$について、$$ \begin{aligned} M^{Y_n}(\theta) &= E[e^{\theta Y_n}] \\[10px] &= E[\exp ( \theta \cdot \displaystyle \frac{\bar{X_n} – \mu}{\displaystyle \frac{\sigma}{\sqrt n}} )] \\[10px] &= E[\exp ( \theta \cdot \displaystyle \frac{ \displaystyle \frac{1}{n} \sum_{i=1}^n(X_i – \mu)}{\displaystyle \frac{\sigma}{\sqrt n}} )] \\[10px] &= E[\exp ( \theta \cdot \displaystyle \frac{ \displaystyle \sum_{i=1}^n(X_i – \mu)}{\sqrt n \sigma} )] \\[10px] &= E[\exp ( \theta \cdot \displaystyle \frac{ \displaystyle \sum_{i=1}^n Z_i}{\sqrt n} )] \\ &{\scriptsize (Z_i = \frac{X_i – \mu}{\sigma}とおいた)} \\[10px] &= \{ E[\exp ( \theta \cdot \displaystyle \frac{ \displaystyle Z_i}{\sqrt n} )] \}^n \\[10px] &= \{ M^{Z_i} (\displaystyle \frac{\theta}{\sqrt n}) \}^n \\[10px] &= \{ M^{Z_i} (0) + \frac{M^{Z_i \prime}(0)}{1!}(\frac{\theta}{\sqrt n}) + \frac{M^{Z_i \prime\prime} (0)}{2!} (\frac{\theta}{\sqrt n})^2) + \cdots \}^n \\[10px] &= \{ 1 + 0 + \frac{1}{2} (\frac{\theta^2}{n}) + O \}^n \\ &{\scriptsize (前式の第4項以降をOとした)} \\[10px] &= \sum_{i=0}^n \binom{n}{i}(1 + \frac{\theta^2}{2n})^{n-i} O^i \\[10px] &= (1 + \frac{\theta^2}{2n})^n + \sum_{i=1}^n \binom{n}{i}(1 + \frac{\theta^2}{2n})^{n-i} O^i \end{aligned}$$ となる。


$n \to \infty$の時、 最終式の$(1 + \displaystyle \frac{\theta^2}{2n})^n$は$\exp \left( \displaystyle \frac{\theta^2}{2} \right)$に収束し、 最終式の$\displaystyle \sum_{i=1}^n \dbinom{n}{i}(1 + \dfrac{\theta^2}{2n})^{n-i} O^i$については、$(1 + \dfrac{\theta^2}{2n})^{n-i}$が定数に収束し$\dbinom{n}{i}, O^i$がそれぞれおおよそ$n^i, (\dfrac{1}{n \sqrt n})^i$と同じ次元となることから、$0$に収束する。


よって$n \to \infty$の時、$M^{Y_n}(\theta)$は$\exp \left( \displaystyle \frac{\theta^2}{2} \right)$に収束するため、題意は示された。

  • 中心極限定理における仮定は、$X_i \overset{i.i.d}\sim F ~~(E[X_i] = \mu, V[X_i] = \sigma^2) ~ {\small (i=1, \ldots, n)}$、であり、 $X_i \overset{i.i.d}\sim \mathrm{N}(0, 1) ~ {\small (i=1, \ldots, n)}$、である必要はないので気をつけてください。

    即ち、$X_i ~(i=1, \ldots, n)$が従う分布型がどのようなものであろうと$$ \begin{aligned} \displaystyle \frac{\bar{X_n} – \mu}{\displaystyle \frac{\sigma}{\sqrt n}} \overset{\displaystyle {d}}\longrightarrow \mathrm{N}(0, 1) \end{aligned}$$ が成立するのです。

  • 「3. 大数の(弱)法則」「4. 中心極限定理」は、確率変数列$\{ X_n \}$の標本平均$\bar{X_n}$の$n \to \infty$における収束、を示したものでした。

    これらによってどんな嬉しいことがあるのでしょうか?

    まず「3. 大数の(弱)法則」については、「$n$(サンプルサイズ)を大きくすれば標本平均$\bar{X_n}$が真の平均$\mu (=E[X_i])$に収束すること」を保証するので、$n$(サンプルサイズ)をある程度大きくとれば標本平均$\bar{X_n}$は真の平均に近いだろうと考えることができます。

    そして「4. 中心極限定理」については、「$n$(サンプルサイズ)を大きくすれば標本平均$\bar{X_n}$を標準化した値$\displaystyle \frac{\bar{X_n} – \mu}{\displaystyle \frac{\sigma}{\sqrt n}}$が$\mathrm{N}(0,1)$に従うこと」を保証するので、これによって正規分布に基づく検定・区間推定を行うことができます。

例2.
ある男性母集団の身長は平均$\mu$、分散$5^2$の分布に従うものとする。
この時、この男性母集団から$100$人をランダムサンプルする。
すると$X_i ~{\small (i=1, \ldots, 100)}$を各人の身長として、$X_i \overset{i.i.d}\sim F~~(E[X_i] = \mu, V[X_i] = 5^2) ~ {\small (i=1, \ldots, 100)}$となる。

この100人のデータから標本平均$\bar{X_n} = 165$と計算された時、$$ \begin{aligned} \displaystyle \frac{165 – \mu}{\displaystyle \frac{5}{\sqrt 100}} \sim \mathrm{N}(0, 1) \end{aligned}$$となる。

(必要であれば、これを用いて$\mu$についての検定・区間推定を行うことができる)

まとめ.

  • 確率変数列$\bar{X_n}$の収束として「確率収束」と「分布収束」があり、前者の方が強い主張である。

  • $n$(サンプルサイズ)を増やした時の標本平均$\bar{X_n}$の収束を保証するものとして、「大数の(弱)法則」と「中心極限定理」がある。

他の記事を参照されたい方はこちら

 サイトマップからお好きな記事をお探しください。