$\gdef \vec#1{\boldsymbol{#1}} \\ \gdef \rank {\mathrm{rank}} \\ \gdef \det {\mathrm{det}} \\ \gdef \Bern {\mathrm{Bern}} \\ \gdef \Bin {\mathrm{Bin}} \\ \gdef \Mn {\mathrm{Mn}} \\ \gdef \Cov {\mathrm{Cov}} \\ \gdef \Po {\mathrm{Po}} \\ \gdef \HG {\mathrm{HG}} \\ \gdef \Geo {\mathrm{Geo}}\\ \gdef \N {\mathrm{N}} \\ \gdef \LN {\mathrm{LN}} \\ \gdef \U {\mathrm{U}} \\ \gdef \t {\mathrm{t}} \\ \gdef \F {\mathrm{F}} \\ \gdef \Exp {\mathrm{Exp}} \\ \gdef \Ga {\mathrm{Ga}} \\ \gdef \Be {\mathrm{Be}} \\ \gdef \NB {\mathrm{NB}}$
「正規近似」とはどういったものでしょうか?
「正規近似」とは『一定の条件の下で分布を正規分布とみなす近似』のことです。
今回扱われる二項分布とポアソン分布は離散分布ですが、一定の条件の下では、連続分布である正規分布に近似できるのですか?
その通りです。また、この『一定の条件』とは、二項分布では$n$が充分大きいこと*、ポアソン分布では$\lambda$が充分大きいことです。実際に下のFigでは、$n$が充分大きい二項分布や$\lambda$が充分大きいポアソン分布の形状は正規分布のそれと類似していることが確認できます。
確かに類似していますね。
ところで、正規近似すると何かよいことがあるのでしょうか?
よい質問ですね。
本来は分布ごとに検定・区間推定の方式は異なりますが、正規近似をすることで取り扱いやすい正規分布の方式を代用できるのがよい点です。
*:実用的には『$n$が充分大きい』を判断する目安として、『$np, n(1-p)$がある程度大きい(諸説ありますが$5$から$10$が目安)』が挙げられます。
(参照:Casella, G. and Berger, R.L. (2001) Statistical Inference.)
1. 二項分布の正規近似
確率変数$X \sim \Bin(n,p)$である時、
- 平均$E[X] = np$
- 分散$V[X] = np(1-p)$
でした。
$n$が充分大きい時*、(正規近似として)$\Bin(n,p)$は$\N(np, np(1-p))$に近似されます。
*:実用的には『$n$が充分大きい』を判断する目安として、『$np, n(1-p)$がある程度大きい(諸説ありますが$5$から$10$が目安)』が挙げられます
$np \geqq 5, n(1-p) \geqq 5$を達成するには$p=0.5$の場合には$n=10$となりますが、$p=0.1$の場合には$n=50$となります。$p=0.5$付近ではゆがみが小さく$p=0,1$付近ではゆがみが大きいため、後者ではより大きな$n$が要求されます。
(正規近似できることの証明)
$Y_i \overset{i.i.d}\sim \Bin(1,p) ~ {\small (i=1,\ldots, n)}$である時、 $$\begin{aligned} X_n = Y_1 + \cdots + Y_n \sim \Bin(n,p) \end{aligned}$$となる。
これは、$X_n=x$となる確率は$Y_1, \ldots, Y_n$のうちいずれか$x$個を$1$として残りを$0$とする確率に等しいためである。($\Bin(1,p)$は$\Bern(p)$に相当し、二項分布の再生性を用いたとも捉えられる)
${\bar Y_n} (= \frac{1}{n} \sum_{i=1}^n Y_i = \frac{X_n}{n})$に対して、$E[Y_i]=p, V[Y_i]=p(1-p)$と中心極限定理より、
$$\begin{alignat}{2} \notag && \dfrac{{\bar Y_n}-p}{\frac{p(1-p)}{{\sqrt n}}} &\overset{\displaystyle {d}}\longrightarrow \N(0,1) \\[10px] \notag &\Rightarrow& {\sqrt n}({\bar Y_n}-p) &\overset{\displaystyle {d}}\longrightarrow \N(0, p(1-p)) \\[10px] \notag &\Rightarrow& {\sqrt n} (\frac{X_n}{n}-p) &\overset{\displaystyle {d}}\longrightarrow \N(0, p(1-p)) \\[10px] \notag&\Rightarrow& \dfrac{1}{{\sqrt n}} (X_n-np) &\overset{\displaystyle {d}}\longrightarrow \N(0, p(1-p)) \\[10px] \notag&\Rightarrow& X_n-np &\overset{\displaystyle {d}}\longrightarrow \N(0, np(1-p)) ~~~~~ \mathrm{(A)} \\[10px] \notag &\Rightarrow& X_n &\overset{\displaystyle {d}}\longrightarrow \N(np, np(1-p)) ~~~~~ \mathrm{(B)} \end{alignat}$$
よって、題意は示された。
(注意:$\mathrm{(A), (B)}$は”$n$”が分布パラメータに含まれてしまっており、分布収束の正式な書き方ではありません。しかし、この書き方をした方が『$\Bin(n,p)$が$\N(np, np(1-p))$に近似されること』を理解しやすいので、この書き方を採用しました。)
以下の例を通じて、二項分布の正規近似の使い方を確認しましょう!
例1.
確率変数$X$を、
- $X$:コインを$10000$回投げる時に表がでる回数
とした時、$Pr\{ X \geqq 5069 \}$を求める。
$X \sim \Bin(10000, \frac{1}{2})$であり、$10000$が充分大きい($10000 \cdot \frac{1}{2}, 10000 \cdot \frac{1}{2} \cdot (1-\frac{1}{2})$がある程度大きい)ため正規近似が使えて、
$$\begin{aligned} X &\sim \N(10000 \cdot \frac{1}{2}, 10000 \cdot \frac{1}{2} \cdot (1-\frac{1}{2})) \\[5px] &= \N(5000, 2500) \end{aligned}$$とみなせる。
$X$を正規化したものを$Y$とおくと、
$$\begin{aligned} Y = \dfrac{X-5000}{\sqrt{2500}} \sim \N(0,1) \end{aligned}$$となるので、
$$\begin{aligned} Pr\{ X \geqq 5069 \} &= Pr\{ Y \geqq \frac{5069-5000}{\sqrt{2500}} \} \\[5px] &= Pr\{ Y \geqq 1.38 \} \\[5px] &= 0.1003 \\ &{\scriptsize (\N(0,1)の正規分布表から)} \end{aligned}$$
2. ポアソン分布の正規近似
確率変数$X \sim \Po(\lambda)$である時、
- 平均$E[X] = \lambda$
- 分散$V[X] = \lambda$
でした。
$\lambda$が充分大きい時、(正規近似として)$\Po(\lambda)$は$\N(\lambda, \lambda)$に近似されます。
(正規近似できることの証明)
(注意:以下は$\lambda$が整数の場合のみ対応しています。より一般的な証明は<補足. ポアソン分布の正規近似の証明>を参照)
$Y_i \overset{i.i.d}\sim \Po(1) ~ {\small (i=1,\ldots, \lambda)}$である時、 $$\begin{aligned} X_{\lambda} = Y_1 + \cdots + Y_{\lambda} \sim \Po(\lambda) \end{aligned}$$となる。(ポアソン分布の再生性より)
${\bar Y_{\lambda}} (= \frac{1}{\lambda} \sum_{i=1}^{\lambda} Y_i = \frac{X_{\lambda}}{\lambda})$に対して、$E[Y_i]=1, V[Y_i]=1$と中心極限定理より、
$$\begin{alignat}{2} \notag && \dfrac{\bar{Y_{\lambda}}-1}{\frac{1}{\sqrt{\lambda}}} &\overset{\displaystyle {d}}\longrightarrow \N(0,1) \\[10px] \notag &\Rightarrow& \sqrt{\lambda} (\bar{Y_{\lambda}}-1) &\overset{\displaystyle {d}}\longrightarrow \N(0,1) \\[10px] \notag &\Rightarrow& \sqrt{\lambda} (\frac{X_{\lambda}}{\lambda}-1) &\overset{\displaystyle {d}}\longrightarrow \N(0,1) \\[10px] \notag &\Rightarrow& \dfrac{1}{\sqrt{\lambda}} (X_{\lambda}-\lambda) &\overset{\displaystyle {d}}\longrightarrow \N(0,1) \\[10px] \notag &\Rightarrow& X_{\lambda}-\lambda &\overset{\displaystyle {d}}\longrightarrow \N(0, \lambda) ~~~~~ \mathrm{(C)} \\[10px] \notag &\Rightarrow& X_{\lambda} &\overset{\displaystyle {d}}\longrightarrow \N(\lambda, \lambda) ~~~~~ \mathrm{(D)} \end{alignat}$$
よって、題意は示された。
(注意:$\mathrm{(C), (D)}$は”$\lambda$”が分布パラメータに含まれてしまっており、分布収束の正式な書き方ではありません。しかし、この書き方をした方が『$\Po(\lambda)$が$\N(\lambda, \lambda)$に近似されること』を理解しやすいので、この書き方を採用しました。)
以下の例を通じて、ポアソン分布の正規近似の使い方を確認しましょう!
例2.
確率変数$X$を、
- $X$:ある地点で$1$年間(単位時間)に発生する交通事故の件数
とした時、$X \sim \Po(2500)$、であると仮定する。
この時、$Pr\{ X \geqq 2598 \}$を求める。
$X \sim \Po(2500)$であり、$2500$が充分大きいため正規近似が使えて、 $$\begin{aligned} X &\sim \N(2500, 2500) \end{aligned}$$とみなせる。
$X$を正規化したものを$Y$とおくと、
$$\begin{aligned} Y = \dfrac{X-2500}{\sqrt{2500}} \sim \N(0,1) \end{aligned}$$となるので、
$$\begin{aligned} Pr\{ X \geqq 2598 \} &= Pr\{ Y \geqq \frac{2598-2500}{\sqrt{2500}} \} \\[5px] &= Pr\{ Y \geqq 1.96 \} \\[5px] &= 0.025 \\ &{\scriptsize (\N(0,1)の正規分布表から)} \end{aligned}$$
まとめ.
- 「正規近似」とは『一定の条件の下で分布を正規分布とみなす近似』であり、『一定の条件』とは、二項分布では$n$が充分大きいこと、ポアソン分布では$\lambda$が充分大きいことである。
- 検定・区間推定を行う時に正規近似を用いることで、取り扱いやすい正規分布の方式を用いることができる。