統計学

二項分布の検定・区間推定

$\gdef \vec#1{\boldsymbol{#1}} \\ \gdef \rank {\mathrm{rank}} \\ \gdef \det {\mathrm{det}} \\ \gdef \Bern {\mathrm{Bern}} \\ \gdef \Bin {\mathrm{Bin}} \\ \gdef \Mn {\mathrm{Mn}} \\ \gdef \Cov {\mathrm{Cov}} \\ \gdef \Po {\mathrm{Po}} \\ \gdef \HG {\mathrm{HG}} \\ \gdef \Geo {\mathrm{Geo}}\\ \gdef \N {\mathrm{N}} \\ \gdef \LN {\mathrm{LN}} \\ \gdef \U {\mathrm{U}} \\ \gdef \t {\mathrm{t}} \\ \gdef \F {\mathrm{F}} \\ \gdef \Exp {\mathrm{Exp}} \\ \gdef \Ga {\mathrm{Ga}} \\ \gdef \Be {\mathrm{Be}} \\ \gdef \NB {\mathrm{NB}}$

学習者

二項分布は$\Bin(n,p)$で表され分布パラメータの要素は$n, p$の$2$つですが、なんとなく”$n$”には興味がなさそうですね。

すたどく

そうですね。$\Bin(n,p)$の”$n$”は通常与えられるので、”$p$”のみが検定・区間推定の対象となります。

学習者

わかりました。ところで<正規分布の検定・区間推定>では検定統計量として<基本的な統計量が従う分布>で扱ったものを利用しましたね。

すたどく

はい。

学習者

二項分布の検定統計量はまだ扱ってないかと思いますが、どうなるのでしょう?

すたどく

正確に扱う場合(正規近似なし)と近似的に扱う場合(正規近似あり)とで異なりますが、どちらの場合についてもそれほど複雑ではありません。ゆっくりと確認していきましょう。

0. 導入

二項分布$\Bin(n,p)$には$n, p$の$2$つの分布パラメータがありますが、通常”$n$”は与えられるため、”$p$”のみが検定・区間推定の対象となります。


以下は『正確に扱う場合(正規近似なし)』と『近似的に扱う場合(正規近似あり)』とにわけて紹介をします。

1. 正確に扱う場合(正規近似なし)

$X \sim \Bin(n,p)$である時、

  • 帰無仮説$H_0: p \leqq p_0$
  • 対立仮説$H_1: p \gt p_0$

というという有意水準$\alpha$の片側検定を考えます*1。




この時、ある$r ~ {\small (1 \leqq r \leqq n)}$に対して、
$$\begin{aligned} \sum_{i=r}^{n} \binom{n}{i} p_0^{i} (n-p_0)^{n-i} \leqq \alpha \\ \sum_{i=r-1}^{n} \binom{n}{i} p_0^{i} (n-p_0)^{n-i} \gt \alpha \end{aligned}$$とすると*2、検定統計量を$X$そのものとして

●$X \lt r \Rightarrow {\small H_0を選択}$
●$X \geqq r \Rightarrow {\small H_1を選択}$

という判定がなされます。




また$p$の$100(1-\alpha)$%信頼区間は、
$$\begin{aligned} X \lt r(p) \end{aligned}$$
($r$は$p$の関数でありそれを明示的に示すために”$r(p)$”と書きました)
を$p$について解けば求められますが、これを綺麗な形で表すのは困難です。

(補足)

*1:二項分布は通常左右非対称であるため、有意水準$\alpha$の両側検定の場合に最も検出力が高くなる受容域・棄却域のとり方は上側・下側$\frac{\alpha}{2}$%点を境としたものではありません。そのためここでは両側検定ではなく、(最も検出力が高くなる受容域・棄却域のとり方が上側$\alpha$%点と明らかな)片側検定を扱いました。


*2:連続分布の場合には、『有意水準$\alpha$の検定』を計画した時に第$1$種の過誤の発生確率がちょうど$\alpha$となる検定を構成することができました。しかし、二項分布の様な離散分布では第$1$種の過誤の発生確率がちょうど$\alpha$となる検定を構成することができない場合が多いです。(以下例1参照)
その場合には第$1$種の過誤の発生確率は$\alpha$より小さくなるため、それと引き換えに第$2$種の過誤の発生確率が大きくなってしまいます。離散分布において第$1$種の過誤の発生確率がちょうど$\alpha$となる検定を構成するためには「確率化」という作業が必要になりますが、ここでは割愛します。

例1. (離散分布で第$1$種の過誤の発生確率がちょうど$0.05$とならない例)
$Y \sim \Bin(10, p) ~ {\small (0 \leqq p \leqq 1)}$である時、

  • 帰無仮説$H_0: p \leqq 0.4$
  • 対立仮説$H_1: p \gt 0.4$

という有意水準$0.05$の片側検定を考える。


この時、
$$\begin{aligned} \sum_{i=8}^{10} \binom{n}{i} (0.4)^i (1-0.4)^{n-i} &\fallingdotseq 0.012 \\ \sum_{i=7}^{10} \binom{n}{i} (0.4)^i (1-0.4)^{n-i} &\fallingdotseq 0.055 \end{aligned}$$であるから、

●$Y \lt 8 \Rightarrow {\small H_0を選択}$
●$Y \geqq 8 \Rightarrow {\small H_1を選択}$

という判定をすることになる。


この検定は有意水準$0.05$の検定ではあるが、第$1$種の過誤の発生確率がちょうど$0.05$となることはない。(もし有意水準$0.012$の検定を考えた場合は、第$1$種の過誤の発生確率がちょうど$0.012$とすることができる)

すたどく

『第$1$種の過誤の発生確率』と『有意水準』の関係が怪しい方は、<検定の概念と基本用語>にて復習しておいてください。

2. 近似的に扱う場合(正規近似あり)

$X \sim \Bin(n,p)$である時、

  • 帰無仮説$H_0: p = p_0$
  • 対立仮説$H_1: p \neq p_0$

というという有意水準$\alpha$の両側検定を考えます。




$n$が十分大きい時、正規近似より、
$$\begin{aligned} X \sim \N(np, np(1-p)) \end{aligned}$$とみなせます。
(参照:<二項分布・ポアソン分布の正規近似>

すたどく

$X \sim \Bin(n,p)$である時、$E[X] = np, V[X] = np(1-p)$、でしたね。

よって、
$$\begin{aligned} {\small 検定統計量} Z = \frac{X-np_0}{\sqrt{np_0(1-p_0)}} \sim \N(0,1) ~~ under H_0 \end{aligned}$$であるため、

●$|Z| = \left|\dfrac{X-np_0}{\sqrt{np_0(1-p_0)}}\right| \leqq Z_{\frac{\alpha}{2}} \Rightarrow {\small H_0を選択}$
●$|Z| = \left|\dfrac{X-np_0}{\sqrt{np_0(1-p_0)}}\right| \gt Z_{\frac{\alpha}{2}} \Rightarrow {\small H_1を選択}$

という判定がなされます。
(ただし$z_{\frac{\alpha}{2}}$を標準正規分布の上側$\frac{\alpha}{2}$点とする)




また$p$の$100(1-\alpha)$%信頼区間は、
$$\begin{aligned} \left| \dfrac{X-np}{\sqrt{np(1-p)}} \right| \leqq Z_{\frac{\alpha}{2}} \end{aligned}$$を$p$について解いたものになります。




これは$p$についての$2$次不等式となりますが、やや計算が大変なので、分母の”$p$”を$\hat{p}(=\frac{X}{n})$に近似して、
$$\begin{aligned} \left| \dfrac{X-np}{\sqrt{n\hat{p}(1-\hat{p})}} \right| &\leqq Z_{\frac{\alpha}{2}} \\[20px] \Rightarrow \dfrac{X}{n}-Z_{\frac{\alpha}{2}} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} &\leqq p \leqq \dfrac{X}{n}+Z_{\frac{\alpha}{2}} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \end{aligned}$$を信頼区間としてしまうことが多いです。

まとめ.

  • 二項分布$\Bin(n,p)$の”$p$”についての検定・区間推定は正規近似を用いずに正確に扱う場合と、正規近似を用いて近似的に扱う場合がある。


  • 二項分布における両側検定を扱う時、正規近似を用いない場合は(二項分布の非対称性から)検出力の最も高い受容域・棄却域を定めるための計算は大変であるが*、正規近似を用いる場合は(正規分布の対称性から)この問題は生じない。

    (*:興味のある方は、竹村 彰通『現代数理統計学』学術図書出版社, 2020. p188-190、を参照ください)
他の記事を参照されたい方はこちら

 サイトマップからお好きな記事をお探しください。