正規分布の検定・区間推定

$\gdef \vec#1{\boldsymbol{#1}} \\ \gdef \rank {\mathrm{rank}} \\ \gdef \det {\mathrm{det}} \\ \gdef \Bern {\mathrm{Bern}} \\ \gdef \Bin {\mathrm{Bin}} \\ \gdef \Mn {\mathrm{Mn}} \\ \gdef \Cov {\mathrm{Cov}} \\ \gdef \Po {\mathrm{Po}} \\ \gdef \HG {\mathrm{HG}} \\ \gdef \Geo {\mathrm{Geo}}\\ \gdef \N {\mathrm{N}} \\ \gdef \LN {\mathrm{LN}} \\ \gdef \U {\mathrm{U}} \\ \gdef \t {\mathrm{t}} \\ \gdef \F {\mathrm{F}} \\ \gdef \Exp {\mathrm{Exp}} \\ \gdef \Ga {\mathrm{Ga}} \\ \gdef \Be {\mathrm{Be}} \\ \gdef \NB {\mathrm{NB}}$

学習者

正規分布は$\N(\mu, \sigma^2)$で表され分布パラメータの要素は$\mu, \sigma^2$の$2$つなので、これらが検定・区間推定の対象となるのですよね？

すたどく

その通りです。状況を細かく分けるとおおよそ$6$通りが考えられますが、そのうちの$4$通りはすでに＜基本的な統計量が従う分布＞ですでに紹介済みです。

学習者

わかりました、$6$通りを整理して覚えたいと思います。

すたどく

各通りについて、

検定統計量をどう設定するのか？
その検定統計量はどの分布に従うのか？

を暗記するようにしてください。

Contents

0. 導入
1. 平均$\mu$(1標本、$\sigma^2$known)
2. 平均$\mu$(1標本、$\sigma^2$unknown)
3. 平均$\mu$(2標本、$\sigma^2$known)
4. 平均$\mu$(2標本、$\sigma^2$unknown)
5. 分散$\sigma^2$(1標本)
6. 分散$\sigma^2$(2標本）

0. 導入

正規分布$\N(\mu, \sigma^2)$には$\mu, \sigma^2$の$2$つの分布パラメータがあり、これらが検定・区間推定の対象となります。

まず$\mu$の検定については、

$1$標本か、$2$標本か？
$\sigma^2$がknownか、unknownか？

によって$2 \times 2=4$通りが考えられます。

そして$\sigma^2$の検定については、

$1$標本か、$2$標本か？

によって$2$通りが考えられます。

（注意）

＜検定と区間推定の対応＞で扱った通り、区間推定は検定の受容域の裏返しであるため、区間推定については結果のみを示します。
以下は簡単のため、両側検定のみを扱います。

1. 平均$\mu$(1標本、$\sigma^2$known)

$X_i \overset{i.i.d}\sim \N(\mu, \sigma^2) ~~ {\small (i=1, \ldots, n)}$である時、

帰無仮説$H_0: \mu = \mu_0$
対立仮説$H_1: \mu \neq \mu_0$

という有意水準$\alpha$の両側検定を考えます。

この時、
$$\begin{aligned} {\small 検定統計量} Z = \frac{\bar{X}_n-\mu_0}{\dfrac{\sigma}{\sqrt{n}}} \sim \N(0, 1) ~~ under H_0 \end{aligned}$$であるため（参照：＜基本的な統計量が従う分布＞：1）、

●$|Z| = \left|\dfrac{\bar{X}_n-\mu_0}{\dfrac{\sigma}{\sqrt{n}}}\right| \leqq z_{\frac{\alpha}{2}} \Rightarrow {\small H_0を選択}$
●$|Z| = \left|\dfrac{\bar{X}_n-\mu_0}{\dfrac{\sigma}{\sqrt{n}}}\right| \gt z_{\frac{\alpha}{2}} \Rightarrow {\small H_1を選択}$

という判定がなされます。
（ただし$z_{\frac{\alpha}{2}}$を標準正規分布の上側$\frac{\alpha}{2}$点とする）

また$\mu$の$100(1-\alpha)$%信頼区間は、
$$\begin{aligned} \bar{X}_n-\frac{\sigma}{\sqrt{n}} \cdot z_{\frac{\alpha}{2}} \leqq \mu \leqq \bar{X}_n+\frac{\sigma}{\sqrt{n}} \cdot z_{\frac{\alpha}{2}} \end{aligned}$$となります。

2. 平均$\mu$(1標本、$\sigma^2$unknown)

$X_i \overset{i.i.d}\sim \N(\mu, \sigma^2) ~~ {\small (i=1, \ldots, n)}$である時、

帰無仮説$H_0: \mu = \mu_0$
対立仮説$H_1: \mu \neq \mu_0$

という有意水準$\alpha$の両側検定を考えます。

この時、
$$\begin{aligned} {\small 検定統計量} T = \frac{\bar{X}_n-\mu_0}{\dfrac{s}{\sqrt{n}}} \sim \t(n-1) ~~ under H_0 \end{aligned}$$
（ただし、$s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i-\bar{X}_n)^2$）
であるため（参照：＜基本的な統計量が従う分布＞：3）、

●$|T| = \left| \dfrac{\bar{X}_n-\mu_0}{\dfrac{s}{\sqrt{n}}} \right| \leqq t_{\frac{\alpha}{2}}(n-1) \Rightarrow {\small H_0を選択}$
●$|T| = \left| \dfrac{\bar{X}_n-\mu_0}{\dfrac{s}{\sqrt{n}}} \right| \gt t_{\frac{\alpha}{2}}(n-1) \Rightarrow {\small H_1を選択}$

という判定がなされます。
（ただし$t_{\frac{\alpha}{2}}(n-1)$を$t(n-1)$の上側$\frac{\alpha}{2}$点とする）

また$\mu$の$100(1-\alpha)$%信頼区間は、
$$\begin{aligned} \bar{X}_n-\frac{s}{\sqrt{n}} \cdot t_{\frac{\alpha}{2}}(n-1) \leqq \mu \leqq \bar{X}_n+\frac{s}{\sqrt{n}} \cdot t_{\frac{\alpha}{2}}(n-1) \end{aligned}$$となります。

3. 平均$\mu$(2標本、$\sigma^2$known)

$X_i \overset{i.i.d}\sim \N(\mu_X, \sigma_X^2) ~~ {\small (i=1, \ldots, n_X)}, Y_j \overset{i.i.d}\sim \N(\mu_Y, \sigma_Y^2) ~~ {\small (j=1, \ldots, n_Y)},$ $X_i$と$Y_j$は独立である時、$\delta = \mu_X-\mu_Y$について、

帰無仮説$H_0: \delta = \delta_0$
対立仮説$H_1: \delta \neq \delta_0$

という有意水準$\alpha$の両側検定を考えます。

この時、
$$\begin{aligned} {\small 検定統計量} Z = \frac{(\bar{X}_{n_X}-\bar{Y}_{n_Y})-\delta_0} {\sqrt{\frac{\sigma_X^2}{n_X} + \frac{\sigma_Y^2}{n_Y}}} \sim \N(0, 1) ~~ under H_0 \end{aligned}$$であるため*、

●$|Z| = \left| \dfrac{(\bar{X}_{n_X}-\bar{Y}_{n_Y})-\delta_0} {\sqrt{\frac{\sigma_X^2}{n_X} + \frac{\sigma_Y^2}{n_Y}}} \right| \leqq z_{\frac{\alpha}{2}} \Rightarrow {\small H_0を選択}$
●$|Z| = \left| \dfrac{(\bar{X}_{n_X}-\bar{Y}_{n_Y})-\delta_0} {\sqrt{\frac{\sigma_X^2}{n_X} + \frac{\sigma_Y^2}{n_Y}}} \right| \gt z_{\frac{\alpha}{2}} \Rightarrow {\small H_1を選択}$

という判定がなされます。
（ただし$z_{\frac{\alpha}{2}}$を標準正規分布の上側$\frac{\alpha}{2}$点とする）

また$\delta$の$100(1-\alpha)$%信頼区間は、
$$\begin{aligned} (\bar{X}_{n_X}-\bar{Y}_{n_Y})-\sqrt{\frac{\sigma_X^2}{n_X} + \frac{\sigma_Y^2}{n_Y}} \cdot z_{\frac{\alpha}{2}} \leqq \delta \leqq (\bar{X}_{n_X}-\bar{Y}_{n_Y})+\sqrt{\frac{\sigma_X^2}{n_X} + \frac{\sigma_Y^2}{n_Y}} \cdot z_{\frac{\alpha}{2}} \end{aligned}$$となります。

（補足）

*：$\bar{X}_{n_X} \sim \N(\mu_X, \frac{\sigma_X^2}{n_X}), \bar{Y}_{n_Y} \sim \N(\mu_Y, \frac{\sigma_Y^2}{n_Y})$であり、$\bar{X}_{n_X}, \bar{Y}_{n_Y}$は独立であるため、
$$\begin{aligned} \bar{X}_{n_X}-\bar{Y}_{n_Y} \sim \N(\mu_X-\mu_Y, \frac{\sigma_X^2}{n_X}+\frac{\sigma_Y^2}{n_Y}) \end{aligned}$$となります。

4. 平均$\mu$(2標本、$\sigma^2$unknown)

帰無仮説$H_0: \delta = \delta_0$
対立仮説$H_1: \delta \neq \delta_0$

という有意水準$\alpha$の両側検定を考えます。

$\sigma_X^2 = \sigma_Y^2 (=\sigma^2)$という等分散の仮定がおける時、
$$\begin{aligned} {\small 検定統計量} T = \frac{(\bar{X}_{n_X}-\bar{Y}_{n_Y})-\delta_0} {\sqrt{\frac{s^2}{n_X} + \frac{s^2}{n_Y}}} \sim \t((n_X-1)+(n_Y-1)) ~~ under H_0 \end{aligned}$$
（ただし、$s^2 = \frac{(n_X-1)s_X^2+(n_Y-1)s_Y^2}{(n_X-1)+(n_Y-1)} (=\frac{\sum_{i=1}^{n_X}(X_i-\bar{X}_{n_X})^2 + \sum_{j=1}^{n_Y}(Y_j-\bar{Y}_{n_Y})^2}{(n_X-1)+(n_Y-1)})$）
であるため*、

●$|T| = \left| \dfrac{(\bar{X}_{n_X}-\bar{Y}_{n_Y})-\delta_0} {\sqrt{\frac{s^2}{n_X} + \frac{s^2}{n_Y}}} \right| \leqq \t_{\frac{\alpha}{2}}((n_X-1)+(n_Y-1)) \Rightarrow {\small H_0を選択}$
●$|T| = \left| \dfrac{(\bar{X}_{n_X}-\bar{Y}_{n_Y})-\delta_0} {\sqrt{\frac{s^2}{n_X} + \frac{s^2}{n_Y}}} \right| \gt \t_{\frac{\alpha}{2}}((n_X-1)+(n_Y-1)) \Rightarrow {\small H_1を選択}$

という判定がなされます。
（ただし$\t_{\frac{\alpha}{2}}((n_X-1)+(n_Y-1))$を$\t((n_X-1)+(n_Y-1))$の上側$\frac{\alpha}{2}$点とする）

また$\delta$の$100(1-\alpha)$%信頼区間は、
$$\begin{aligned} (\bar{X}_{n_X}-\bar{Y}_{n_Y})-\sqrt{\frac{s^2}{n_X} + \frac{s^2}{n_Y}} \cdot \t_{\frac{\alpha}{2}}((n_X-1)+(n_Y-1)) \leqq \delta \leqq (\bar{X}_{n_X}-\bar{Y}_{n_Y})+\sqrt{\frac{s^2}{n_X} + \frac{s^2}{n_Y}} \cdot \t_{\frac{\alpha}{2}}((n_X-1)+(n_Y-1)) \end{aligned}$$となります。

（補足）

*：$\sigma_X^2 = \sigma_Y^2 = \sigma^2$とすると、
$$\begin{aligned} \frac{(n_X-1)s_X^2 + (n_Y-1)s_Y^2}{\sigma^2} = \frac{\sum_{i=1}^{n_X} (X_i-\bar{X}_{n_X})^2 + \sum_{j=1}^{n_Y}(Y_j-\bar{Y}_{n_Y})^2}{\sigma^2} \sim \chi^2((n_X-1)+(n_Y-1)) ~~ under H_0 \end{aligned}$$であり、また、
$$\begin{aligned} \frac{(\bar{X}_{n_X}-\bar{Y}_{n_Y})-\delta_0} {\sqrt{\frac{\sigma^2}{n_X} + \frac{\sigma^2}{n_Y}}} \sim \N(0, 1) ~~ under H_0 \end{aligned}$$となります。
（参照：＜基本的な統計量が従う分布＞）

$\frac{(n_X-1)s_X^2 + (n_Y-1)s_Y^2}{\sigma^2}, \frac{(\bar{X}_{n_X}-\bar{Y}_{n_Y})-\delta_0}{\sqrt{\frac{\sigma^2}{n_X} + \frac{\sigma^2}{n_Y}}}$は独立なので
（参照：＜基本的な統計量が従う分布＞）、$\t$分布の性質より（参照：＜連続分布＞：7＞補足部分）、
$$\begin{aligned} \dfrac{\frac{(\bar{X}_{n_X}-\bar{Y}_{n_Y})-\delta_0} {\sqrt{\frac{\sigma^2}{n_X} + \frac{\sigma^2}{n_Y}}}} {\sqrt{\frac{\frac{(n_X-1)s_X^2 + (n_Y-1)s_Y^2}{\sigma^2}}{(n_X-1) + (n_Y-1)}}} \sim \t((n_X-1)+(n_Y-1)) ~~ under H_0 \end{aligned}$$

これを整理して、
$$\begin{aligned} \frac{(\bar{X}_{n_X}-\bar{Y}_{n_Y})-\delta_0} {\sqrt{\frac{s^2}{n_X} + \frac{s^2}{n_Y}}} \sim \t((n_X-1)+(n_Y-1)) ~~ under H_0 \end{aligned}$$となります。
『4. 平均$\mu$($2$標本、$\sigma^2$unknown)』ではunknownな$\sigma_X^2, \sigma_Y^2$について、
$$\begin{aligned} \sigma_X^2 = \sigma_Y^2 (=\sigma^2) \end{aligned}$$を仮定しましたが、この等分散を仮定できない場合には「Welch’s $\t$検定」が行われます。

Welch’s $\t$検定では、

●$\sigma_X^2$の推定量として$s_X^2 = \frac{1}{n_X-1} \sum_{i=1}^{n_X} (X_i-\bar{X}_{n_X})^2$
●$\sigma_Y^2$の推定量として$s_Y^2 = \frac{1}{n_Y-1} \sum_{j=1}^{n_Y} (Y_j-\bar{Y}_{n_Y})^2$

を準備して、
$$\begin{aligned} {\small 検定統計量} T = \frac{|(\bar{X}_{n_X}-\bar{Y}_{n_Y})-\delta_0|} {\sqrt{\frac{s_X^2}{n_X} + \frac{s_Y^2}{n_Y}}} \sim \t(f) \end{aligned}$$となります。

ここで$\t(f)$の自由度$f$を求める式はやや難解であり、ここでは割愛します。
（参照：竹村彰通『現代数理統計学』学術図書出版社, 2020. p220）

5. 分散$\sigma^2$(1標本)

$X_i \overset{i.i.d}\sim \N(\mu, \sigma^2) ~~ {\small (i=1, \ldots, n)}$である時、

帰無仮説$H_0: \sigma = \sigma_0$
対立仮説$H_1: \sigma \neq \sigma_0$

という有意水準$\alpha$の両側検定を考えます。

この時、
$$\begin{aligned} {\small 検定統計量} V = \frac{(n-1)s^2}{\sigma_0^2} (=\frac{\sum_{i=1}^n(X_i-\bar{X}_n)^2}{\sigma_0^2}) \sim \chi^2(n-1) ~~ under H_0 \end{aligned}$$
（ただし、$s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i-\bar{X}_n)^2$）
であるため（参照：＜基本的な統計量が従う分布＞：2）、

●$\chi^2_{1-\frac{\alpha}{2}}(n-1) \leqq V \leqq \chi^2_{\frac{\alpha}{2}}(n-1) \Rightarrow {\small H_0を選択}$
●$V \lt \chi^2_{1-\frac{\alpha}{2}}(n-1), ~ or ~ , \chi^2_{\frac{\alpha}{2}}(n-1) \lt V \Rightarrow {\small H_1を選択}$

という判定がなされます*。
（ただし$\chi^2_{\frac{\alpha}{2}}(n-1), \chi^2_{1-\frac{\alpha}{2}}(n-1)$を$\chi^2(n-1)$の上側$\frac{\alpha}{2}, 1-\frac{\alpha}{2}$点とする）

また$\sigma$の$100(1-\alpha)$%信頼区間は、
$$\begin{aligned} \frac{(n-1)s^2}{\chi^2_{\frac{\alpha}{2}}(n-1)} \leqq \sigma \leqq \frac{(n-1)s^2}{\chi^2_{1-\frac{\alpha}{2}}(n-1)} \end{aligned}$$となります。

（補足）

*：$\chi^2$分布は左右非対称であり、有意水準$\alpha$に対応する受容域・棄却域としては、この検定方式よりも検出力が高い検定方式を構成することができます。しかしここでは簡潔さを優先して、上側・下側$\frac{\alpha}{2}$%点を境として受容域・棄却域を設定しました。

6. 分散$\sigma^2$(2標本）

$X_i \overset{i.i.d}\sim \N(\mu_X, \sigma_X^2) ~~ {\small (i=1, \ldots, n_X)}, Y_j \overset{i.i.d}\sim \N(\mu_Y, \sigma_Y^2) ~~ {\small (j=1, \ldots, n_Y)},$ $X_i$と$Y_j$は独立である時、

帰無仮説$H_0: \sigma_X^2 = \sigma_Y^2$
対立仮説$H_1: \sigma_X^2 \neq \sigma_Y^2$

という有意水準$\alpha$の両側検定を考えます。

この時、
$$\begin{aligned} {\small 検定統計量} F = \frac{\frac{s_X^2}{\sigma_X^2}}{\frac{s_Y^2}{\sigma_Y^2}} \sim \F(n_X-1, n_Y-1) ~~ under H_0 \end{aligned}$$
（ただし、$s_X^2 = \frac{1}{n_X-1} \sum_{i=1}^{n_X} (X_i-\bar{X}_{n_X})^2, s_Y^2 = \frac{1}{n_Y-1} \sum_{j=1}^{n_Y} (Y_j-\bar{Y}_{n_Y})^2$）
であるため（参照：＜基本的な統計量が従う分布＞：4）、

●$\F_{1-\frac{\alpha}{2}}(n_X-1, n_Y-1) \leqq V \leqq \F_{\frac{\alpha}{2}}(n_X-1, n_Y-1) \Rightarrow {\small H_0を選択}$
●$F \lt \F_{1-\frac{\alpha}{2}}(n_X-1, n_Y-1), or, \F_{\frac{\alpha}{2}}(n_X-1, n_Y-1) \lt F \Rightarrow {\small H_1を選択}$

という判定がなされます*。
（ただし$\F_{\frac{\alpha}{2}}(n_X-1, n_Y-1), \F_{1-\frac{\alpha}{2}}(n_X-1, n_Y-1)$を$\F(n_X-1, n_Y-1)$の上側$\frac{\alpha}{2}, 1-\frac{\alpha}{2}$点とする）

また$\frac{\sigma_X^2}{\sigma_Y^2}$の$100(1-\alpha)$%信頼区間は、
$$\begin{aligned} \frac{1}{\F_{\frac{\alpha}{2}}(n_X-1, n_Y-1)} (\frac{s_X^2}{s_Y^2}) \leqq \frac{\sigma_X^2}{\sigma_Y^2} \leqq \frac{1}{\F_{1-\frac{\alpha}{2}}(n_X-1, n_Y-1)} (\frac{s_X^2}{s_Y^2}) \end{aligned}$$となります。

（補足）

*：$\F$分布は左右非対称であり、有意水準$\alpha$に対応する受容域・棄却域としては、この検定方式よりも検出力が高い検定方式を構成することができます。しかしここでは簡潔さを優先して、上側・下側$\frac{\alpha}{2}$%点を境として受容域・棄却域を設定しました。

まとめ.

正規分布$\N(\mu, \sigma^2)$の分布パラメータ$\mu, \sigma^2$についての検定・区間推定の方法を$6$通りにわけて紹介した。