統計学

尤度比検定(+ワルド検定、スコア検定)

$\gdef \vec#1{\boldsymbol{#1}} \\ \gdef \rank {\mathrm{rank}} \\ \gdef \det {\mathrm{det}} \\ \gdef \Bern {\mathrm{Bern}} \\ \gdef \Bin {\mathrm{Bin}} \\ \gdef \Mn {\mathrm{Mn}} \\ \gdef \Cov {\mathrm{Cov}} \\ \gdef \Po {\mathrm{Po}} \\ \gdef \HG {\mathrm{HG}} \\ \gdef \Geo {\mathrm{Geo}}\\ \gdef \N {\mathrm{N}} \\ \gdef \LN {\mathrm{LN}} \\ \gdef \U {\mathrm{U}} \\ \gdef \t {\mathrm{t}} \\ \gdef \F {\mathrm{F}} \\ \gdef \Exp {\mathrm{Exp}} \\ \gdef \Ga {\mathrm{Ga}} \\ \gdef \Be {\mathrm{Be}} \\ \gdef \NB {\mathrm{NB}}$

すたどく

これまで<基本的な統計量が従う分布>に出てきた統計量を検定統計量として用いて、検定(+区間推定)を行ってきましたね。

学習者

はい、だいぶ定着してきました。

すたどく

ところで、汎用性の高い検定をご存知でしょうか?

学習者

いえ、知りません。。
汎用性の高い『推定量』として最尤推定量があったかと思いますが、今回は汎用性の高い『検定』なのですね。

すたどく

そうですね。汎用性の高い検定として『尤度比検定』が挙げられます。また尤度比検定ほどメジャーではありませんが、『ワルド検定』や『スコア検定』も汎用性が高い検定です。

学習者

一つずつ勉強していきたいと思います!

1. 尤度比と尤度比検定

分布パラメータ$\theta$について、$\theta$のとりうる集合を$\Theta$として、 $$\begin{aligned} \Theta_0 \cup \Theta_1 &= \Theta \\ \Theta_0 \cap \Theta_1 &= \phi \end{aligned}$$と$\Theta$を$\Theta_0, \Theta_1$という$2$つの集合にわけて、 帰無仮説$H_0$、対立仮説$H_1$を
$$\begin{aligned} \begin{cases} H_0: \theta &\in \Theta_0 \\ H_1: \theta &\in \Theta_1 \end{cases} \end{aligned}$$と定める時の有意水準$\alpha$の検定を考えます。
(ただし、$f_n(\vec x; \theta)$を同時確率密度関数(同時確率関数)とします)




(「尤度比」「尤度比検定」の定義)
尤度比$L$は、
$$\begin{aligned} L = \frac{\max_{\theta \in \textcolor{red}{\Theta_1}} \{ f_n(\vec x; \theta) \} }{\max_{\theta \in \textcolor{red}{\Theta_0}} \{ f_n(\vec x; \theta) \} } ~~~~~ \mathrm{(A)} \end{aligned}$$と定義されます。


また$H_0, H_1$の下での$\theta$の最尤推定量をそれぞれ$\hat{\theta}_{H_0}, \hat{\theta}_{H_1}$とすると、尤度比$L$は、
$$\begin{aligned} L = \frac{ f_n(\vec x; \textcolor{red}{\hat{\theta}_{H_1}} ) }{ f_n(\vec x; \textcolor{red}{\hat{\theta}_{H_0}} ) } \end{aligned}$$と書くこともできます。
(最尤推定量は尤度関数を最大化するものだったため)




そして、尤度比検定ではある$c {\small (\gt 0)}$に対して、

●$L \leqq c \Rightarrow$ $H_0$を選択
●$L \gt c \Rightarrow$ $H_1$を選択

という判定がなされます。

(補足)

  • 尤度比$L$については、
    $$\begin{aligned} (尤度比L) = \dfrac{\small{(対立仮説H_1の下での最大の尤もらしさ)}}{\small{(帰無仮説H_0の下での最大の尤もらしさ)}} \end{aligned}$$となっているので、分子が分母よりも十分に大きければ$H_1$を選択し、そうでなければ$H_0$を選択するのは自然ですね。



  • 尤度比検定はネイマン・ピアソンの補題(参照:<検定の概念と基本用語>)の形に似ています。尤度比検定を学んだ後に振り返ると、ネイマン・ピアソンの補題は『$H_0, H_1$がともに単純仮説という極端な状況においては尤度比検定が最強力検定である』と主張していたのです。



  • $\mathrm{(A)}$の分母と分子を入れ替えて、
    $$\begin{aligned} L = \frac{\max_{\theta \in \color{red}{\Theta_0}} \{ f_n(\vec x; \theta) \} }{\max_{\theta \in \color{red}{\Theta_1}} \{ f_n(\vec x; \theta) \} } ~~~~~ \mathrm{(B)} \end{aligned}$$と尤度比$L$を定義する流派もありますが、$\mathrm{(A)}$をおすすめします。
    というのも$\mathrm{(A)}$の定義であれば、$2 \log L \overset{\displaystyle {d}}\longrightarrow \chi^2(\bullet)$(後出の$\mathrm{(C)}$参照)、となりますが、$\mathrm{(B)}$の定義であれば、$\textcolor{red}{-}2 \log L \overset{\displaystyle {d}}\longrightarrow \chi^2(\bullet)$、と余計なマイナスがついてしまうためです。

2. 『尤度比検定:$L \gt c$』の”$c$”の決め方

帰無仮説$H_0$の下での有意水準$\alpha$の検定において、有意水準$\alpha$に応じて『$L \gt c$』の”$c$”が決まる必要があります。


この”$c$”を決めるにあたっては、尤度比$L$が従う分布が既知である必要がありますが、
$$\begin{aligned} 2 \log L \overset{\displaystyle {d}}\longrightarrow \chi^2(\dim \Theta_1-\dim \Theta_0) ~~~~~ \mathrm{(C)} \end{aligned}$$が知られています。
(証明は割愛。$\dim \Theta_1, \dim \Theta_0$はそれぞれ$H_1, H_0$の下での$\theta$の自由度を表す。)




よって、

⚫️$2 \log L \leqq \chi^2_{\alpha} (\dim \Theta_1-\dim \Theta_0) \Rightarrow$ $H_0$を選択
⚫️$2 \log L \gt \chi^2_{\alpha} (\dim \Theta_1-\dim \Theta_0) \Rightarrow$ $H_1$を選択

という判定($\star$)がなされます。




これは、

⚫️$L \leqq \exp [\dfrac{1}{2} \chi^2_{\alpha} (\dim \Theta_1-\dim \Theta_0)] \Rightarrow$ $H_0$を選択

⚫️$L \gt \exp [\dfrac{1}{2} \chi^2_{\alpha} (\dim \Theta_1-\dim \Theta_0)] \Rightarrow$ $H_1$を選択

と同値なので、結局のところ『$L \gt c$』の”$c$”を
$$\begin{aligned} c = \exp [\frac{1}{2} \chi^2_{\alpha} (\dim \Theta_1-\dim \Theta_0)] \end{aligned}$$と定めたことになります。

すたどく

実際に尤度比検定を使うことを想定するならば、($\star$)を覚えておけば良いかと思います。

例題1.
$X_i \overset{i.i.d} \sim \Bern(p)~~{\small (i=1, \ldots, n)}$である時、

  • 帰無仮説$H_0: p = p_0$
  • 対立仮説$H_1: p \neq p_0$

という有意水準$\alpha$の両側検定を考える。
この時の尤度比検定を示せ。


ただし$\Bern(p)$の確率関数$f(x;p)$は、
$$\begin{aligned} f(x;p) = p^x (1-p)^{1-x} ~~ {\small (x=0,1)} \end{aligned}$$である。

解答.

同時確率関数$f_n(\vec x;p)$は、
$$\begin{aligned} f_n(\vec x;p) &= \prod_{i=1}^n \{ p^{x_i} (1-p)^{1-x_i} \} \\ &{\scriptsize (X_i ~{\small (i=1, \ldots, n){\scriptsize の独立性より}})} \end{aligned}$$であり、$H_1$の下での最尤推定量を$\hat{p}$とすると、
$$\begin{aligned} (尤度比L) = \frac{f_n(\vec x;\hat{p})}{f_n(\vec x;p_0)} \end{aligned}$$となる。




$\hat{p}$については、$(\log f_n(\vec x; p)$を$p$で偏微分した式$)=0$、を解くことで、
$$\begin{aligned} \hat{p} = \frac{1}{n} \sum_{i=1}^n x_i ~~~~~ \mathrm{(D)} \end{aligned}$$となる。
(参照:<補足. 尤度比検定_1>




よって、
$$\begin{aligned} 2 \log L &= 2 \log \frac{f_n(\vec x; \hat{p})}{f_n(\vec x; p_0)} \\[10px] &= 2 \{ \log f_n(\vec x; \hat{p})-\log f_n(\vec x; p_0) \} \\[10px] &= 2 \left[ \{ (\sum_{i=1}^n x_i) \log \hat{p} + (\sum_{i=1}^n (1-x_i)) \log(1-\hat{p}) \}-\{ (\sum_{i=1}^n x_i) \log p_0 + (\sum_{i=1}^n (1-x_i)) \log(1-p_0) \} ~~~~~ \mathrm{(E)} \right] \end{aligned}$$となる。




ところで$H_0, H_1$の下での$p$の自由度はそれぞれ$0, 1$であるから、
$$\begin{aligned} 2 \log L \overset{\displaystyle {d}}\longrightarrow \chi^2(1-0) = \chi^2(1) \end{aligned}$$となる。




よって、$2 \log L$として$\mathrm{(D)}$を$\mathrm{(E)}$に代入したものを用いて、

⚫️$2 \log L \leqq \chi^2_{\alpha} (1) \Rightarrow$ $H_0$を選択
⚫️$2 \log L \gt \chi^2_{\alpha} (1) \Rightarrow$ $H_1$を選択

という判定が求めるものである。

例題2.
$X_i \overset{i.i.d} \sim \N(\mu, \sigma^2)~~{\small (i=1, \ldots, n)}$である時、

  • 帰無仮説$H_0: \mu = \mu_0$
  • 対立仮説$H_1: \mu \neq \mu_0$

という有意水準$\alpha$の両側検定を考える。
ただし、$\sigma^2$はunknownとする。


この時の尤度比検定を示せ。

解答.

同時確率関数$f_n(\vec x; \mu, \sigma^2)$は、
$$\begin{aligned} f_n(\vec x; \mu, \sigma^2) &= \prod_{i=1}^n \{ \frac{1}{\sqrt{2 \pi \sigma^2}} \exp[-\frac{(x_i-\mu)^2}{2 \sigma^2}] \} \\ &{\scriptsize (X_i ~{\small (i=1, \ldots, n)}{\scriptsize の独立性より})} \\ &= \frac{1}{(2 \pi \sigma^2)^{\frac{n}{2}}}  \prod_{i=1}^{n} \exp[-\frac{(x_i-\mu)^2}{2 \sigma^2}] \end{aligned}$$であり、$H_0$の下での最尤推定量を$\tilde{\sigma}^2$、$H_1$の下での最尤推定量を$\hat{\mu}, \hat{\sigma}^2$とすると、
$$\begin{aligned} (尤度比L) = \frac{f_n(\vec x; \hat{\mu}, \hat{\sigma}^2)}{f_n(\vec x; \mu_0, \tilde{\sigma}^2)} \end{aligned}$$となる。




$\tilde{\sigma}^2$については、$(\log f_n(\vec x; \mu_0, \sigma^2)$を$\sigma^2$で偏微分した式$)=0$、を解くことで、
$$\begin{aligned} \tilde{\sigma}^2 = \frac{1}{n} \sum_{i=1}^n (x_i-\mu_0)^2 ~~~~~ \mathrm{(F)} \end{aligned}$$となる。
(参照:<補足. 尤度比検定_2>




また$\hat{\mu}, \hat{\sigma}^2$については、

・$(\log f_n(\vec x; \mu, \sigma^2)$を$\mu$で偏微分した式$)=0$
・$(\log f_n(\vec x; \mu, \sigma^2)$を$\sigma^2$で偏微分した式$)=0$

という連立方程式を解くことで、
$$\begin{aligned} \hat{\mu} &= \hat{\mu} = \frac{1}{n} \sum_{i=1}^n x_i ~~~~~ \mathrm{(G)} \\ \hat{\sigma}^2 &= \frac{1}{n} \sum_{i=1}^n (x_i-\bar{x}_n)^2 ~~~~~ \mathrm{(G)} \end{aligned}$$となる。
(参照:<補足. 尤度比検定_2>




よって、
$$\begin{aligned} 2 \log L &= 2 \log \frac{f_n(\vec x; \hat{\mu}, \hat{\sigma}^2)}{f_n(\vec x; \mu_0, \tilde{\sigma}^2)} \\[10px] &= 2 \{ \log f_n(\vec x; \hat{\mu}, \hat{\sigma}^2)-\log f_n(\vec x; \mu_0, \tilde{\sigma}^2) \} \\[10px] &= 2 \left[ \{ -\frac{n}{2} \log(2 \pi \hat{\sigma}^2)-\frac{1}{2 \hat{\sigma}^2} \sum_{i=1}^n (x_i-\hat{\mu})^2 \}-\{ -\frac{n}{2} \log(2 \pi \tilde{\sigma}^2)-\frac{1}{2 \hat{\sigma}^2} \sum_{i=1}^n (x_i-\mu_0)^2 \} \right] ~~~~~ \mathrm{(H)} \end{aligned}$$となる。




ところで$H_0, H_1$の下での分布パラメータの自由度はそれぞれ$1, 2$であるから、
$$\begin{aligned} 2 \log L \overset{\displaystyle {d}}\longrightarrow \chi^2(2-1) = \chi^2(1) \end{aligned}$$となる。




よって、$2 \log L$として$\mathrm{(F), (G)}$を$\mathrm{(H)}$に代入したものを用いて、

⚫️$2 \log L \leqq \chi^2_{\alpha} (1) \Rightarrow$ $H_0$を選択
⚫️$2 \log L \gt \chi^2_{\alpha} (1) \Rightarrow$ $H_1$を選択

という判定が求めるものである。

(補足)

  • 例題2の設定において自由に検定をしなさい、と言われれば、
    $$\begin{aligned} {\small (検定統計量)}T = \frac{\bar{X}_n-\mu_0}{\frac{s}{\sqrt{n}}} \sim \t(n-1) \end{aligned}$$
    (ただし、$s^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i-\bar{X}_n)^2$)
    を用いた$\t$検定を想定される方が多いかと思います。
    (参照:<正規分布の検定・区間推定>:「2. 平均$\mu$($1$標本、$\sigma^2$unknown)」)


    実は、解答に示した尤度比検定は上記$\t$検定と同等になります。

(証明)

$2 \log L$として$\mathrm{(F), (G)}$を$\mathrm{(H)}$に代入したものを整理すると、
$$\begin{aligned} 2 \log L = n \log \frac{\sum_{i=1}^n (x_i-\mu_0)^2}{\sum_{i=1}^n (x_i-\bar{x}_n)^2} \end{aligned}$$となります。




よって$L$については、
$$\begin{aligned} L &= \left\{ \frac{\sum_{i=1}^n (x_i-\mu_0)^2}{\sum_{i=1}^n (x_i-\bar{x}_n)^2} \right\}^{\frac{n}{2}} \\[10px] &= \left\{ \frac{\sum_{i=1}^n (x_i-\bar{x}_n)^2 + n(\bar{x}_n-\mu_0)^2}{\sum_{i=1}^n (x_i-\bar{x}_n)^2} \right\}^{\frac{n}{2}} ~~~~~ \mathrm{(*)} \\[10px] &= \left\{ 1 + \frac{n(\bar{x}_n-\mu_0)^2}{\sum_{i=1}^n (x_i-\bar{x}_n)^2} \right\}^{\frac{n}{2}} \\[10px] &= \left\{ 1 + \frac{1}{n-1} T^2 \right\}^{\frac{n}{2}} \end{aligned}$$
($\mathrm{(*)}$については参照:<補足. $\sum_{i=1}^n (x_i-\mu)^2$の分解>
(ただし、$T = \dfrac{\bar{x}_n-\mu_0}{\frac{s}{\sqrt{n}}}, s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i-\bar{x}_n)^2$)
となります。




ここで$L$は$T^2$についての単調増加関数であり、一方で、$T \sim \t(n-1)$でした。


つまり、
$$\begin{aligned} c = \left\{ 1 + \frac{1}{n-1} \t_{\frac{\alpha}{2}}^2 (n-1) \right\}^{\frac{n}{2}} \end{aligned}$$と$c$を定めることで、

⚫️$L \leqq c \Rightarrow$ $H_0$を選択
⚫️$L \gt c \Rightarrow$ $H_1$を選択

という判定と、

⚫️$T^2 \leqq \t_{\frac{\alpha}{2}}^2 (n-1) \Rightarrow$ $H_0$を選択
⚫️$T^2 \gt \t_{\frac{\alpha}{2}}^2 (n-1) \Rightarrow$ $H_1$を選択

という判定は同等であることがわかります。

すたどく

この様に、尤度比検定は標準的な検定と同等(または漸近的に同等)となることが多いです。

3. ワルド検定とスコア検定の導入

これまで汎用性の高い検定として尤度比検定を扱ってきましたが、ここからは同じく汎用性の高い検定として「ワルド検定」と「スコア検定」を扱います。


尤度比検定では(尤度比を$L$として)『(帰無仮説の下で)$2 \log L$の漸近分布が$\chi^2$分布である』ことを用いましたが、ワルド検定やスコア検定では『(帰無仮説の下で)ある統計量の漸近分布が正規分布である』ことを用います。

4. ワルド検定

分布パラメータ$\theta$について、帰無仮説$H_0$、対立仮説$H_1$を
$$\begin{aligned} \begin{cases} H_0: \theta &= \theta_0 \\ H_1: \theta &\neq \theta_1 \end{cases} \end{aligned}$$と定める時の有意水準$\alpha$の検定を考えます。
(ただし、$f_n(\vec x; \theta)$を同時確率密度関数(同時確率関数)として、$I_n(\theta), I_1(\theta)$をフィッシャー情報量とします)




(ワルド検定統計量の定義)
最尤推定量$\hat{\theta}_n$の漸近有効性より(参考:<最尤推定量>)、
$$\begin{aligned} \sqrt{n} (\hat{\theta}_n-\theta_0) \overset{\displaystyle {d}}\longrightarrow \N(0, \frac{1}{I_1(\theta_0)}) ~~ under H_0 \\ \Rightarrow \frac{\hat{\theta}_n-\theta_0}{\sqrt{\frac{1}{n I_1(\theta_0)}}} ~~ (= \frac{\hat{\theta}_n-\theta_0}{\sqrt{\frac{1}{I_n(\theta_0)}}}) \overset{\displaystyle {d}}\longrightarrow \N(0, 1) ~~ under H_0 \\ \end{aligned}$$となります。




ここで分母の$I_n(\theta_0)$や$I_1(\theta_0)$を、$I_n(\hat{\theta}_n)$や$I_1(\hat{\theta}_n)$で推定したものを「ワルド検定統計量」と言います。




即ちワルド検定統計量$T_{wald}$は、
$$\begin{aligned} T_{wald} = \frac{\hat{\theta}_n-\theta_0}{\sqrt{\frac{1}{n I_1(\hat{\theta}_n)}}} ~~ (= \frac{\hat{\theta}_n-\theta_0}{\sqrt{\frac{1}{I_n(\hat{\theta}_n)}}}) \end{aligned}$$と定義され、(上記の通り)
$$\begin{aligned} T_{wald} \overset{\displaystyle {d}}\longrightarrow \N(0, 1) ~~ under H_0 \end{aligned}$$となります。




よって、

⚫️$|T_{wald}| \leqq Z_{\frac{\alpha}{2}} \Rightarrow$ $H_0$を選択
⚫️$|T_{wald}| \gt Z_{\frac{\alpha}{2}} \Rightarrow$ $H_1$を選択

という判定がなされます。 

(補足)

  • ワルド検定では最尤推定量$\hat{\theta}_n$を用いますが、$\hat{\theta}_n$は一致性をもつので、$n$が大きくなると真のパラメータに近づきます。もし真のパラメータが$\theta_0$ではない時(即ち$H_0$が誤っている時)、
    $$\begin{aligned} T_{wald} = \frac{\hat{\theta}_n-\theta_0}{\sqrt{\frac{1}{n I_1(\hat{\theta}_n)}}} = \sqrt{n} \cdot \frac{\hat{\theta}_n-\theta_0}{\sqrt{\frac{1}{I_1(\hat{\theta}_n)}}} \end{aligned}$$における$\hat{\theta}_n-\theta_0, I_1(\hat{\theta}_n)$はそれぞれ$0$でない値に近づいていくので、$T_{wald}$は$\sqrt{n}$のオーダーで大きくなります。


    つまり、$n$が大きくなるほど$T_{wald}$が大きくなり、($H_0$ではなく)$H_1$が選択されやすくなります。



  • ワルド検定についても信頼区間を構成することができます。具体的には、
    $$\begin{aligned} T_{wald} = \frac{\hat{\theta}_n-\theta_0}{\sqrt{\frac{1}{n I_1(\hat{\theta}_n)}}} \overset{\displaystyle {d}}\longrightarrow \N(0, 1) ~~ under H_0 \end{aligned}$$であることから、ワルド検定では以下の様に$100(1-\alpha)$%信頼区間を構成することができます。
    $$\begin{aligned} \frac{\hat{\theta}_n-\theta_0}{\sqrt{\frac{1}{n I_1(\hat{\theta}_n)}}} &\leqq Z_{\frac{\alpha}{2}} \\ \Rightarrow \hat{\theta}_n-\sqrt{\frac{1}{n I_1(\hat{\theta}_n)}} Z_{\frac{\alpha}{2}} \leqq &\theta \leqq \hat{\theta}_n+\sqrt{\frac{1}{n I_1(\hat{\theta}_n)}} Z_{\frac{\alpha}{2}} \end{aligned}$$
すたどく

この信頼区間の形からわかりますが、ワルド検定による信頼区間は最尤推定量$\hat{\theta}_n$が手元にあれば構成できます。一方で、尤度比検定や(後出の)スコア検定では一般に、ワルド検定の様に簡単に信頼区間を構成することはできません。

5. スコア検定

分布パラメータ$\theta$について、帰無仮説$H_0$、対立仮説$H_1$を
$$\begin{aligned} \begin{cases} H_0: \theta &= \theta_0 \\ H_1: \theta &\neq \theta_1 \end{cases} \end{aligned}$$と定める時の有意水準$\alpha$の検定を考えます。
(ただし、$f_n(\vec x; \theta)$を同時確率密度関数(同時確率関数)として、$I_n(\theta), I_1(\theta)$をフィッシャー情報量とします)




(スコア関数とスコア検定統計量の定義)
スコア関数$S(\theta)$は、
$$\begin{aligned} S(\theta) = \frac{\partial}{\partial \theta} \log f_n(\vec x; \theta) \end{aligned}$$と定義されます。

学習者

つまり、スコア関数とは『対数尤度関数を分布パラメータで偏微分したもの』ですね。

スコア検定統計量$T_{score}$は、
$$\begin{aligned} T_{score} = \frac{S(\theta_0)}{\sqrt{I_n(\theta_0)}} ~~ (=\frac{S(\theta_0)}{\sqrt{n I_1(\theta_0)}}) \end{aligned}$$と定義され、
$$\begin{aligned} T_{score} \overset{\displaystyle {d}}\longrightarrow \N(0, 1) ~~ under H_0 \end{aligned}$$となることが知られています。




よって、

⚫️$|T_{score}| \leqq Z_{\frac{\alpha}{2}} \Rightarrow$ $H_0$を選択
⚫️$|T_{score}| \gt Z_{\frac{\alpha}{2}} \Rightarrow$ $H_1$を選択

という判定がなされます。 

(補足)

  • ($T_{score} \overset{\displaystyle {d}}\longrightarrow \N(0, 1) ~~ under H_0$、の証明)

$$\begin{aligned} &S(\theta_0) = \sum_{i=1}^n \frac{\partial}{\partial \theta} \log f(x_i; \theta_0) \\[10px] &E[\frac{\partial}{\partial \theta} \log f(X_i; \theta_0)] = 0 \\[10px] &V[\frac{\partial}{\partial \theta} \log f(X_i; \theta_0)] = I_1(\theta_0) \end{aligned}$$であるから(参考:<補足. スコア関数の平均・分散>)、
$$\begin{aligned} \sqrt{n} \cdot \frac{1}{n} S(\theta_0) &= \sqrt{n} \cdot (\frac{1}{n} \sum_{i=1}^n \frac{\partial}{\partial \theta} \log f(x_i; \theta_0)) \\[10px] &\overset{\displaystyle {d}}\longrightarrow \N\left(E[\frac{\partial}{\partial \theta} \log f(X_i; \theta_0)], V[\frac{\partial}{\partial \theta} \log f(X_i; \theta_0)]\right) \\ &{\scriptsize (中心極限定理より)} \\[10px] &= \N(0, I_1(\theta_0)) \end{aligned}$$となる。


これを整理して、
$$\begin{aligned} \frac{\sqrt{n} \cdot \frac{1}{n} S(\theta_0)}{\sqrt{I_1(\theta_0)}} = \frac{S(\theta_0)}{\sqrt{n I_1(\theta_0)}} = \frac{S(\theta_0)}{\sqrt{I_n(\theta_0)}} \overset{\displaystyle {d}}\longrightarrow \N(0, 1) \end{aligned}$$となる。

  • 尤度比検定、ワルド検定では最尤推定量を用いるため、最尤推定量を求めるための計算が必要でしたが、スコア検定では最尤推定量を用いないため、その計算は不要です。

例題3.
$X_i \overset{i.i.d} \sim \Bern(p)~~{\small (i=1, \ldots, n)}$である時、

  • 帰無仮説$H_0: p = p_0$
  • 対立仮説$H_1: p \neq p_0$

という有意水準$\alpha$の両側検定を考える。
この時のワルド検定、スコア検定をそれぞれ示せ。


ただし$\Bern(p)$の確率関数$f(x;p)$は、
$$\begin{aligned} f(x;p) = p^x (1-p)^{1-x} ~~ {\small (x=0,1)} \end{aligned}$$である。

解答.

(ワルド検定)
同時確率関数$f_n(\vec x;p)$は、
$$\begin{aligned} f_n(\vec x;p) &= \prod_{i=1}^n \{ p^{x_i} (1-p)^{1-x_i} \} \\ &{\scriptsize (X_i ~{\small (i=1, \ldots, n) {\scriptsize の独立性より}})} \end{aligned}$$であり、$H_1$の下での最尤推定量を$\hat{p}$とすると、
$$\begin{aligned} (尤度比L) = \frac{f_n(\vec x;\hat{p})}{f_n(\vec x;p_0)} \end{aligned}$$となる。




$\hat{p}$については、$(\log f_n(\vec x; p)$を$p$で偏微分した式$)=0$、を解くことで、
$$\begin{aligned} \hat{p} = \frac{1}{n} \sum_{i=1}^n x_i ~~~~~ \mathrm{(D)} \end{aligned}$$となる。
(参照:<補足. 尤度比検定_1>




また、フィッシャー情報量$I_n(p)$は、
$$\begin{aligned} I_n(p) &= E[-\frac{\partial^2}{\partial p^2} \log f_n(\vec X; p)] \\[10px] &= E[\frac{\sum_{i=1}^n X_i}{p^2} + \frac{\sum_{i=1}^n (1-X_i)}{(1-p)^2} ] \\[10px] &= (\frac{1}{p^2}) \cdot np + \frac{1}{(1-p)^2} \cdot (n-np) \\ &{\scriptsize (E[X_i]=p)} \\[10px] &= \frac{n}{p(1-p)} \end{aligned}$$となる。




よってワルド統計量$T_{wald}$として、
$$\begin{aligned} T_{wald} &= \frac{\hat{p}-p_0}{\sqrt{\frac{1}{I_n(\hat{p})}}} = \frac{\hat{p}-p_0}{\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}} ~~~~~ \mathrm{(I)} \\ &{\scriptsize (ただし\hat{p}には\mathrm{(D)}を代入)} \end{aligned}$$を用いて、

⚫️$|T_{wald}| \leqq Z_{\frac{\alpha}{2}} \Rightarrow$ $H_0$を選択
⚫️$|T_{wald}| \gt Z_{\frac{\alpha}{2}} \Rightarrow$ $H_1$を選択

という判定が求めるものである。




(スコア検定)
スコア関数$S(p)$は、
$$\begin{aligned} S(p) &= \frac{\partial}{\partial p} \log f_n(\vec x; p) \\[10px] &= \frac{\sum_{i=1}^n x_i}{p}-\frac{\sum_{i=1}^n (1-x_i)}{1-p} \end{aligned}$$となる。




よってスコア検定統計量$T_{score}$として、
$$\begin{aligned} T_{score} &= \frac{S(p_0)}{\sqrt{I_n(p_0)}} \\[10px] &= \frac{S(p_0)}{\sqrt{\frac{p_0(1-p_0)}{n}}} ~~~~~ \mathrm{(J)} \\ &{\scriptsize (ただしS(\theta_0) = \frac{\sum_{i=1}^n x_i}{p_0}-\frac{\sum_{i=1}^n (1-x_i)}{1-p_0})} \end{aligned}$$を用いて、

⚫️$|T_{score}| \leqq Z_{\frac{\alpha}{2}} \Rightarrow$ $H_0$を選択
⚫️$|T_{score}| \gt Z_{\frac{\alpha}{2}} \Rightarrow$ $H_1$を選択

という判定が求めるものである。

すたどく

$p$の信頼区間を求める時には$\mathrm{(I), (J)}$のそれぞれで$p_0 \Rightarrow p$と置き換えたものを$p$について解くことになります。ワルド検定の場合($\mathrm{(I)}$)には解くことは容易ですが、スコア検定の場合($\mathrm{(J)}$)には解くことは容易ではないことがわかります。

まとめ.

  • 汎用性の高い検定として、尤度比検定、ワルド検定、スコア検定を紹介した。
他の記事を参照されたい方はこちら

 サイトマップからお好きな記事をお探しください。