$\gdef \vec#1{\boldsymbol{#1}} \\ \gdef \rank {\mathrm{rank}} \\ \gdef \det {\mathrm{det}} \\ \gdef \Bern {\mathrm{Bern}} \\ \gdef \Bin {\mathrm{Bin}} \\ \gdef \Mn {\mathrm{Mn}} \\ \gdef \Cov {\mathrm{Cov}} \\ \gdef \Po {\mathrm{Po}} \\ \gdef \HG {\mathrm{HG}} \\ \gdef \Geo {\mathrm{Geo}}\\ \gdef \N {\mathrm{N}} \\ \gdef \LN {\mathrm{LN}} \\ \gdef \U {\mathrm{U}} \\ \gdef \t {\mathrm{t}} \\ \gdef \F {\mathrm{F}} \\ \gdef \Exp {\mathrm{Exp}} \\ \gdef \Ga {\mathrm{Ga}} \\ \gdef \Be {\mathrm{Be}} \\ \gdef \NB {\mathrm{NB}}$
目的変数$y_i$、説明変数$x_{i,1},\cdots, x_{i,d} ~~ (i=1, \cdots, n)$に対して、
$$\begin{aligned} &\begin{cases} y_i &= \beta_1 x_{i,1} + \cdots + \beta_d x_{i,d} + \varepsilon_i \\ \varepsilon_i &\overset{i.i.d}\sim \N(0, \sigma^2) \\ (x_{i,1}, \cdots, x_{n,1})^{\top} &= \vec 1 \end{cases} \\[20px] \iff &\begin{cases} \vec y &= \vec X \vec \beta + \vec \varepsilon \\ \vec \varepsilon &\sim \N(\vec 0, \sigma^2 I_n) \end{cases} \end{aligned}$$という重回帰モデルを考えます。
ただし、
$$\begin{aligned} \vec X &= \begin{pmatrix} 1 & x_{1,2} &\cdots &x_{1,d} \\ \vdots & \vdots &\ddots &\vdots \\ 1 & x_{n,2} &\cdots &x_{n,d} \end{pmatrix} ~~ (\in \mathbb{R}^{n \times d}) \\ \vec y &= (y_1, \cdots, y_n)^{\top} ~~ (\in \mathbb{R}^{n}) \\ \vec \beta &= (\beta_1, \cdots, \beta_d)^{\top} ~~ (\in \mathbb{R}^{d}) \\ \vec \varepsilon &= (\varepsilon_1, \cdots, \varepsilon_n)^{\top} ~~ (\in \mathbb{R}^{n}) \end{aligned}$$とします。
この重回帰モデルにおける、よくある*回帰係数の検定の流れは以下の通りとなります。
(*:一般の統計ソフトで出力されるものを想定しています)
step1)『重回帰モデルが最低限のモデルとして成立しているか?』の検定
⚫︎${\small 帰無仮説}: \beta_{\color{red}{2}} = \cdots = \beta_d = 0$
を考え、これを棄却できれば(対立仮説が選択されれば)step2に進みます。
帰無仮説を棄却できない場合にはstep2には進まず終了です。
step2)各回帰係数の検定
個々の$\beta_i ~~ (i=\color{red}{1},2, \cdots, d$$)$に対して、
⚫︎${\small 帰無仮説}: \beta_i = 0$
を考え、検定をします。
ここではstep1, step2において具体的にどのような検定が行われているのかを確認します。
step1)『重回帰モデルが最低限のモデルとして成立しているか?』の検定
⚫︎${\small 帰無仮説} H_0(step1): \vec \beta \in \Theta_0$
(ただし、$\Theta_0 = \{ \vec \beta \in \mathbb{R}^d | \color{red}{\beta_2 = \cdots = \beta_d = 0}$$\}$)
⚫︎${\small 帰無仮説} H_1(step1): \vec \beta \in \mathbb{R}^{d} \backslash \Theta_0$
という有意水準$\alpha$の検定を考えます。
この時、帰無仮説$H_0(step1)$の下での残差ベクトルの$2$乗和$R_0^2$は、
$$\begin{aligned} R_0^2 &= \underset{\vec \beta \in \Theta_0}{\min} || \vec y-\vec X \vec \beta ||^2 \\[10px] &= \underset{\vec \beta \in \Theta_0}{\min} || \vec y-\beta_1 \vec 1 ||^2 \\ &{\scriptsize (\vec X \vec \betaを書き下すと\beta_1 \vec 1となることがわかります)} \\[10px] &= \underset{\vec \beta \in \Theta_0}{\min} \underbrace{\sum_{i=1}^n (y_i-\beta_1)^2}_{=g(\beta_1)とします} \end{aligned}$$となるが、
$$\begin{aligned} &\frac{d}{d \beta_1} g(\beta_1) = 2 \sum_{i=1}^n (\beta_1-y_i) = 0{\small(と置くと)} \\[10px] \Rightarrow &\hat{\beta_1} = \frac{1}{n} \sum_{i=1}^n y_i = \bar{y} \end{aligned}$$となるので、結局、
$$\begin{aligned} R_0^2 &= \sum_{i=1}^n (y_i-\bar{y})^2 \\[10px] &= || \vec y-\bar{y} \vec 1 ||^2 \end{aligned}$$とまとめられます。
一方で、フルモデルの下での残差ベクトルの$2$乗和$R_1^2$は、
$$\begin{aligned} R_1^2 &= \underset{\vec \beta \in \color{red}{\mathbb{R}^{d}}}{\min} || \vec y-\vec X \vec \beta ||^2 \\[10px] &= || \vec y-\vec X \hat{\vec \beta} ||^2 \\ &{\scriptsize(ただし\hat{\vec \beta}は\vec \betaの最小2乗推定量であり、\vec X \hat{\vec \beta}= \vec X (\vec X^{\top} \vec X)^{-1} \vec X^{\top} \vec y = P_X \vec y)} \\[10px] &= || \vec y-P_X \vec y||^2 \end{aligned}$$となります。
よって、
$$\begin{aligned} R_0^2-R_1^2 =& || \vec y-\bar{y} \vec 1 ||^2-|| \vec y-P_X \vec y||^2 \\[10px] =& (\vec y-\bar{y} \vec 1)^{\top} (\vec y-\bar{y} \vec 1)-(\vec y-P_X \vec y)^{\top} (\vec y-P_X \vec y) \\[10px] =& (\vec y^{\top} \vec y-\vec y^{\top} \bar{y} \vec 1-\bar{y} \vec 1^{\top} \vec y + \bar{y}^2 \vec 1^{\top} \vec 1) \\[10px] &-(\vec y^{\top} \vec y-\vec y^{\top} P_X \vec y-\vec y^{\top} P_X^{\top} \vec y + \vec y^{\top} P_X^{\top} P_X \vec y) \\[10px] =& (-\vec y^{\top} \bar{y} \vec 1-\bar{y} \vec 1^{\top} \vec y + \bar{y}^2 \vec 1^{\top} \vec 1) \\[10px] &-(-\vec y^{\top} P_X \vec y-\vec y^{\top} P_X \vec y + \vec y^{\top} P_X \vec y) \\ &{\scriptsize(P_Xの性質より、P_X^{\top} = P_X, (P_X^{\top} P_X=) P_X^2 = P_X )} \\[10px] =& \vec y^{\top} P_X \vec y-\bar{y} \vec y^{\top} \vec 1-\bar{y} \vec 1^{\top} \vec y + \bar{y}^2 \vec 1^{\top} \vec 1 \\ &{\scriptsize(並び替えた)} \\[10px] =& (P_X \vec y)^{\top} (P_X \vec y)-(P_X \vec y)^{\top} (\bar{y} \vec 1)-(\bar{y} \vec 1)^{\top} (P_X \vec y) + (\bar{y} \vec 1)^{\top} (\bar{y} \vec 1) \\ &{\scriptsize(2項目については、\vec 1 \in Im(\vec X)よりP_X \vec 1 = \vec 1、であることを用いた)} \\[10px] =& || P_X \vec y-\bar{y} \vec 1 ||^2 \\[10px] =& || \vec X \hat{\vec \beta}-\bar{y} \vec 1 ||^2 \end{aligned}$$となるので、 帰無仮説$H_0(step1)$が正しいという仮定の下で、
$$\begin{aligned} \F (&= \frac{\frac{R_0^2-R_1^2}{d-\color{red}{1}}}{\frac{R_1^2}{n-d}} ) = \frac{\frac{|| \vec X \hat{\vec \beta}-\bar{y} \vec 1 ||^2}{d-\color{red}{1}}}{\frac{|| \vec y-\vec X \vec \beta ||^2}{n-d}} \sim \F(d-\textcolor{red}{1}, n-d) \\ &{\scriptsize(dim \Theta_0=1です)} \end{aligned}$$であることを利用して、
⚫︎$\F \leqq \F_{\alpha}(d-r, n-d) \Rightarrow {\small H_0(step1)を選択}$ ⚫︎$\F \gt \F_{\alpha}(d-r, n-d) \Rightarrow {\small H_1(step1)を選択}$
となります。
step2)各回帰係数の検定
制約条件を$C_k \vec \beta = 0$として、
(ただし、$C_k = (0, \cdots, \underbrace{1}_{k番目}, \cdots, 0)$とします。つまり、$C_k \vec \beta = 0$とは$\beta_k = 0$を表します。)
⚫︎${\small 帰無仮説} H_0(step2): \vec \beta \in \Theta_0^{(k)}$
(ただし、$\Theta_0^{(k)} = \{ \vec \beta \in \mathbb{R}^d | \color{red}{C_k \vec \beta = 0}$$\}$)
⚫︎${\small 帰無仮説} H_1(step2): \vec \beta \in \mathbb{R}^{d} \backslash \Theta_0^{(k)}$
という有意水準$\alpha$の検定を考えます。
まず事実①を示し、それを用いて事実②を示します。
(事実①)
$\hat{\vec \beta}_{C_k} = \underset{\Theta_0^{(k)}}{\argmin} || \vec y-\vec X \vec \beta ||^2$とすると、
$$\begin{aligned} \hat{\vec \beta}_{C_k} &= \hat{\vec \beta}-(\vec X^{\top} \vec X)^{-1} C_k^{\top} \{ C_k (\vec X^{\top} \vec X)^{-1} C_k^{\top} \}^{-1} C_k \hat{\vec \beta} \\ &{\scriptsize(ただし\hat{\vec \beta}は既出で、\hat{\vec \beta} = (\vec X^{\top} \vec X)^{-1} \vec X^{\top} \vec y)} \end{aligned}$$
(事実①の証明)
ラグランジュの未定乗数法を用いる。
$$\begin{aligned} L(\vec \beta, \lambda) := \frac{1}{2} || \vec y-\vec X \vec \beta ||^2-\lambda C_k \vec \beta \end{aligned}$$とおくと($\frac{1}{2}$はつけた方がこの先で微分した際に綺麗になるのでつけた)、
$$\begin{aligned} \frac{\partial L}{\partial \vec \beta} &= \frac{\partial}{\partial \vec \beta} (\frac{1}{2} (\vec y^{\top} \vec y-\vec y^{\top} \vec X \vec \beta-\vec \beta^{\top} \vec X^{\top} \vec y + \vec \beta^{\top} \vec X^{\top} \vec X \vec \beta)-\lambda C_k \vec \beta) \\[10px] &= \frac{1}{2} \{ -(\vec y^{\top} \vec X)^{\top}-\vec X^{\top} \vec y + 2 \vec X^{\top} \vec X \vec \beta \}-(\lambda C_k)^{\top} \\ &{\scriptsize(\vec a, \vec bに対して、\frac{\partial}{\partial \vec \beta} \vec a^{\top} \vec \beta = \vec a, \frac{\partial}{\partial \vec \beta} \vec \beta^{\top} \vec a = \vec a, \frac{\partial}{\partial \vec \beta} \vec \beta^{\top} \vec \beta = 2 \vec \beta)} \\[10px] &= \vec X^{\top} \vec X \vec \beta-\vec X^{\top} \vec y-C_k^{\top} \lambda \\[10px] &= 0 ~~ {\small(とおく)} \\[10px] \Rightarrow \vec \beta &= \hat{\vec \beta}-(\vec X^{\top} \vec X)^{-1} C_k^{\top} \lambda ~~ \mathrm{(A’)} \\[10px] \frac{\partial L}{\partial \lambda} &= – C_k \vec \beta \\[10px] &= 0 ~~ {\small(とおく)} \\[10px] \Rightarrow C_k \vec \beta &= 0 ~~ \mathrm{(B’)} \end{aligned}$$となり、$\mathrm{(A’), (B’)}$を解いた$\vec \beta$が$\hat{\vec \beta}_{C_k}$である。
$\mathrm{(A’)}$に左から$C_k$をかけて$\mathrm{(B’)}$を用いた上で整理すると、
$$\begin{aligned} \lambda = \{ C_k (\vec X^{\top} \vec X)^{-1} C_k^{\top} \}^{-1} C_k \hat{\vec \beta} \end{aligned}$$となり、これと$\mathrm{(A’)}$より事実①が導出される。
$\mathrm{(A’)}$やその前段階において$\lambda$はスカラーなので項の先頭に来るべきではないか?、と考えた方がいると思います。それはその通りなのですが、$\lambda$がベクトルとした場合にも矛盾が生じない様な位置関係で記載をしています。$\lambda$がベクトルとなる場合とは、$C_k$ではなく一般の$C$を扱う場合です。一般の$C$の例としてはstep1($\beta_2 = \cdots = \beta_d = 0$)が挙げられ、この時、$$\begin{aligned} C= \begin{pmatrix} 0 &1 &0 &\cdots &0 \\ 0 &0 &1 &\cdots &0 \\ && &\ddots & \\ 0 &0 &0 &\cdots &1 \end{pmatrix} \end{aligned}$$となっています。
(事実②)
$$\begin{aligned} R_0’^2-R_1’^2 = (C_k \hat{\vec \beta})^{\top} \{ C_k (\vec X^{\top} \vec X )^{-1 } C_k^{\top} \}^{-1} C_k \hat{\vec \beta} \end{aligned}$$
(事実②の証明)
一般に直交射影行列$P$に対して$(I-P)$も直交射影行列であり、
$$\begin{aligned} || \vec y-P \vec y ||^2 &= \vec y^{\top} (I-P) \vec y \\ &{\scriptsize(ベクトル\vec a,行列Bに対して、 || \vec a B ||^2 = \vec a^{\top} B \vec a)} \\[10px] &= \vec y^{\top} \vec y-\vec y^{\top} P \vec y \end{aligned}$$が成立する。
よって、$\Theta_0^{(k)}$への直行射影行列を$P_{C_k}$とすると(モデル空間への直行射影行列は$P_X$であった)、
$$\begin{aligned} R_0’^2-R_1’^2 &= || \vec y-P_{C_k} \vec y ||^2-|| \vec y-P_X \vec y ||^2 \\[10px] &= (\vec y^{\top} \vec y-\vec y^{\top} P_{C_k} \vec y)-(\vec y^{\top} \vec y-\vec y^{\top} P_X \vec y) \\[10px] &= \vec y^{\top} (P_X-P_{C_k}) \vec y \end{aligned}$$となる。
ここで事実①より$\vec X \hat{\vec \beta_{C_k}}$について考えると、
$$\begin{aligned} \vec X \hat{\vec \beta_{C_k}} &= \vec X \{ \hat{\vec \beta}-(\vec X^{\top} \vec X)^{-1} C_k^{\top} \{ C_k (\vec X^{\top} \vec X)^{-1} C_k^{\top} \}^{-1} C_k \hat{\vec \beta} \} \\[10px] &= \vec X \{ (\vec X^{\top} \vec X)^{-1} \vec X^{\top} \vec y-(\vec X^{\top} \vec X)^{-1} C_k^{\top} \{ C_k (\vec X^{\top} \vec X)^{-1} C_k^{\top} \}^{-1} C_k (\vec X^{\top} \vec X)^{-1} \vec X^{\top} \vec y \} \\ &{\scriptsize(\hat{\vec \beta} = (\vec X^{\top} \vec X)^{-1} \vec X^{\top} \vec y)} \\[10px] &= \{ \underbrace{\vec X (\vec X^{\top} \vec X)^{-1} \vec X^{\top}-\vec X(\vec X^{\top} \vec X)^{-1} C_k^{\top} \{ C_k (\vec X^{\top} \vec X)^{-1} C_k^{\top} \}^{-1} C_k (\vec X^{\top} \vec X)^{-1} \vec X^{\top}}_{\color{red}{=P_{C_k}}} \} \vec y \end{aligned}$$となり、これと上記より、$R_0’^2-R_1’^2$について、
$$\begin{aligned} R_0’^2-R_1’^2 &= \vec y^{\top} \vec X(\vec X^{\top} \vec X)^{-1} C_k^{\top} \{ C_k (\vec X^{\top} \vec X)^{-1} C_k^{\top} \}^{-1} C_k (\vec X^{\top} \vec X)^{-1} \vec X^{\top} \vec y \\[10px] &= (C_{k} \hat{\vec \beta})^{\top} \{ C_k (\vec X^{\top} \vec X)^{-1} C_k^{\top} \}^{-1} C_{k} \hat{\vec \beta} \end{aligned}$$となる。
事実②と$C_k = (0, \cdots, \underbrace{1}_{k番目}, \cdots, 0)$より、
$$\begin{aligned} R_0’^2-R_1’^2 &= (\underbrace{C_{k} \hat{\vec \beta}}_{\color{red}{=\hat{\beta}_k}})^{\top} \{ \underbrace{C_k (\vec X^{\top} \vec X)^{-1} C_k^{\top}}_{\color{red}{=(\vec X^{\top} \vec X)^{-1}の(k,k成分)}} \}^{-1} \underbrace{C_{k} \hat{\vec \beta}}_{_{\color{red}{=\hat{\beta}_k}}} \\[10px] &= \hat{\beta}_k^2 \cdot \frac{1}{g_{k,k}} \\ &{\scriptsize((\vec X^{\top} \vec X)^{-1}の(k,k成分)をg_{k,k}とおいた)} \end{aligned}$$となるため、
帰無仮説$H_0(step2)$が正しいという仮定の下で、
$$\begin{aligned} \F’ (&= \frac{\frac{R_0’^2-R_1’^2}{d-\color{red}{(d-1)}}}{\frac{R_1’^2}{n-d}} ) = \frac{\frac{\hat{\beta}_k^2 \cdot \frac{1}{g_{k,k}}}{\color{red}{1}}}{\frac{|| \vec y-\vec X \vec \beta ||^2}{n-d}} \sim \F(\color{red}{1}, n-d) \\ &{\scriptsize(dim \Theta_0^{(k)}=d-1です)} \end{aligned}$$であることを利用して、
⚫︎$\F’ \leqq \F_{\alpha}(1, n-d) \Rightarrow {\small H_0(step2)を選択}$
⚫︎$\F’ \gt \F_{\alpha}(1, n-d) \Rightarrow {\small H_1(step2)を選択}$
となります。
(おまけ)
step2の検定は$\t$検定としても捉えることが可能です。
(説明)
まず、
$$\begin{aligned} (F’=) \frac{\frac{ \hat{\beta_k}^2 }{g_{k,k}}}{ \frac{ \| \vec y-\vec X \vec \beta \|^2 }{n-d} } \sim \F(1, n-d) ~~~~~ \mathrm{(A’)} \end{aligned}$$でした。
ところで、以下の①〜③が成立しています。
(参照:<最小2乗法>:「2. 推定量の性質」)
①:$\hat{\beta_k} \sim \N(0, \sigma^2 g_{k,k}) ~~ under H_0 \iff \frac{\beta_k}{\sigma \sqrt{g_{k,k}}} \sim \N(0,1) ~~ under H_0$
②:$\frac{\| \vec y-\vec X \vec \beta \|^2}{\sigma^2} \sim \chi^2(n-d)$
③:$\frac{\hat{\beta_k}}{\sigma \sqrt{g_{k,k}}}$と$\frac{\| \vec y-\vec X \vec \beta \|^2}{\sigma^2}$は独立
これらと$\t$分布の性質より、
$$\begin{aligned} &\frac{\color{red}{\frac{\hat{\beta_k}}{\sigma \sqrt{g_{k,k}}}}}{\sqrt{\frac{ \color{blue}{\frac{ \| \vec y-\vec X \vec \beta \|^2 }{\sigma^2}} }{n-d}}} = \frac{ \frac{\hat{\beta_k}}{\sqrt{g_{k,k}}} }{\sqrt{\frac{ \| \vec y-\vec X \vec \beta \|^2 }{n-d}}} \sim \t(n-d) ~~~~~ \mathrm{(B’)} \\ &{\scriptsize(赤部分 \sim \N(0,1)、青部分 \sim \chi^2(n-d))} \end{aligned}$$となります。
$\mathrm{(A’)}$の左辺のルートをとったものは$\mathrm{(B’)}$の左辺に等しいので、step2の検定は$\t$検定としても捉えることができます。
参考文献:Alvin C.Rencher『Linear Models in Statistics (2nd Edition)』Wiley-Interscience, 2008.