補足. 最小$2$乗法_推定量の性質についての証明

$\gdef \vec#1{\boldsymbol{#1}} \\ \gdef \rank {\mathrm{rank}} \\ \gdef \det {\mathrm{det}} \\ \gdef \Bern {\mathrm{Bern}} \\ \gdef \Bin {\mathrm{Bin}} \\ \gdef \Mn {\mathrm{Mn}} \\ \gdef \Cov {\mathrm{Cov}} \\ \gdef \Po {\mathrm{Po}} \\ \gdef \HG {\mathrm{HG}} \\ \gdef \Geo {\mathrm{Geo}}\\ \gdef \N {\mathrm{N}} \\ \gdef \LN {\mathrm{LN}} \\ \gdef \U {\mathrm{U}} \\ \gdef \t {\mathrm{t}} \\ \gdef \F {\mathrm{F}} \\ \gdef \Exp {\mathrm{Exp}} \\ \gdef \Ga {\mathrm{Ga}} \\ \gdef \Be {\mathrm{Be}} \\ \gdef \NB {\mathrm{NB}}$

(証明すべき内容の再掲)
目的変数$y_i$、説明変数$x_{i,1}, \ldots, x_{i,d} ~ {\small (i=1, \cdots, n)}$に対して、
$$\begin{aligned} &\begin{cases} y_i &= \beta_1 x_{i,1} + \cdots + \beta_d x_{i,d} + \varepsilon_i ~~~~~ \mathrm{(A)} \\ E[\varepsilon_i] &= 0, V[\varepsilon_i] = \sigma^2, \Cov[\varepsilon_i, \varepsilon_j] = 0 ~~ {\small(i \neq j)} ~~~~~ \mathrm{(B)} \end{cases} \\ \iff &\begin{cases} \vec y &= \vec X \vec \beta + \vec \varepsilon ~~~~~ \mathrm{(C)} \\ E[\vec \varepsilon] &= \vec 0 ~~~~~ \mathrm{(D)} \\ V[\vec \varepsilon] &= \sigma^2 I_n ~~~~~ \mathrm{(E)} \end{cases} \end{aligned}$$という線形回帰モデルを扱います。


ただし、
$$\begin{aligned} \vec X &= \begin{pmatrix} x_{1,1} &\cdots &x_{1,d} \\ \vdots &\ddots &\vdots \\ x_{n,1} &\cdots &x_{n,d} \end{pmatrix} ~~ (\in \mathbb{R}^{n \times d}) \\ \vec y &= (y_1, \cdots, y_n)^{\top} ~~ (\in \mathbb{R}^{n}) \\ \vec \beta &= (\beta_1, \cdots, \beta_d)^{\top} ~~ (\in \mathbb{R}^{d}) \\ \vec \varepsilon &= (\varepsilon_1, \cdots, \varepsilon_n)^{\top} ~~ (\in \mathbb{R}^{n}) \end{aligned}$$とします。


この時、$\beta$の最小$2$乗推定量$\hat{\vec \beta}$、$\sigma^2$の1つの不偏推定量$\hat{\sigma}^2$は、
$$\begin{aligned} \hat{\vec \beta} = (\vec X^{\top} \vec X)^{-1} \vec X^{\top} \vec y ~~~~~ \mathrm{(I)} \\ \hat{\sigma}^2 = \frac{1}{n-d} || \vec e ||^2 ~~~~~ \mathrm{(K)} \end{aligned}$$であり、以下の$3$つの性質が成立します。

①$\hat{\vec \beta} \sim \N(\vec \beta, \sigma^2 (\vec X^{\top} \vec X)^{-1})$

②$\dfrac{(n-d) \hat{\sigma}^2}{\sigma^2} (=\dfrac{|| \vec e ||^2}{\sigma^2}) \sim \chi^2(n-d)$

③$\hat{\vec \beta}$と$\hat{\sigma}^2$は独立

(証明)

(①について)
$\mathrm{(C)}, \mathrm{(D), \mathrm{(E)}}$より
$$\begin{aligned} \vec y \sim \N_n(\vec X \vec \beta, \sigma^2 I_n) \end{aligned}$$となるが、これと$\mathrm{(I)}$より$\hat{\vec \beta}$も正規分布に従い、
$$\begin{aligned} E[\hat{\vec \beta}] &= E[(\vec X^{\top} \vec X)^{-1} \vec X^{\top} \vec y] \\ &= (\vec X^{\top} \vec X)^{-1} \vec X^{\top} E[\vec y] \\ &= (\vec X^{\top} \vec X)^{-1} \vec X^{\top} \vec X \vec \beta \\ &= \vec \beta \\[10px] V[\hat{\vec \beta}] &= V[(\vec X^{\top} \vec X)^{-1} \vec X^{\top} \vec y] \\ &= \{ (\vec X^{\top} \vec X)^{-1} \vec X^{\top} \} V[\vec y] \{ (\vec X^{\top} \vec X)^{-1} \vec X^{\top} \}^{\top} \\ &= (\vec X^{\top} \vec X)^{-1} \vec X^{\top} \sigma^2 I_n \vec X (\vec X^{\top} \vec X)^{-1} \\ &= \sigma^2 (\vec X^{\top} \vec X)^{-1} \end{aligned}$$となる。


よって、
$$\begin{aligned} \hat{\vec \beta} \sim \N(\vec \beta, \sigma^2 (\vec X^{\top} \vec X)^{-1}) \end{aligned}$$




(②について)
(やや難)
$$\begin{aligned} &\{ \vec X (\vec X^{\top} \vec X)^{-\frac{1}{2}} \}^{\top} \{ \vec X (\vec X^{\top} \vec X)^{-\frac{1}{2}} \} \\ &= (\vec X^{\top} \vec X)^{-\frac{1}{2}} \vec X^{\top} \vec X (\vec X^{\top} \vec X)^{-\frac{1}{2}} \\ &= (\vec X^{\top} \vec X)^{-\frac{1}{2}} (\vec X^{\top} \vec X)^{\frac{1}{2}} (\vec X^{\top} \vec X)^{\frac{1}{2}} (\vec X^{\top} \vec X)^{-\frac{1}{2}} \\ &= I_d \end{aligned}$$であるから、$G_1$を、
$$\begin{aligned} G_1 := \vec X (\vec X^{\top} \vec X)^{-\frac{1}{2}} ~~ (\in \mathbb{R}^{n \times d}) \end{aligned}$$と置くと、$G_1$の各列ベクトルは$I_m(\vec X)$の正規直交基底となる。


また$I_m(\vec X)^{\color{red}{\perp}}$の正規直交基底を並べた行列を$G_2(\in \mathbb{R}^{n \times (n-d)})$として、$G = (G_1;G_2)$とすれば、$G$は直交行列となる。


ここで$\vec z$を、
$$\begin{aligned} \vec z &= G^{\top} \vec y \\ &= \begin{pmatrix} G_1^{\top} \vec y \\ G_2^{\top} \vec y \end{pmatrix} \end{aligned}$$と置くと、
$$\begin{aligned} \vec z &\sim \N(\begin{pmatrix} G_1^{\top} \vec X \vec \beta \\ G_2^{\top} \vec X \vec \beta \end{pmatrix} , V[\vec z]) \\ &= \N(\begin{pmatrix} G_1^{\top} \vec X \vec \beta \\ G_2^{\top} \vec X \vec \beta \end{pmatrix} , V[G^{\top} \vec y]) \\ &= \N(\begin{pmatrix} G_1^{\top} \vec X \vec \beta \\ G_2^{\top} \vec X \vec \beta \end{pmatrix} , G V[\vec y] G^{\top}) \\ &= \N(\begin{pmatrix} G_1^{\top} \vec X \vec \beta \\ G_2^{\top} \vec X \vec \beta \end{pmatrix} , G \sigma^2 I_n G^{\top}) \\ &= \N(\begin{pmatrix} G_1^{\top} \vec X \vec \beta \\ G_2^{\top} \vec X \vec \beta \end{pmatrix} , \sigma^2 G G^{\top}) \\ &= \N(\begin{pmatrix} G_1^{\top} \vec X \vec \beta \\ G_2^{\top} \vec X \vec \beta \end{pmatrix} , \sigma^2 I_n) ~~~~~ \mathrm{(A”)} \\ &{\scriptsize (Gは直交行列であるため、G G^{\top} = I_n)} \end{aligned}$$となる。


ところで、
$$\begin{aligned} || \vec y ||^2 &= \vec y^{\top} \vec y \\ &= \vec y^{\top} G G^{\top} \vec y \\ &{\scriptsize (G G^{\top} = I)} \\ &= \vec z^{\top} \vec z \\ &= || \vec z ||^2 \\ &= \sum_{i=1}^{d} z_i^2 + \sum_{i=d+1}^{n} z_i^2 ~~~~~ \mathrm{(B”)} \end{aligned}$$であり、また、
$$\begin{aligned} \sum_{i=1}^{d} z_i^2 &= \vec y^{\top} G_1 G_1^{\top} \vec y \\ &= \vec y^{\top} \{ \vec X (\vec X^{\top} \vec X)^{-\frac{1}{2}} \} \{ \vec X (\vec X^{\top} \vec X)^{-\frac{1}{2}} \}^{\top} \vec y \\ &= \vec y^{\top} \vec X (\vec X^{\top} \vec X)^{-1} \vec X^{\top} \vec y \\ &= \vec y^{\top} P_X \vec y \\ &{\scriptsize (P_X = \vec X (\vec X^{\top} \vec X)^{-1} \vec X^{\top})} \\ &= \vec y^{\top} P_X P_X \vec y \\ &{\scriptsize (P_X = P_X^2 = P_X P_X)} \\ &= \hat{\vec y}^{\top} \hat{\vec y} \\ &{\scriptsize (\hat{\vec y} = P_X \vec y)} \\ &= || \hat{\vec y} ||^2 ~~~~~ \mathrm{(C”)} \end{aligned}$$である。


$\mathrm{(B”), (C”)}$と、$|| \vec y||^2 = ||\hat{\vec y}||^2 + ||\vec e||^2$(下Fig参照)より、
$$\begin{aligned} \sum_{i=d+1}^{n} z_i^2 &= || \vec e ||^2 \\ \Rightarrow \frac{1}{\sigma^2} \sum_{i=d+1}^{n} z_i^2 (&= \frac{|| \vec e||^2}{\sigma^2}) \sim \chi^2(n-d) \\ &{\scriptsize(\frac{z_i}{\sigma} \sim \N(0,1) ~~ (i=d+1, \cdots, n))} \end{aligned}$$


Fig.(三平方の定理より$|| \vec y||^2 = ||\hat{\vec y}||^2 + ||\vec e||^2$)





(③について)
$$\begin{aligned} \hat{\vec \beta} &= (\vec X^{\top} \vec X)^{-1} \vec X^{\top} \vec y \\ &{\scriptsize(\mathrm{(I)}より)} \\ &= (\vec X^{\top} \vec X)^{-\frac{1}{2}} (\vec X^{\top} \vec X)^{-\frac{1}{2}} \vec X^{\top} \vec y \\ &= (\vec X^{\top} \vec X)^{-\frac{1}{2}} G_1^{\top} \vec y \\ &= (\vec X^{\top} \vec X)^{-\frac{1}{2}} \vec z_{(d)} \\ &{\scriptsize(ただし、\vec z = \begin{pmatrix} \vec z_{(d)} \\ \vec z_{(n-d)} \end{pmatrix}とした)} \end{aligned}$$となる。


ところで②の証明より、
$$\begin{aligned} || \vec e ||^2 &= \sum_{i=d+1}^{n} z_i^2 \\ &= || \vec z_{(n-d)} ||^2 \end{aligned}$$となるため、$\hat{\vec \beta}$と$|| \vec e||^2$は独立である。


これと$\mathrm{(K)}$を合わせると、$\hat{\vec \beta}$と$\hat{\sigma^2}$は独立である。