補足. 最小$2$乗法_ガウス・マルコフの定理についての証明

$\gdef \vec#1{\boldsymbol{#1}} \\ \gdef \rank {\mathrm{rank}} \\ \gdef \det {\mathrm{det}} \\ \gdef \Bern {\mathrm{Bern}} \\ \gdef \Bin {\mathrm{Bin}} \\ \gdef \Mn {\mathrm{Mn}} \\ \gdef \Cov {\mathrm{Cov}} \\ \gdef \Po {\mathrm{Po}} \\ \gdef \HG {\mathrm{HG}} \\ \gdef \Geo {\mathrm{Geo}}\\ \gdef \N {\mathrm{N}} \\ \gdef \LN {\mathrm{LN}} \\ \gdef \U {\mathrm{U}} \\ \gdef \t {\mathrm{t}} \\ \gdef \F {\mathrm{F}} \\ \gdef \Exp {\mathrm{Exp}} \\ \gdef \Ga {\mathrm{Ga}} \\ \gdef \Be {\mathrm{Be}} \\ \gdef \NB {\mathrm{NB}}$

(証明すべき内容の再掲)

最小$2$乗推定量$\hat{\vec \beta}$は、不偏な線形推定量のうち、分散が最小である。

(証明に際しての前提知識)

証明においては、 最小$2$乗推定量$\hat{\vec \beta}$と、任意の線形不偏推定量$\tilde{\vec \beta}$に対して、
$$\begin{aligned} \Cov[\tilde{\vec \beta}] \succeq \Cov[\hat{\vec \beta}] \end{aligned}$$を示すことになります。

すたどく

これはそういうものだと思ってください。

「$\succeq$」という記号については以下の通りです。


対称行列$A, B (\in \mathbb{R}^{d \times d})$に対して、
$$\begin{aligned} A \succeq B \iff A-B {\small は半正定値} \end{aligned}$$


また「半正定値」というワードについては以下の通りです。


対称行列$C (\in \mathbb{R}^{d \times d})$に対して、
$$\begin{aligned} C {\small は半正定値} \iff \vec x^{\top} C \vec x \geqq 0 ~~ (\forall \vec x \in \mathbb{R}^{d}) \end{aligned}$$

学習者

$\Cov[\tilde{\vec \beta}]-\Cov[\hat{\vec \beta}]$が半正定値であることを示していくことになるんですね。

(証明)

目的変数$y_i$、説明変数$x_{i,1}, \ldots, x_{i,d} ~ {\small (i=1, \cdots, n)}$に対して、
$$\begin{aligned} &\begin{cases} y_i &= \beta_1 x_{i,1} + \cdots + \beta_d x_{i,d} + \varepsilon_i ~~~~~ \mathrm{(A)} \\ E[\varepsilon_i] &= 0, V[\varepsilon_i] = \sigma^2, \Cov[\varepsilon_i, \varepsilon_j] = 0 ~~ {\small(i \neq j)} ~~~~~ \mathrm{(B)} \end{cases} \\ \iff &\begin{cases} \vec y &= \vec X \vec \beta + \vec \varepsilon ~~~~~ \mathrm{(C)} \\ E[\vec \varepsilon] &= \vec 0 ~~~~~ \mathrm{(D)} \\ V[\vec \varepsilon] &= \sigma^2 I_n ~~~~~ \mathrm{(E)} \end{cases} \end{aligned}$$という線形回帰モデルを扱う。


ただし、
$$\begin{aligned} \vec X &= \begin{pmatrix} x_{1,1} &\cdots &x_{1,d} \\ \vdots &\ddots &\vdots \\ x_{n,1} &\cdots &x_{n,d} \end{pmatrix} ~~ (\in \mathbb{R}^{n \times d}) \\ \vec y &= (y_1, \cdots, y_n)^{\top} ~~ (\in \mathbb{R}^{n}) \\ \vec \beta &= (\beta_1, \cdots, \beta_d)^{\top} ~~ (\in \mathbb{R}^{d}) \\ \vec \varepsilon &= (\varepsilon_1, \cdots, \varepsilon_n)^{\top} ~~ (\in \mathbb{R}^{n}) \end{aligned}$$とする。




最小$2$乗推定量$\hat{\vec \beta}$と、任意の線形不偏推定量$\tilde{\vec \beta}$に対して、
$$\begin{aligned} \Cov[\tilde{\vec \beta}] \succeq \Cov[\hat{\vec \beta}] \end{aligned}$$を示せばよい。




$\tilde{\vec \beta}$は線形推定量なので、
$$\begin{aligned} \tilde{\vec \beta} = \vec C \vec y ~~ (\vec C \in \mathbb{R}^{d \times n}) ~~~~~ \mathrm{(A”’)} \end{aligned}$$と書くことができるが、
$\tilde{\vec \beta}$は不偏推定量でもあるので、
$$\begin{alignat}{2} \notag &&E[\tilde{\vec \beta}] &= \vec \beta ~~~~~ \mathrm{(B”’)} \\[10px] \notag &\Rightarrow& E[\vec C \vec y] &= \vec \beta \\ \notag &&&{\scriptsize((A”’)より)} \\[10px] \notag &\Rightarrow& E[\vec C (\vec X \vec \beta + \vec \varepsilon)] &= \vec \beta \\ \notag &&&{\scriptsize((C)より)} \\[10px] \notag &\Rightarrow& \vec C \vec X \vec \beta &= \vec \beta \\ \notag &&&{\scriptsize((D)より)} \\[10px] \notag &\Rightarrow& \vec C \vec X &= I_d ~~~~~ \mathrm{(C”’)} \\ \notag &&&{\scriptsize(上式が任意の\vec \betaに対して成立する必要があるため)} \end{alignat}$$となる。


ところで$\Cov[\tilde{\vec \beta}]$については、
$$\begin{aligned} \Cov[\tilde{\vec \beta}] &= E[ (\tilde{\vec \beta}-E[\tilde{\vec \beta}]) (\tilde{\vec \beta}-E[\tilde{\vec \beta}])^{\top} ] \\[10px] &= E[ (\tilde{\vec \beta}-\vec \beta) (\tilde{\vec \beta}-\vec \beta)^{\top} ] \\ &{\scriptsize((B”’)より)} \\[10px] &= E[ (\vec C \vec y-\vec \beta) (\vec C \vec y-\vec \beta)^{\top} ] \\ &{\scriptsize((A”’)より)} \\[10px] &= E[ (\vec C \vec \varepsilon) (\vec C \vec \varepsilon)^{\top} ] \\ &{\scriptsize((C),(C”’)より)} \\[10px] &= E[ \vec C (\vec \varepsilon \vec \varepsilon^{\top}) \vec C^{\top} ] \\[10px] &= \sigma^2 \vec C \vec C^{\top} \\ &{\scriptsize((E)よりV[\vec \varepsilon] (=E[\vec \varepsilon \vec \varepsilon^{\top}])=\sigma^2 I_n)} \end{aligned}$$となるので、
最小$2$乗推定量$\hat{\vec \beta}$に対する$\hat{\vec C} = (\vec X^{\top} \vec X)^{-1} \vec X^{\top}$であることを考慮すると(参照:<最小$2$乗推定量>:(I))、
$$\begin{alignat}{2} \notag &&\Cov[\tilde{\vec \beta}] &\succeq \Cov[\hat{\vec \beta}] \\ \notag &\iff& \sigma^2 \vec C \vec C^{\top} &\succeq \sigma^2 \hat{\vec C} \hat{\vec C}^{\top} \\ \notag &\iff& \vec C \vec C^{\top} &\succeq \hat{\vec C} \hat{\vec C}^{\top} \end{alignat}$$を示せばよい。


ここで$\vec C \vec C^{\top}$について、
$$\begin{aligned} \vec C \vec C^{\top} &= \{ (\vec C-\hat{\vec C}) + \hat{\vec C} \} \{ (\vec C-\hat{\vec C}) + \hat{\vec C} \}^{\top} \\ &{\scriptsize(\hat{\vec C}を産み出したいので無理やり産み出した)} \\ &= (\vec C-\hat{\vec C}) (\vec C-\hat{\vec C})^{\top} + \underbrace{(\vec C-\hat{\vec C}) \hat{\vec C}^{\top}}_{\bullet} \\ &+ \underbrace{\hat{\vec C} (\vec C-\hat{\vec C})^{\top}}_{\circ} + \hat{\vec C} \hat{\vec C}^{\top} \\ &= \underbrace{(\vec C-\hat{\vec C}) (\vec C-\hat{\vec C})^{\top}}_{\square} + \hat{\vec C} \hat{\vec C}^{\top} \\ &{\scriptsize(\bullet = (\vec C-\hat{\vec C}) \vec X (\vec X^{\top} \vec X)^{-1} = (\vec C \vec X-\hat{\vec C} \vec X)(\vec X^{\top} \vec X)^{-1} =(I-I)(\vec X^{\top} \vec X)^{-1} = \vec 0)} \\ &{\scriptsize(\circは\bulletの転置なので\vec 0)} \\ &\succeq \hat{\vec C} \hat{\vec C}^{\top} \\ &{\scriptsize(一般に対称行列Dに対してD D^{\top} \succeq \vec 0であり、\square \succeq \vec 0)} \end{aligned}$$


よって、
$$\begin{alignat}{2} \notag &&\vec C \vec C^{\top} &\succeq \hat{\vec C} \hat{\vec C}^{\top} \\ \notag &\iff& \Cov[\tilde{\vec \beta}] &\succeq \Cov[\hat{\vec \beta}] \end{alignat}$$が示された。