補足. 主成分分析

$\gdef \vec#1{\boldsymbol{#1}} \\ \gdef \rank {\mathrm{rank}} \\ \gdef \det {\mathrm{det}} \\ \gdef \Bern {\mathrm{Bern}} \\ \gdef \Bin {\mathrm{Bin}} \\ \gdef \Mn {\mathrm{Mn}} \\ \gdef \Cov {\mathrm{Cov}} \\ \gdef \Po {\mathrm{Po}} \\ \gdef \HG {\mathrm{HG}} \\ \gdef \Geo {\mathrm{Geo}}\\ \gdef \N {\mathrm{N}} \\ \gdef \LN {\mathrm{LN}} \\ \gdef \U {\mathrm{U}} \\ \gdef \t {\mathrm{t}} \\ \gdef \F {\mathrm{F}} \\ \gdef \Exp {\mathrm{Exp}} \\ \gdef \Ga {\mathrm{Ga}} \\ \gdef \Be {\mathrm{Be}} \\ \gdef \NB {\mathrm{NB}} \\ \gdef \indep {\mathop{\perp\!\!\!\!\perp}} \\ \gdef \tr {\mathrm{tr}}$

(示すべき内容)

サンプルサイズ$n$の標本を対象に、$p$個の変数を収集し、それを
$$\begin{aligned} \vec x_i = (x_{i1}, x_{i2}, \cdots, x_{ip}) ~~~~~ {\small(i=1,\cdots, n)} \end{aligned}$$とまとめた上で、これに対して主成分分析を行う。
(ただし、すでにデータの前処理としての中心化ないし標準化をしてあるものとする)


主成分分析における射影軸の見つけ方のルールとして、

・射影軸1は、射影した時に分散を最大化する軸
・射影軸2は、射影軸1に直行するという条件の下で、射影した時に分散を最大化する軸
・射影軸3は、射影軸1,2に直行するという条件の下で、射影した時に分散を最大化する軸
・(以下略)

となる。


ところで、
$$\begin{aligned} S \vec u &= \lambda \vec u ~~~~~ \mathrm{(A)} \\ &{\scriptsize(S=\frac{1}{n-1} \sum_{i=1}^{n} \vec x_i \vec x_i^{\top})} \end{aligned}$$の解を$(\vec u_1, \lambda_1), (\vec u_2, \lambda_2), \cdots, (\vec u_p, \lambda_p)$(ただし$\color{red}{ \lambda_1 \gt \lambda_2 \gt \cdots \gt \lambda_p }$)とすると、

・射影軸1は$\vec u_1$
・射影軸2は$\vec u_2$
・(途中省略)
・射影軸pは$\vec u_p$

となる。

証明.

(以下ではデータの前処理としての中心化ないし標準化がすでにされてるものとする)

(射影軸1について)
$\vec x_i \Rightarrow \vec x_i^{\top} \vec u$、と射影した時に、$\{ \vec x_i^{\top} \vec u \} ~~ \small{(i=1,\cdots,n)}$の分散を最大化するベクトル$\vec u$(ただし$|| \vec u || = 1$)を見つける。


そのためには、$|| \vec u || = 1$、という条件のもとで、
$$\begin{aligned} \dfrac{1}{n-1} \sum_{i=1}^{n} (\vec x_i^{\top} \vec u)^2 &= \dfrac{1}{n-1} \sum_{i=1}^{n} (\vec u^{\top} \vec x_i) (\vec x_i^{\top} \vec u) \\ &= \vec u^{\top} (\dfrac{1}{n-1} \sum_{i=1}^{n} \vec x_i \vec x_i^{\top}) \vec u \\ &= \vec u^{\top} S \vec u \\ &{\scriptsize(Sは分散共分散行列を表す)} \end{aligned}$$を最大化するという問題を解く必要がある。


ラグランジュの未定乗数法として、
$$\begin{aligned} L_1 = (\vec u^{\top} S \vec u)-\lambda (|| \vec u ||^2-1) \end{aligned}$$とおいて、これを$\vec u$で偏微分して$=0$とすると、
$$\begin{aligned} (\dfrac{\partial}{\partial \vec u} L_1) = \dfrac{\partial}{\partial \vec u} \{ (\vec u^{\top} S \vec u)-\lambda (|| \vec u ||^2-1) \} &= 0 \\ \Rightarrow 2 S \vec u-\lambda \cdot 2 \vec u &= 0 \\ \Rightarrow S \vec u &= \lambda \vec u ~~~~~ \mathrm{(A)} \end{aligned}$$ $\mathrm{(A)}$に左から$\vec u^{\top}$を作用させると、
$$\begin{aligned} \vec u^{\top} S \vec u &= \lambda \vec u^{\top} \vec u \\ &= \lambda || \vec u ||^2 \\ &= \lambda \\ &{\scriptsize(|| \vec u ||=1より)} \end{aligned}$$となり、固有ベクトル$\vec u$に対する固有値$\lambda$そのものが、軸$\vec u$に射映した際の分散($\vec u^{\top} S \vec u = \frac{1}{n-1} \sum_{i=1}^{n} (\vec x_i^{\top} \vec u)^2$)に相当することがわかる。


そのため、$\mathrm{(A)}$を解いて出てくる固有ベクトル$\vec u$のうち、最大の固有値$\lambda$に対応する固有ベクトル$\vec u$が求める射影軸1となる。





(射影軸2について)
$\vec u^{\top} S \vec u$の最大化問題を解くことにかわりはないが、$|| \vec u || = 1$、という条件に加えて、$\color{red}{\vec u^{\top} \vec u_1 = 0 ~~ (\iff \vec u \perp \vec u_1)}$という条件が加わる。


よって、ラグランジュの未定乗数法として、
$$\begin{aligned} L_2 = (\vec u^{\top} S \vec u)-\lambda (|| \vec u ||^2-1)-\mu (\vec u^{\top} \vec u_1) \end{aligned}$$とおいて、これを$\vec u$で偏微分して$=0$とすると、
$$\begin{aligned} (\dfrac{\partial}{\partial \vec u} L_2) = \dfrac{\partial}{\partial \vec u} \{ (\vec u^{\top} S \vec u)-\lambda (|| \vec u ||^2-1)-\mu (\vec u^{\top} \vec u_1) \} &= 0 \\ \Rightarrow 2 S \vec u-\lambda \cdot 2 \vec u-\mu \vec u_1 &= 0 \\ \Rightarrow S \vec u &= \lambda \vec u + \dfrac{\mu}{2} \vec u_1 \end{aligned}$$これにに左から$\vec u_1^{\top}$を作用させると、
$$\begin{aligned} \vec u_1^{\top} S \vec u &= \lambda \underbrace{\vec u_1^{\top} \vec u}_{=0} + \dfrac{\mu}{2} \underbrace{\vec u_1^{\top} \vec u_1}_{=1} \\ \Rightarrow \lambda_1 \vec u_1^{\top} \vec u &= \dfrac{\mu}{2} \\ &{\scriptsize(S \vec u_1 = \lambda_1 \vec u_1の転置をとると\vec u_1^{\top} S^{\top} = \lambda_1 \vec u_1^{\top}であり、S^{\top} = Sより\vec u_1^{\top} S = \lambda_1 \vec u_1^{\top} )} \\ \Rightarrow \mu &= 0 \\ &{\scriptsize(\vec u_1^{\top} \vec u = 0より)} \end{aligned}$$となるので、結局のところ、
$$\begin{aligned} S \vec u &= \lambda \vec u ~~~~~ \mathrm{(B)} \end{aligned}$$を考えればよい。


つまり、$\mathrm{(A)}$と同じ固有値問題がでてきて、この解のうち最大の固有値$\lambda$に対応する固有ベクトル$\vec u$が求める射影軸2となる。


しかしながら、$\vec u^{\top} \vec u_1 = 0$、という条件が今回ついているため、$\mathrm{(B)}$の解である$(\vec u_1, \lambda_1), (\vec u_2, \lambda_2),\cdots, (\vec u_p, \lambda_p)$のうち$(\vec u_1, \lambda_1)$は選出することができない。


よって、残るの解である$(\vec u_2, \lambda_2), (\vec u_3, \lambda_3),\cdots, (\vec u_p, \lambda_p)$のうち最大の固有値$\lambda_2$に対応する$\vec u_2$が射影軸2となる。





(射影軸3について)
$\vec u^{\top} S \vec u$の最大化問題を解くことにかわりはないが、$|| \vec u || = 1$、という条件に加えて、$\color{red}{\vec u^{\top} \vec u_1 = 0 ~~ (\iff \vec u \perp \vec u_1)}, \color{red}{\vec u^{\top} \vec u_2 = 0 ~~ (\iff \vec u \perp \vec u_2)}$という条件が加わる。


よって、ラグランジュの未定乗数法として、
$$\begin{aligned} L_3 = (\vec u^{\top} S \vec u)-\lambda (|| \vec u ||^2-1)-\mu (\vec u^{\top} \vec u_1)-\kappa (\vec u^{\top} \vec u_2) \end{aligned}$$とおいて、(以下省略:射影軸2の時と同様に最終的に$\mathrm{(A)}$ないし$\mathrm{(B)}$の形に帰着され、残るの解である$(\vec u_3, \lambda_3), (\vec u_4, \lambda_4),\cdots, (\vec u_p, \lambda_p)$のうち最大の固有値$\lambda_3$に対応する$\vec u_3$が射影軸3となる。)





(射影軸4以降は上記と同様の議論であるため省略)