連続分布_(多変量)正規分布

$\gdef \vec#1{\boldsymbol{#1}} \\ \gdef \rank {\mathrm{rank}} \\ \gdef \det {\mathrm{det}} \\ \gdef \Bern {\mathrm{Bern}} \\ \gdef \Bin {\mathrm{Bin}} \\ \gdef \Mn {\mathrm{Mn}} \\ \gdef \Cov {\mathrm{Cov}} \\ \gdef \Po {\mathrm{Po}} \\ \gdef \HG {\mathrm{HG}} \\ \gdef \Geo {\mathrm{Geo}}\\ \gdef \N {\mathrm{N}} \\ \gdef \LN {\mathrm{LN}} \\ \gdef \U {\mathrm{U}} \\ \gdef \t {\mathrm{t}} \\ \gdef \F {\mathrm{F}} \\ \gdef \Exp {\mathrm{Exp}} \\ \gdef \Ga {\mathrm{Ga}} \\ \gdef \Be {\mathrm{Be}} \\ \gdef \NB {\mathrm{NB}}$

(再掲)
$\vec X \sim \N_n(\vec \mu, \vec \Sigma)$である時、その確率密度関数$f(\vec x)$は、
$$\begin{aligned} f(\vec x) = \dfrac{1}{(2 \pi)^\frac{n}{2} (\det \vec \Sigma)^{\frac{1}{2}}} \exp[- \dfrac{1}{2} (\vec x – \vec \mu)^\top \vec \Sigma^{-1} (\vec x – \vec \mu)] ~~ (\vec x \in \mathbb{R^n}) \end{aligned}$$であり、その特性値は、
$$\begin{aligned} &{\small ①平均ベクトル:}E[\vec X] = \vec \mu \\ &{\small ②分散共分散行列:}V[\vec X] (= E[(\vec X – \vec \mu)(\vec X – \vec \mu)^\top]) = \vec \Sigma \\ &{\small ③積率母関数:}M^{\vec X}(\vec \theta) = \exp [\vec \theta^\top \vec \mu + \vec \theta^\top \vec \Sigma \vec \theta \cdot \dfrac{1}{2}] \end{aligned}$$となる。

(①平均$E[X]$の証明)
$$\begin{aligned} E[\vec X] &= \int \vec x f(\vec x) d\vec x \\ &= \int \{ (\vec x – \vec \mu) + \vec \mu \} f(\vec x) d\vec x \\ &= \int (\vec x – \vec \mu) f(\vec x) d\vec x + \vec \mu \int f(\vec x) d\vec x \\ &= \underbrace{\int (\vec x – \vec \mu) f(\vec x) d\vec x}_{(1)} + \vec \mu ~~~~~ \mathrm{(A)} \end{aligned}$$となる。


$\mathrm{(A)}$の$(1)$について考えると、
$$\begin{aligned} {\small ((A)の(1))} &= \dfrac{1}{(2 \pi)^{\frac{n}{2}} (\det \Sigma)^{\frac{1}{2}}} \int (\vec x – \vec \mu) \cdot \exp[- \dfrac{1}{2} (\vec x – \vec \mu)^\top \vec \Sigma^{-1} (\vec x – \vec \mu)] d\vec x \\[10px] &= \dfrac{1}{(2 \pi)^{\frac{n}{2}} (\det \Sigma)^{\frac{1}{2}}} \int (\vec x – \vec \mu) \cdot \exp[- \dfrac{1}{2} (\vec x – \vec \mu)^\top \vec (A A^\top)^{-1} (\vec x – \vec \mu)] d\vec x \\ &{\scriptsize (\Sigmaは正定値行列であるため、ある正則行列Aを用いて\Sigma = A A^\topと書ける)} \\[10px] &= \dfrac{1}{(2 \pi)^{\frac{n}{2}} (\det \Sigma)^{\frac{1}{2}}} \int (\vec x – \vec \mu) \cdot \exp[- \dfrac{1}{2} (A^{-1}(\vec x – \vec \mu))^\top (A^{-1}(\vec x – \vec \mu)) ] d\vec x \\ &{\scriptsize (一般に行列B, Cに対して、1. (BC)^\top = C^\top B^\top, 2. (BC)^{-1} = C^{-1} B^{-1}, 3. (B^\top)^{-1} = (B^{-1})^\top)、を用いた)} \\[10px] &= \dfrac{A}{(2 \pi)^{\frac{n}{2}} (\det \Sigma)^{\frac{1}{2}}} \int A^{-1} (\vec x – \vec \mu) \cdot \exp[- \dfrac{1}{2} (A^{-1}(\vec x – \vec \mu))^\top (A^{-1}(\vec x – \vec \mu)) ] d\vec x \\ &{\scriptsize (A^{-1}(\vec x – \vec \mu)、という塊を作るために無理やり冒頭にA, A^{-1}を産み出した)} \\[10px] &= \dfrac{A}{(2 \pi)^{\frac{n}{2}} (\det \Sigma)^{\frac{1}{2}}} \int \vec z \cdot \exp [- \dfrac{1}{2} \vec z^\top \vec z] \cdot |\det A| d\vec z \\ &{\scriptsize (A^{-1}(\vec x – \vec \mu) = \vec z、と変数変換をした。<確率変数の変数変換>)} \\[10px] &= \dfrac{A |\det A|}{(2 \pi)^{\frac{n}{2}} (\det (A A^{\top}))^{\frac{1}{2}}} \int \vec z \cdot \exp [- \dfrac{1}{2} \vec z^\top \vec z] d\vec z \\[10px] &= \dfrac{A}{(2 \pi)^{\frac{n}{2}}} \underbrace{\int \vec z \cdot \exp [- \dfrac{1}{2} \vec z^\top \vec z] d\vec z}_{(2)} ~~~~~ \mathrm{(B)} \\ &{\scriptsize (\det AA^{\top} = \det A \times \det A^{\top} = \det A \times \det A = (\det A)^2より、|\det A|と\det (A A^{\top})は打ち消し合う)} \end{aligned}$$となる。(参照:<確率変数の変数変換>


$\mathrm{(B)}$の$(2)$の第$i$成分について考えると、
$$\begin{aligned} {\small ((B)の(2)の第i成分)} &= \int \cdots \int \int z_i \cdot \exp [-\dfrac{1}{2} (z_1^2 + \cdots + z_i^2 + \cdots + z_n^2)] dz_i dz_1 \cdots dz_n \\ &= \underbrace{\int_{-\infty}^{\infty} z_i \exp (- \dfrac{z_i^2}{2}) dz_i}_{\bullet} \times \int \exp (- \dfrac{1}{2} \sum_{j:j \neq i} z_j^2) d\vec z_{(-i)} \\ &= 0 \\ &{\scriptsize (\int内は奇関数なので\bulletは0になる)} \end{aligned}$$

よって$\mathrm{(B)} = 0$となるため、$\mathrm{(A)}$より、$$\begin{aligned} E[\vec X] = \vec \mu \end{aligned}$$となる。

(②分散$V[X]$の証明)
$$\begin{aligned} V[\vec X] &= \int (\vec x – \vec \mu)(\vec x – \vec \mu)^{\top} f(\vec x) d\vec x \\[10px] &= \dfrac{1}{(2 \pi)^{\frac{n}{2}} (\det \Sigma)^{\frac{1}{2}}} \int (\vec x – \vec \mu)(\vec x – \vec \mu)^{\top} \cdot \exp[- \dfrac{1}{2} (\vec x – \vec \mu)^\top \Sigma^{-1} (\vec x – \vec \mu)] d\vec x \\[10px] &= \dfrac{1}{(2 \pi)^{\frac{n}{2}} (\det \Sigma)^{\frac{1}{2}}} \int (\vec x – \vec \mu)(\vec x – \vec \mu)^{\top} \cdot \exp[- \dfrac{1}{2} (\vec x – \vec \mu)^\top (A A^{\top})^{-1} (\vec x – \vec \mu)] d\vec x \\ &{\scriptsize (\Sigmaは正定値行列であるため、ある正則行列Aを用いて\Sigma = A A^\topと書ける)} \\[10px] &= \dfrac{1}{(2 \pi)^{\frac{n}{2}} (\det \Sigma)^{\frac{1}{2}}} \int (\vec x – \vec \mu)(\vec x – \vec \mu)^{\top} \cdot \exp[- \dfrac{1}{2} (A^{-1} (\vec x – \vec \mu))^{\top} (A^{-1} (\vec x – \vec \mu))] d\vec x \\[10px] &= \dfrac{1}{(2 \pi)^{\frac{n}{2}} (\det A A^{\top})^{\frac{1}{2}}} \int A \vec y (A \vec y)^{\top} \cdot \exp[- \dfrac{1}{2} \vec y^{\top} \vec y] \cdot |\det A| d\vec y \\ &{\scriptsize (\vec x – \vec \mu = A \vec y、と変数変換をした。<確率変数の変数変換>)} \\[10px] &= \dfrac{1}{(2 \pi)^{\frac{n}{2}}} \int A \vec y (A \vec y)^{\top} \cdot \exp[- \dfrac{1}{2} \vec y^{\top} \vec y] d\vec y \\ &{\scriptsize (\det AA^{\top} = \det A \times \det A^{\top} = \det A \times \det A = (\det A)^2より、|\det A|と\det (A A^{\top})は打ち消し合う)} \\[10px] &= \dfrac{1}{(2 \pi)^{\frac{n}{2}}} A (\int \vec y \vec y^{\top} \cdot \exp[- \dfrac{1}{2} \vec y^{\top} \vec y] d\vec y) A^{\top} \\[10px] &= \dfrac{1}{(2 \pi)^{\frac{n}{2}}} A \cdot (2 \pi)^{\frac{n}{2}} I \cdot A^{\top} \\ &{\scriptsize (ガウス積分より\int \vec y \vec y^{\top} \cdot \exp[- \dfrac{1}{2} \vec y^{\top} \vec y] d\vec y = (2 \pi)^{\frac{n}{2}} I。ただしIはn \times nの単位行列。)} \\[10px] &= A A^{\top} \\[10px] &= \Sigma \end{aligned}$$

(③積率母関数$M^X(\theta)$の証明)
$$\begin{aligned} M^{\vec X}(\vec \theta) &= E[e^{\vec \theta^{\top} \vec x}] \\[10px] &= \int e^{\vec \theta^{\top} \vec x} f(\vec x) d\vec x \\[10px] &= \int e^{\vec \theta^{\top} \{ \vec \mu + (\vec x – \vec \mu) \}} f(\vec x) d\vec x \\[10px] &= e^{\vec \theta^{\top} \vec \mu} \cdot \int e^{\vec \theta^{\top} (\vec x – \vec \mu) } f(\vec x) d\vec x \\[10px] &= e^{\vec \theta^{\top} \vec \mu} \cdot \int e^{\vec \theta^{\top} A A^{-1} (\vec x – \vec \mu) } f(\vec x) d\vec x \\ &{\scriptsize (A^{-1}(\vec x – \vec \mu)、という塊を作るために無理やり冒頭にA, A^{-1}を産み出した)} \\[10px] &= e^{\vec \theta^{\top} \vec \mu} \cdot \dfrac{1}{(2 \pi)^{\frac{n}{2}} (\det \Sigma)^{\frac{1}{2}}} \cdot \int e^{\vec \theta^{\top} A A^{-1} (\vec x – \vec \mu) } \cdot \exp[- \dfrac{1}{2} (\vec x – \vec \mu)^\top \vec \Sigma^{-1} (\vec x – \vec \mu)] d\vec x \\[10px] &= e^{\vec \theta^{\top} \vec \mu} \cdot \dfrac{1}{(2 \pi)^{\frac{n}{2}} (\det AA^{\top})^{\frac{1}{2}}} \cdot \int e^{\vec \theta^{\top} A \vec z} \cdot \exp [- \dfrac{1}{2} \vec z^{\top} \vec z] \cdot |\det A| d\vec z \\ &{\scriptsize (A^{-1}(\vec x – \vec \mu) = \vec z、と変数変換をした。<確率変数の変数変換>)} \\[10px] &= e^{\vec \theta^{\top} \vec \mu} \cdot \dfrac{1}{(2 \pi)^{\frac{n}{2}}} \cdot \int \exp [- \dfrac{1}{2} \vec z^{\top} \vec z + \vec \theta^{\top} A \vec z] d\vec z  \\ &{\scriptsize (\det AA^{\top} = \det A \times \det A^{\top} = \det A \times \det A = (\det A)^2より、|\det A|と\det (A A^{\top})は打ち消し合う)} \\[10px] &= e^{\vec \theta^{\top} \vec \mu} \cdot \dfrac{1}{(2 \pi)^{\frac{n}{2}}} \cdot \int \exp [-\dfrac{1}{2} \sum_{i=1}^n z_i^2 + \sum_{i=1}^n \theta_i^{\prime} z_i] d\vec z \\ &{\scriptsize (ただし\vec \theta^{\top}A = \vec \theta^{\prime \top}とおき、その第i成分を\theta_i^{\prime}とした)} \\[10px] &= e^{\vec \theta^{\top} \vec \mu} \cdot \dfrac{1}{(2 \pi)^{\frac{n}{2}}} \cdot \underbrace{\prod_{i=1}^n \int \exp [-\dfrac{1}{2} z_i^2 + \theta_i^{\prime} z_i] dz_i}_{(3)} ~~~~~ \mathrm{(C)} \end{aligned}$$となる。


$\mathrm{(C)}$の$(3)$の第$i$成分について考えると、
$$\begin{aligned} {\small ((C)の(3)の第i成分)} &= \int \exp [-\dfrac{1}{2} z_i^2 + \theta_i^{\prime} z_i] dz_i \\[10px] &= \int \exp [- \dfrac{1}{2} (z_i – \theta_i^{\prime})^2 + \dfrac{1}{2} \theta_i^{\prime 2}] dz_i \\[10px] &= \exp [\dfrac{1}{2} \theta_i^{\prime 2}] \cdot \int \exp [- \dfrac{1}{2} z_i^{\prime 2}] dz_i^{\prime} \\ &{\scriptsize (z_i^{\prime} = z_i – \theta_i^{\prime}とおいた)}\\[10px] &= \sqrt{2 \pi} \cdot \exp [\dfrac{1}{2} \theta_i^{\prime 2}] \\ &{\scriptsize (ガンマ積分より)} \end{aligned}$$となるが、$\theta_i^{\prime 2}$は$\vec \theta^{\top} \Sigma \vec \theta (=\vec \theta^{\top} A A^{\top} \vec \theta = (\vec \theta^{\top} A)(\vec \theta^{\top} A)^{\top} = \vec \theta^{\prime \top} \vec \theta^{\prime} = \sum_{i=1}^n \theta_i^{\prime2})$の第$i$成分であった。


これと$\mathrm{(C)}$より、
$$\begin{aligned} M^{\vec X}(\vec \theta) &= e^{\vec \theta^{\top} \vec \mu} \cdot \dfrac{1}{(2 \pi)^{\frac{n}{2}}} \cdot (\sqrt{2 \pi})^n \cdot \exp [\vec \theta^T \Sigma \vec \theta \cdot \dfrac{1}{2}] \\ &= \exp [\vec \theta^\top \vec \mu + \vec \theta^\top \vec \Sigma \vec \theta \cdot \dfrac{1}{2}] \end{aligned}$$となる。