統計学

フィッシャー情報量

$\gdef \vec#1{\boldsymbol{#1}} \\ \gdef \rank {\mathrm{rank}} \\ \gdef \det {\mathrm{det}} \\ \gdef \Bern {\mathrm{Bern}} \\ \gdef \Bin {\mathrm{Bin}} \\ \gdef \Mn {\mathrm{Mn}} \\ \gdef \Cov {\mathrm{Cov}} \\ \gdef \Po {\mathrm{Po}} \\ \gdef \HG {\mathrm{HG}} \\ \gdef \Geo {\mathrm{Geo}}\\ \gdef \N {\mathrm{N}} \\ \gdef \LN {\mathrm{LN}} \\ \gdef \U {\mathrm{U}} \\ \gdef \t {\mathrm{t}} \\ \gdef \F {\mathrm{F}} \\ \gdef \Exp {\mathrm{Exp}} \\ \gdef \Ga {\mathrm{Ga}} \\ \gdef \Be {\mathrm{Be}} \\ \gdef \NB {\mathrm{NB}}$

学習者

「フィッシャー情報量」ですか。
なんだか難しそうな量が出てきましたね。

すたどく

確かに初見の際にはイメージし難い概念かもしれません。
フィッシャー情報量」とは得られた観測データがもつ(分布パラメータについての)情報量で、推定のための量(「推定量」)の推定精度を反映します。

学習者

フィッシャー情報量が大きければ推定精度が高いのでしょうか?

すたどく

その通りです。
例えば「不偏性*」をもつ推定量については、推定量の分散の下限がフィッシャー情報量の逆数となっており、フィッシャー情報量が大きいほどこの分散の下限が小さくなり、推定精度が高くなります。

*:「不偏性」については<不偏推定量>で別途扱います。

1. フィッシャー情報量

(定義)
確率ベクトル$\vec X=(X_1, \ldots, X_n)$の同時確率関数(同時確率密度関数)を$f_n(\vec x;\theta)$と表した時(ただし$\theta$は分布パラメータ)、フィッシャー情報量$I_n(\theta)$は
$$\begin{aligned} I_n(\theta) = E [ (\dfrac{\partial \log f_n(\vec X;\theta)}{\partial \theta})^2 ] \end{aligned}$$
と定義されます。

例題1.
$X \sim \Po(\lambda)$である時、フィッシャー情報量$I_1(\lambda)$を求めよ。
ただし、$\Po(\lambda)$の確率関数$f_1(x; \lambda)$は、
$$\begin{aligned} f_1(x; \lambda) = \dfrac{\lambda^x e^{-\lambda}}{x!} \end{aligned}$$である。

解答.

$$\begin{alignat}{2} &&\log f_1(x; \lambda) &= x \log \lambda-\lambda-\log x! \notag \\[10px] &\Rightarrow& \dfrac{\partial}{\partial \lambda} \log f_1(x; \lambda) &= \dfrac{x}{\lambda}-1 \notag \end{alignat}$$
となるため、
$$\begin{aligned} I_1(\lambda) &= E[(\dfrac{\partial}{\partial \lambda} \log f_1(X; \lambda))^2] \\[10px] &= E[(\dfrac{X}{\lambda}-1)^2] \\[10px] &= (\dfrac{1}{\lambda})^2 E[(X-\lambda)^2] \\[10px] &= (\dfrac{1}{\lambda})^2 \lambda \\ &{\scriptsize (E[(X-\lambda)^2] = E[(X-E[X])^2] = V[X] = \lambda)} \\[10px] &= \dfrac{1}{\lambda} \end{aligned}$$

2. フィッシャー情報量について覚えておくべき性質

性質1.
$$\begin{aligned} (I_n(\theta)=)~~ E[(\dfrac{\partial \log f_n(\vec X; \theta)}{\partial \theta})^2] = E[-\dfrac{\partial^2 \log f_n(\vec X; \theta)}{\partial \theta^2}] \end{aligned}$$

性質2.
$X_i \overset{i.i.d}\sim F~~{\small (i=1, \ldots, n)}$である時、$I_n(\theta) = n I_1(\theta)$

(再掲)性質1.
$$\begin{aligned} (I_n(\theta)=)~~ \underbrace{E[(\dfrac{\partial \log f_n(\vec X; \theta)}{\partial \theta})^2]}_{(1)} = \underbrace{E[-\dfrac{\partial^2 \log f_n(\vec X; \theta)}{\partial \theta^2}]}_{(2)} \end{aligned}$$

すたどく

$I_n(\theta)$を求める時に、$\mathrm{(1)}$(定義通り)の通り$2$乗の計算をするよりも、この性質を利用して$\mathrm{(2)}$の通り$2$階微分を計算する方が楽なことが多いです。

(証明)
$\dfrac{\partial^2 \log f_n(\vec x; \theta)}{\partial \theta^2}$について考えると、
$$\begin{aligned} \dfrac{\partial^2 \log f_n(\vec x; \theta)}{\partial \theta^2} &= \dfrac{\partial}{\partial \theta} (\dfrac{\partial}{\partial \theta} \log f_n(\vec x; \theta)) \\[10px] &=\dfrac{\partial}{\partial \theta} (\dfrac{\frac{\partial}{\partial \theta} f_n(\vec x; \theta)}{f_n(\vec x; \theta)}) \\ &{\scriptsize (()内で\log f_n(\vec x; \theta)の微分をした)} \\[10px] &= \dfrac{\frac{\partial^2}{\partial \theta^2} f_n(\vec x; \theta)}{f_n(\vec x; \theta)}-\dfrac{(\frac{\partial}{\partial \theta} f_n(\vec x; \theta))^2}{(f_n(\vec x; \theta))^2} \end{aligned}$$となり、上式の両辺に$f_n(\vec x; \theta)$を乗じて$\vec x$について積分すると、
$$\begin{aligned} \underbrace{\int \dfrac{\partial^2 \log f_n(\vec x; \theta)}{\partial \theta^2} f_n(\vec x; \theta) d\vec x}_{(3)} = \underbrace{\int \dfrac{\partial^2}{\partial \theta^2} f_n(\vec x; \theta) d\vec x}_{(4)}-\underbrace{\int \dfrac{(\frac{\partial}{\partial \theta} f_n(\vec x; \theta))^2}{f_n(\vec x; \theta)} d\vec x}_{(5)} \end{aligned}$$となる。


$\mathrm{(3)}$は$E[\dfrac{\partial^2 \log f_n(\vec X; \theta)}{\partial \theta^2}]$に、$\mathrm{(5)}$は$E[(\dfrac{\partial}{\partial \theta} \log f_n(\vec X; \theta))^2]$に相当し、 $\mathrm{(4)}$については、 $$\begin{alignat}{2} &&&\int f_n(\vec x; \theta) d\vec x = 1 \notag \\[10px] &\Rightarrow& &\dfrac{\partial}{\partial \theta} \int f_n(\vec x; \theta) d\vec x = 0 \notag \\ &&&{\scriptsize (両辺を\thetaで微分した)} \notag \\[10px] &\Rightarrow& &\int \dfrac{\partial}{\partial \theta} f_n(\vec x; \theta) d\vec x = 0 \notag \\ &&&{\scriptsize (\frac{\partial}{\partial \theta}を\int内に入れた←ただし、ここでは微分・積分の順序変更は可能とした)} \notag \\[10px] &\Rightarrow& &\int \dfrac{\partial^2}{\partial \theta^2} f_n(\vec x; \theta) d\vec x = 0 \notag \\ &&&{\scriptsize (微分して\frac{\partial}{\partial \theta}を\int内に入れる、をくり返した)} \notag \end{alignat}$$より$0$となる。


以上より、
$$\begin{aligned} E[(\dfrac{\partial \log f_n(\vec X; \theta)}{\partial \theta})^2] = E[-\dfrac{\partial^2 \log f_n(\vec X; \theta)}{\partial \theta^2}] \end{aligned}$$が成立する。

すたどく

$l(\theta) = \log f_n(\vec x; \theta)$とすると、
$E[(l^{\prime} (\theta))^2] = E[-l^{\prime\prime}(\theta)]$、と書くことができます。
こちらの方が覚えるにはシンプルかもしれません。

(再掲)性質2.
$X_i \overset{i.i.d}\sim F~~{\small (i=1, \ldots, n)}$である時、$I_n(\theta) = n I_1(\theta)$

学習者

$X_1, \ldots, X_n$が独立に同一分布に従う時は、
(全体のフィッシャー情報量)は(ある$1$つの確率変数に対応するフィッシャー情報量)の$n$倍となるんですね!

(証明)
確率ベクトル$\vec X=(X_1, \ldots, X_n)$の同時確率関数(同時確率密度関数)を$f_n(\vec x;\theta)$、分布$F$に対応する確率関数(確率密度関数)を$f_1(x; \theta)$とする。


$X_i \overset{i.i.d}\sim F~~{\small (i=1, \ldots, n)}$である時、 $$\begin{aligned} f_n(\vec x;\theta) = \prod_{i=1}^{n} f_1(x_i; \theta) \end{aligned}$$と書くことができ、両辺に$\log$をとると、
$$\begin{aligned} \log f_n(\vec x;\theta) = \sum_{i=1}^{n} \log f_1(x_i; \theta) \end{aligned}$$となる。


上式に対して$\theta$で$2$階微分して$(-1)$を乗じたものに$\vec X$の期待値をとると、
$$\begin{aligned} E[- \dfrac{\partial^2}{\partial \theta^2} \log f_n(\vec X; \theta) ] = E[- \sum_{i=1}^{n} \dfrac{\partial^2}{\partial \theta^2} \log f_1(X_i; \theta)] \end{aligned}$$となるが、この左辺は$I_n(\theta)$に相当し、右辺は、
$$\begin{aligned} E[- \sum_{i=1}^{n} \dfrac{\partial^2}{\partial \theta^2} \log f_1(X_i; \theta)] &= \sum_{i=1}^{n} E[- \dfrac{\partial^2}{\partial \theta^2} \log f_1(X_i; \theta)] \\[10px] &= \sum_{i=1}^{n} I_1(\theta) \\ &{\scriptsize (I_1(\theta) = E[- \frac{\partial^2}{\partial \theta^2} \log f_1(X_i; \theta)] ~~ (i=1, \ldots, n))} \\[10px] &= nI_1(\theta) \end{aligned}$$となっている。


以上より、
$$\begin{aligned} I_n(\theta) = n I_1(\theta) \end{aligned}$$が成立する。

例題2.
例題1について、性質1を用いて求めよ。

解答.

$$\begin{alignat}{2} &&\log f_1(x; \lambda) &= x \log \lambda-\lambda-\log x! \notag \\[10px] &\Rightarrow& \dfrac{\partial}{\partial \lambda} \log f_1(x; \lambda) &= \dfrac{x}{\lambda}-1 \notag \\[10px] &\Rightarrow& \dfrac{\partial^2}{\partial \lambda^2} \log f_1(\vec x; \lambda) &= – \dfrac{x}{\lambda^2} \notag \end{alignat}$$となるため、
$$\begin{aligned} I_1(\lambda) &= E[-\dfrac{\partial^2}{\partial \lambda^2} \log f_1(\vec X; \lambda) ] \\ &{\scriptsize (性質1より)} \\[10px] &= E[\dfrac{X}{\lambda^2}] \\ &{\scriptsize (上記より)} \\[10px] &= \dfrac{1}{\lambda^2} E[X] \\[10px] &= \dfrac{1}{\lambda} \\ &{\scriptsize (E[X]=\lambda)} \end{aligned}$$

例題3.
$X_i \overset{i.i.d}\sim \Po(\lambda) ~~{\small (i=1, \ldots, n)}$である時、フィッシャー情報量$I_n(\theta)$を求めよ。
ただし、$\Po(\lambda)$の確率関数$f_1(x; \lambda)$は、
$$\begin{aligned} f_1(x; \lambda) = \dfrac{\lambda^x e^{-\lambda}}{x!} \end{aligned}$$である。

解答.

例題1(2)より、
$$\begin{aligned} I_1(\lambda) = \dfrac{1}{\lambda} \end{aligned}$$であるから、
$$\begin{aligned} I_n(\lambda) &= n I_1(\lambda) \\ &{\scriptsize (X_i \overset{i.i.d}\sim \Po(\lambda) ~~ {\small (i=1, \ldots, n)}と性質2より)} \\[10px] &= \dfrac{n}{\lambda} \end{aligned}$$

3. フィッシャー情報行列

ここまでは分布パラメータがスカラーであることを想定していましたが、分布パラメータがベクトル(要素が$2$つ以上)である時には、フィッシャー情報量は行列になります。
(これを「フィッシャー情報行列」と言います)


(定義)
($\vec \theta$を分布パラメータを表すベクトルとして)
$$\begin{aligned} I_n(\vec \theta) = E[(\dfrac{\partial}{\partial \vec \theta} \log f_n(\vec X; \vec \theta))(\dfrac{\partial}{\partial \vec \theta} \log f_n(\vec X; \vec \theta))^{\top}] \end{aligned}$$と定義されます。


(性質)
(先に紹介した性質1,2に対応する以下性質が成立します)

性質1′.
$$\begin{aligned} (I_n(\vec \theta) =) ~~ E[(\dfrac{\partial}{\partial \vec \theta} \log f_n(\vec X; \vec \theta))(\dfrac{\partial}{\partial \vec \theta} \log f_n(\vec X; \vec \theta))^{\top}] = E[-\dfrac{\partial^2 \log f_n(\vec X; \vec \theta)}{\partial \vec \theta \partial \vec \theta^{\top}}] \end{aligned}$$

性質2′.
$X_i \overset{i.i.d}\sim F~~{\small (i=1, \ldots, n)}$である時、$I_n(\vec \theta) = n I_1(\vec \theta)$

すたどく

性質1’については、
$$\begin{aligned} {\small (I_n(\vec \theta)の(i,j)成分)} = E[-\dfrac{\partial^2 \log f(\vec X; \vec \theta)}{\partial \theta_i \partial \theta_j}] \end{aligned}$$と計算できるということです。

例題4.
$X_i \overset{i.i.d}\sim \N(\mu, \sigma^2) ~~{\small (i=1, \ldots, n)}$である時、フィッシャー情報行列$I_n(\mu, \sigma^2)$を求めよ。
ただし、$\N(\mu, \sigma^2)$の確率密度関数$f_1(x; \mu, \sigma^2)$は、 $$\begin{aligned} f_1(x; \mu, \sigma^2) = \dfrac{1}{\sqrt{2 \pi \sigma^2}} \exp (-\dfrac{(x-\mu)^2}{2 \sigma^2}) \end{aligned}$$である。

解答.

確率ベクトル$\vec X=(X_1, \ldots, X_n)$の同時確率関数(同時確率密度関数)を$f_n(\vec x;\theta)$とする。


$X_i \overset{i.i.d}\sim \N(\mu, \sigma^2) ~~ {\small (i=1, \ldots, n)}$である時、
$$\begin{aligned} f_n(\vec x;\mu, \sigma^2) = \prod_{i=1}^{n} f_1(x_i; \mu, \sigma^2) \end{aligned}$$と書くことができ、両辺に$\log$をとると、
$$\begin{aligned} (l_n:=) ~~ \log f_n(\vec x;\mu, \sigma^2) &= \sum_{i=1}^{n} \log f_1(x_i; \mu, \sigma^2) \\ &= \sum_{i=1}^{n} \log \{ \dfrac{1}{\sqrt{2 \pi \sigma^2}} \exp (-\dfrac{(x_i-\mu)^2}{2 \sigma^2}) \} \\ &= \sum_{i=1}^{n} \{ -\dfrac{1}{2} \log (2 \pi \sigma^2)-\dfrac{(x_i-\mu)^2}{2\sigma^2} \} ~~~~~ \mathrm{(A)} \end{aligned}$$となる。


$\mathrm{(A)}$の両辺を$\mu$で偏微分すると、
$$\begin{aligned} \dfrac{\partial l_n}{\partial \mu} &= \sum_{i=1}^{n} -\dfrac{1}{2 \sigma^2} \cdot 2(\mu-x_i) \\ &= \sum_{i=1}^{n} (\dfrac{x_i-\mu}{\sigma^2}) ~~~~~ \mathrm{(B)} \end{aligned}$$ $\mathrm{(A)}$の両辺を$\sigma^2$で偏微分すると、
$$\begin{aligned} \dfrac{\partial l_n}{\partial (\sigma^2)} &= \sum_{i=1}^{n} \{ -\dfrac{1}{2} \cdot \dfrac{2 \pi}{2 \pi \sigma^2}-\dfrac{(x_i-\mu)^2}{2} \cdot (-\dfrac{1}{\sigma^4}) \} \\ &= \sum_{i=1}^{n} \{ -\dfrac{1}{2 \sigma^2} + \dfrac{(x_i-\mu)^2}{2 \sigma^4} \} ~~~~~ \mathrm{(C)} \end{aligned}$$ $\mathrm{(B)}$の両辺を$\mu$で偏微分すると、
$$\begin{aligned} \dfrac{\partial^2 l_n}{\partial \mu^2} &= \sum_{i=1}^{n} \dfrac{(-1)}{\sigma^2} \\ &= -\dfrac{n}{\sigma^2} ~~~~~ \mathrm{(D)} \end{aligned}$$ $\mathrm{(C)}$の両辺を$\sigma^2$で偏微分すると、
$$\begin{aligned} \dfrac{\partial^2 l_n}{\partial (\sigma^2)^2} &= \sum_{i=1}^{n} \{ \dfrac{1}{2 \sigma^4}-\dfrac{(x_i-\mu)^2}{\sigma^6} \} \\ &= \dfrac{n}{2 \sigma^4}-\dfrac{1}{\sigma^6} \sum_{i=1}^{n}(x_i-\mu)^2 ~~~~~ \mathrm{(E)} \end{aligned}$$ $\mathrm{(B)}$の両辺を$\sigma^2$で偏微分すると、
$$\begin{aligned} \dfrac{\partial^2 l_n}{\partial (\sigma^2) \partial \mu} &= \sum_{i=1}^{n} (-1) \cdot \dfrac{(x_i-\mu)}{\sigma^4} ~~~~~ \mathrm{(F)} \end{aligned}$$


ここで$\mathrm{(D)}$〜$\mathrm{(F)}$について$\vec X$の期待値をとると、
($\mathrm{(D)}$より)
$$\begin{aligned} E[\dfrac{\partial^2 l_n}{\partial \mu^2}] &= -\dfrac{n}{\sigma^2} \end{aligned}$$
($\mathrm{(E)}$より)
$$\begin{aligned} E[\dfrac{\partial^2 l_n}{\partial (\sigma^2)^2}] &= \dfrac{n}{2 \sigma^4}-\dfrac{1}{\sigma^6} \cdot E[\sum_{i=1}^{n}(X_i-\mu)^2] \\ &= \dfrac{n}{2 \sigma^4}-\dfrac{1}{\sigma^6} \cdot \sum_{i=1}^{n} E[(X_i-\mu)^2] \\ &= \dfrac{n}{2 \sigma^4}-\dfrac{1}{\sigma^6} \cdot \sum_{i=1}^{n} \sigma^2 \\ &{\scriptsize (E[(X_i-\mu)^2]=V[X_i]=\sigma^2)} \\ &= \dfrac{n}{2 \sigma^4}-\dfrac{1}{\sigma^6} \cdot n \sigma^2 \\ &= -\dfrac{n}{2 \sigma^4} \end{aligned}$$
($\mathrm{(F)}$より)
$$\begin{aligned} E[\dfrac{\partial^2 l_n}{\partial (\sigma^2) \partial \mu}] &= -\dfrac{1}{\sigma^4} \cdot E[\sum_{i=1}^{n}(X_i-\mu)] \\ &= -\dfrac{1}{\sigma^4} \cdot \sum_{i=1}^{n} E[(X_i-\mu)] \\ &= 0 \\ &{\scriptsize (E[X_i-\mu] = E[X_i]-\mu = \mu-\mu=0)} \end{aligned}$$


よって、
$$\begin{aligned} I_n(\mu, \sigma^2) &= \begin{pmatrix} -E[\dfrac{\partial^2 l_n}{\partial \mu^2}] & -E[\dfrac{\partial^2 l_n}{\partial (\sigma^2) \partial \mu}] \\[10px] -E[\dfrac{\partial^2 l_n}{\partial (\sigma^2) \partial \mu}] & -E[\dfrac{\partial^2 l_n}{\partial (\sigma^2)^2}] \end{pmatrix} \\[30px] &= \begin{pmatrix} \dfrac{n}{\sigma^2} & 0 \\[10px] 0 & \dfrac{n}{2 \sigma^4} \end{pmatrix} \end{aligned}$$

すたどく

統計検定1級を受ける方は、この導出はできる様にしておくのが望ましいです。

まとめ.

  • 「フィッシャー情報量」とは得られた観測データがもつ(分布パラメータについての)情報量で、推定のための量(「推定量」)の推定精度を反映する。

  • フィッシャー情報量の計算を楽にする性質$2$つを紹介した。

  • 分布パラメータがベクトルの場合のフィッシャー情報量を特に「フィッシャー情報行列」と言う。
他の記事を参照されたい方はこちら

 サイトマップからお好きな記事をお探しください。