補足. クラメル・ラオの不等式の証明

$\gdef \vec#1{\boldsymbol{#1}} \\ \gdef \rank {\mathrm{rank}} \\ \gdef \det {\mathrm{det}} \\ \gdef \Bern {\mathrm{Bern}} \\ \gdef \Bin {\mathrm{Bin}} \\ \gdef \Mn {\mathrm{Mn}} \\ \gdef \Cov {\mathrm{Cov}} \\ \gdef \Po {\mathrm{Po}} \\ \gdef \HG {\mathrm{HG}} \\ \gdef \Geo {\mathrm{Geo}}\\ \gdef \N {\mathrm{N}} \\ \gdef \LN {\mathrm{LN}} \\ \gdef \U {\mathrm{U}} \\ \gdef \t {\mathrm{t}} \\ \gdef \F {\mathrm{F}} \\ \gdef \Exp {\mathrm{Exp}} \\ \gdef \Ga {\mathrm{Ga}} \\ \gdef \Be {\mathrm{Be}} \\ \gdef \NB {\mathrm{NB}}$

(証明すべき内容の再掲)
確率ベクトル$\vec X=(X_1, \ldots, X_n)$の同時確率関数(同時確率密度関数)を$f_n(\vec x;\theta)$と表した時(ただし$\theta$は分布パラメータ)、フィッシャー情報量$I_n(\theta)$は
$$\begin{aligned} I_n(\theta) = E [ (\dfrac{\partial \log f_n(\vec X;\theta)}{\partial \theta})^2 ] ~(= E[-\dfrac{\partial^2 \log f_n(\vec X; \theta)}{\partial \theta^2}]) \end{aligned}$$となる。


フィッシャー情報量が正である時、不偏推定量$\hat{\theta}_{n}$に対して
$$\begin{aligned} V_{\theta}[\hat{\theta}_{n}] \geqq \frac{1}{I_n(\theta)} ~~~~~ \mathrm{(A)} \end{aligned}$$が成立する。
(「クラメル・ラオの不等式」)

(証明)

(ややテクニカルな証明となります)
まず、$\hat{\theta}_{n}$は不偏推定量なので、
$$\begin{aligned} \theta &= E_{\theta}[\hat{\theta}_{n}] \\[10px] &= \int \hat{\theta}_{n} \cdot f_n(\vec x;\theta) d \vec x \end{aligned}$$

上式の両辺を$\theta$で偏微分すると、
$$\begin{aligned} 1 &= \frac{\partial}{\partial \theta} \int \hat{\theta}_{n} \cdot f_n(\vec x;\theta) d \vec x \\[10px] &= \int \hat{\theta}_{n} \cdot (\frac{\partial}{\partial \theta} f_n(\vec x;\theta)) d \vec x \\ &{\scriptsize (微分と積分の交換が可能とした)} \\[10px] &= \int \hat{\theta}_{n} \cdot (\frac{\partial \log f_n(\vec x;\theta)}{\partial \theta} \cdot f_n(\vec x;\theta)) d \vec x \\[10px] &= E_{\theta}[\hat{\theta}_{n} \cdot \frac{\partial \log f_n(\vec X;\theta)}{\partial \theta}] ~~~~~ \mathrm{(B)} \end{aligned}$$となる。


ところで、
$$\begin{aligned} E_{\theta}[\frac{\partial \log f_n(\vec X;\theta)}{\partial \theta}] &= \int \frac{\partial \log f_n(\vec x;\theta)}{\partial \theta} \cdot f_n(\vec x;\theta) d \vec x \\[10px] &= \int \frac{\partial f_n(\vec x;\theta)}{\partial \theta} d \vec x \\[10px] &= \frac{\partial}{\partial \theta} \int f_n(\vec x;\theta) d \vec x \\ &{\scriptsize (微分と積分の交換が可能とした)} \\[10px] &= 0 \\ &{\scriptsize (\int f_n(\vec x;\theta) d \vec x = 1)} \end{aligned}$$であるから、
$$\begin{aligned} \theta \cdot E_{\theta}[\frac{\partial \log f_n(\vec X;\theta)}{\partial \theta}] = 0 ~~~~~ \mathrm{(C)} \end{aligned}$$となる。


$\mathrm{(B), (C)}$より、
$$\begin{aligned} 1 &= E_{\theta}[\hat{\theta}_{n} \cdot \frac{\partial \log f_n(\vec X;\theta)}{\partial \theta}]-\theta \cdot E_{\theta}[\frac{\partial \log f_n(\vec X;\theta)}{\partial \theta}] \\[10px] &= E_{\theta}[(\hat{\theta}_{n}-\theta) \cdot \frac{\partial \log f_n(\vec X;\theta)}{\partial \theta}] \\[10px] &= E_{\theta}[(\hat{\theta}_{n}-\theta) \cdot (\frac{\partial \log f_n(\vec X;\theta)}{\partial \theta}-E_{\theta}[\frac{\partial \log f_n(\vec X;\theta)}{\partial \theta}])] \\ &{\scriptsize (E_{\theta}[\frac{\partial \log f_n(\vec X;\theta)}{\partial \theta}])]=0)} \\[10px] &= E_{\theta}[(\hat{\theta}_{n}-E_{\theta}[\hat{\theta}_{n}]) \cdot (\frac{\partial \log f_n(\vec X;\theta)}{\partial \theta}-E_{\theta}[\frac{\partial \log f_n(\vec X;\theta)}{\partial \theta}])] \\ &{\scriptsize (\hat{\theta}_{n}は\thetaの不偏推定量なので、E_{\theta}[\hat{\theta}_{n}] = \theta))} \\[10px] &= \Cov_{\theta}[\hat{\theta}_{n}, \frac{\partial \log f_n(\vec X;\theta)}{\partial \theta}] ~~~~~ \mathrm{(D)} \\ &{\scriptsize (\Covの定義より)} \end{aligned}$$となる。


ところで、$\hat{\theta}_{n}$と$\frac{\partial \log f_n(\vec X;\theta)}{\partial \theta}$の相関係数について、
$$\begin{aligned} {\small (\hat{\theta}_{n}と\frac{\partial \log f_n(\vec X;\theta)}{\partial \theta}の相関係数)} &= \frac{\Cov_{\theta}[\hat{\theta}_{n}, \frac{\partial \log f_n(\vec X;\theta)}{\partial \theta}]}{\sqrt{V_{\theta}(\hat{\theta}_{n}) \cdot V_{\theta}[\frac{\partial \log f_n(\vec X;\theta)}{\partial \theta}]}} \\[10px] &\leqq 1 ~~~~~ \mathrm{(E)} \\ &{\scriptsize (相関係数は1以下なので)} \end{aligned}$$が成立する。


よって$\mathrm{(D), (E)}$より、
$$\begin{aligned} 1^2 &\leqq V_{\theta}(\hat{\theta}_{n}) \cdot V_{\theta}[\frac{\partial \log f_n(\vec X;\theta)}{\partial \theta}] \\[10px] &= V_{\theta}(\hat{\theta}_{n}) \cdot E_{\theta}[(\frac{\partial \log f_n(\vec X;\theta)}{\partial \theta}-E_{\theta}[\frac{\partial \log f_n(\vec X;\theta)}{\partial \theta}])^2] \\[10px] &= V_{\theta}(\hat{\theta}_{n}) \cdot E_{\theta}[(\frac{\partial \log f_n(\vec X;\theta)}{\partial \theta})^2] \\ &{\scriptsize (E_{\theta}[\frac{\partial \log f_n(\vec X;\theta)}{\partial \theta}])]=0)} \\[10px] &= V_{\theta}(\hat{\theta}_{n}) \cdot I_{n}(\theta) \\ &{\scriptsize (フィッシャー情報量I_{n}(\theta)の定義より)} \\[10px] &\Rightarrow V_{\theta}(\hat{\theta}_{n}) \geqq \frac{1}{I_{n}(\theta)} \end{aligned}$$となる。