補足. スコア関数の平均・分散

$\gdef \vec#1{\boldsymbol{#1}} \\ \gdef \rank {\mathrm{rank}} \\ \gdef \det {\mathrm{det}} \\ \gdef \Bern {\mathrm{Bern}} \\ \gdef \Bin {\mathrm{Bin}} \\ \gdef \Mn {\mathrm{Mn}} \\ \gdef \Cov {\mathrm{Cov}} \\ \gdef \Po {\mathrm{Po}} \\ \gdef \HG {\mathrm{HG}} \\ \gdef \Geo {\mathrm{Geo}}\\ \gdef \N {\mathrm{N}} \\ \gdef \LN {\mathrm{LN}} \\ \gdef \U {\mathrm{U}} \\ \gdef \t {\mathrm{t}} \\ \gdef \F {\mathrm{F}} \\ \gdef \Exp {\mathrm{Exp}} \\ \gdef \Ga {\mathrm{Ga}} \\ \gdef \Be {\mathrm{Be}} \\ \gdef \NB {\mathrm{NB}}$

確率ベクトル$\vec X = (X_1, \ldots, X_n)^{\top}$の同時確率密度関数（同時確率関数）を$f_n(\vec x; \theta)$とした時（$\theta$は分布パラメータ）、
スコア関数$S(\theta)$は、
$$\begin{aligned} S(\theta) = \frac{\partial}{\partial \theta} \log f_n(\vec x; \theta) \end{aligned}$$と定義されます。

以下スコア関数$S(\theta)$の平均、分散を考えます。

（スコア関数$S(\theta)$の平均）

以下が成立します。
$$\begin{aligned} E[\frac{\partial}{\partial \theta} \log f_n(\vec X; \theta)] = 0 \end{aligned}$$

（証明）

$$\begin{aligned} E[\frac{\partial}{\partial \theta} \log f_n(\vec X; \theta)] &= \int \frac{\partial \log f_n(\vec x; \theta)}{\partial \theta} f_n(\vec x; \theta) d \vec x \\[10px] &= \int \frac{\partial f_n(\vec x; \theta)}{\partial \theta} d \vec x \\[10px] &= \frac{\partial}{\partial \theta} \int f_n(\vec x; \theta) d \vec x \\ &{\scriptsize (ただし微分と積分の交換が保証されるとした)} \\[10px] &= \frac{\partial}{\partial \theta} (1) \\ &{\scriptsize (f_n(\vec x; \theta)は確率密度関数なので全区間で積分すると1)} \\[10px] &= 0 \end{aligned}$$

（スコア関数$S(\theta)$の分散）

以下が成立します。
（ただし$I_n(\theta)$はフィッシャー情報量）
$$\begin{aligned} V[\frac{\partial}{\partial \theta} \log f_n(\vec X; \theta)] = I_n(\theta) \end{aligned}$$

（証明）

$$\begin{aligned} V[\frac{\partial}{\partial \theta} \log f_n(\vec X; \theta)] &= E[(\frac{\partial}{\partial \theta} \log f_n(\vec X; \theta))^2]-(E[\frac{\partial}{\partial \theta} \log f_n(\vec X; \theta)])^2 \\[10px] &= I_n(\theta)-0^2 \\ &{\scriptsize (第1項目はI_n(\theta)の定義より。第2項目は上記より。)} \\[10px] &= I_n(\theta) \end{aligned}$$