統計学

最尤推定量

$\gdef \vec#1{\boldsymbol{#1}} \\ \gdef \rank {\mathrm{rank}} \\ \gdef \det {\mathrm{det}} \\ \gdef \Bern {\mathrm{Bern}} \\ \gdef \Bin {\mathrm{Bin}} \\ \gdef \Mn {\mathrm{Mn}} \\ \gdef \Cov {\mathrm{Cov}} \\ \gdef \Po {\mathrm{Po}} \\ \gdef \HG {\mathrm{HG}} \\ \gdef \Geo {\mathrm{Geo}}\\ \gdef \N {\mathrm{N}} \\ \gdef \LN {\mathrm{LN}} \\ \gdef \U {\mathrm{U}} \\ \gdef \t {\mathrm{t}} \\ \gdef \F {\mathrm{F}} \\ \gdef \Exp {\mathrm{Exp}} \\ \gdef \Ga {\mathrm{Ga}} \\ \gdef \Be {\mathrm{Be}} \\ \gdef \NB {\mathrm{NB}}$

すたどく

前回は「不偏推定量」を扱いましたが、今回は「最尤推定量」を扱います。

学習者

$1$つ疑問があります。
「不偏推定量」という性質のよさそうな推定量があるのに、なぜわざわざ別の推定量を扱う必要があるのでしょうか?

すたどく

よい質問ですね!
実は不偏推定量は存在しない場合や、ある不偏推定量が存在したとしても(特に性質のよい)UMVUが存在しない場合があるのです。
一方で最尤推定量は一部を除いて存在し、さらにはサンプルサイズ$n$を大きくすることでUMVUに近い推定量となります。

学習者

なるほど、最尤推定量は汎用性が高いのですね。また、サンプルサイズ$n$を大きくとることでUMVUに近似されるとは驚きの性質ですね。

すたどく

実はそれは<推定量の性質>で扱った「漸近有効性」に他なりません。$1$つずつ確認していきましょう。

1. 尤度関数と最尤推定量

確率ベクトル$\vec X=(X_1, \ldots, X_n)$の同時確率関数(同時確率密度関数)を$f_n(\vec x;\theta)$と表した時(ただし$\theta$は分布パラメータ)、尤度関数$L(\theta)$は、
$$\begin{aligned} L(\theta) := f_n(\vec x;\theta) \end{aligned}$$と定義されます。

すたどく

$f_n(\vec x;\theta)$を$\theta$のみの関数とみたものが$L(\theta)$、ということですね。
また、尤度関数$L(\theta)$の対数をとった対数尤度関数$l(\theta) (=\log L(\theta))$の方が$L(\theta)$と比べて計算が楽なことが多く、よく使われます。

この時、最尤推定量$\hat{\theta}_{MLE}$は(MLE: maximum likelihood estimate)、
$$\begin{aligned} \hat{\theta}_{MLE} &= \mathop{\argmax}_{\theta} L(\theta) \\ (&= \mathop{\argmax}_{\theta} l(\theta) ) \end{aligned}$$と定義されます。

すたどく

最尤推定量とは『最も尤もらしい推定量』であり、尤度関数または対数尤度関数を(想定するパラメータ空間内で)最大化する推定量となっています。

例題1.
$X_i \overset{i.i.d} \sim \Po(\lambda)~~{\small (i=1, \ldots, n)}$である時、$\lambda$の最尤推定量$\hat{\lambda}_{n}$を求めよ。
ただし$\Po(\lambda)$の確率関数$p(x)$は
$$\begin{aligned} p(x) = \frac{\lambda^x e^{-\lambda}}{x!} \end{aligned}$$である。

解答.

尤度関数$L(\lambda)$は、
$$\begin{aligned} L(\lambda) &= \prod_{i=1}^{n} p(x_i; \lambda) \\ &{\scriptsize (X_i ~{ (i=1, \ldots, n)の独立性より})} \\ &= \lambda^{(\sum_{i=1}^{n} x_i)} \cdot (e^{-\lambda})^{n} \cdot \frac{1}{\prod_{i=1}^{n} x_i!} \end{aligned}$$となり、対数尤度関数$l(\lambda)$は、
$$\begin{aligned} l(\lambda) &= \log L(\lambda) \\[10px] &= (\sum_{i=1}^{n} x_i) \log \lambda-n\lambda-\sum_{i=1}^{n} \log x_i! \end{aligned}$$となる。


上式の両辺を$\lambda$で偏微分すると、
$$\begin{aligned} \frac{\partial l(\lambda)}{\partial \lambda} = \frac{(\sum_{i=1}^{n} x_i)}{\lambda}-n \end{aligned}$$となるが、求める$\hat{\lambda}_{n}$は(上式)$=0$とした時の解なので、
$$\begin{aligned} \hat{\lambda}_{n} = \frac{1}{n} \sum_{i=1}^{n} x_i \end{aligned}$$となる。

学習者

この式に実際の観測データ$x_i~~{\small (i=1, \ldots, n)}$を代入して最尤推定量$\hat{\lambda}_{n}$を求めるわけですね。

例題2.
$X_i \overset{i.i.d}\sim \N(\mu, \sigma^2) ~~ {\small (i=1, \ldots, n)}$である時、$\mu, \sigma^2$の最尤推定量$\hat{\mu}, \hat{\sigma}^2$を求めよ。
ただし、$\N(\mu, \sigma^2)$の確率密度関数$f(x)$は、
$$\begin{aligned} f(x; \mu, \sigma^2) = \dfrac{1}{\sqrt{2 \pi \sigma^2}} \exp[-\dfrac{(x-\mu)^2}{2 \sigma^2}] \end{aligned}$$である。

(注意:これまではサンプルサイズ$n$であるサンプルから構成された推定量であることを明示するために$\hat{\theta}_n$の様に右下添字をつけていたが、ここでは見た目の煩雑さを避けるために$\hat{\mu}_n, \hat{\sigma}_n^2$ではなく単に$\hat{\mu}, \hat{\sigma}^2$と書いている)

解答.

尤度関数$L(\mu, \sigma^2)$は、
$$\begin{aligned} L(\mu, \sigma^2) &= \prod_{i=1}^{n} f(x_i; \mu, \sigma^2) \\ &{\scriptsize (X_i ~ (i=1, \ldots, n)の独立性より)} \\ &= \frac{1}{(2 \pi \sigma^2)^{\frac{n}{2}}} \cdot \exp [-\frac{\sum_{i=1}^{n} (x_i-\mu)^2}{2 \sigma^2}] \end{aligned}$$となり、対数尤度関数$l(\mu, \sigma^2)$は、
$$\begin{aligned} l(\mu, \sigma^2) &= \log L(\mu, \sigma^2) \\[10px] &= -\frac{n}{2} \log (2 \pi \sigma^2)-\frac{1}{2 \sigma^2} \sum_{i=1}^{n} (x_i-\mu)^2 \\[10px] &= -\frac{n}{2} \log (2 \pi \sigma^2)-\frac{1}{2 \sigma^2} \left\{ \sum_{i=1}^{n} (x_i-\bar{x}_n)^2 + n(\bar{x}_n-\mu)^2 \right\} ~~~~~ \mathrm{(A)} \end{aligned}$$となる。


$\mathrm{(A)}$の両辺を$\mu$で偏微分すると、
$$\begin{aligned} \frac{\partial l(\mu, \sigma^2)}{\partial \mu} &= -\frac{1}{2 \sigma^2} \cdot 2n (\bar{x}_n-\mu)(-1) \\[10px] &= \frac{n}{\sigma^2} (\bar{x}_n-\mu) ~~~~~ \mathrm{(B)} \end{aligned}$$

$\mathrm{(A)}$の両辺を$\sigma^2$で偏微分すると、
$$\begin{aligned} \frac{\partial l(\mu, \sigma^2)}{\partial \sigma^2} &= -\frac{n}{2} \cdot \frac{2 \pi}{2 \pi \sigma^2} + \frac{1}{2 \sigma^4} \left\{ \sum_{i=1}^{n} (x_i-\bar{x}_n)^2 + n(\bar{x}_n-\mu)^2 \right\} \\[10px] &= -\frac{n}{2 \sigma^2} + \frac{1}{2 \sigma^4} \left\{ \sum_{i=1}^{n} (x_i-\bar{x}_n)^2 + n(\bar{x}_n-\mu)^2 \right\} ~~~~~ \mathrm{(C)} \end{aligned}$$となる。


求める$\hat{\mu}, \hat{\sigma}^2$は、
$$\begin{aligned} {\small (\mathrm{(B)}の右辺)} &= 0 \\ {\small (\mathrm{(C)}の右辺)} &= 0 \end{aligned}$$なる連立方程式の解であるから以下これを解く。


${\small (\mathrm{(B)}の右辺)} = 0$として、
$$\begin{aligned} \frac{1}{\hat{\sigma}^2} (\bar{x}_n-\hat{\mu}) &= 0 \\[10px] \Rightarrow \hat{\mu} &= \bar{x}_n ~~~~~ \mathrm{(D)} \end{aligned}$$

${\small (\mathrm{(C)}の右辺)} = 0$として、
$$\begin{aligned} -\frac{n}{2 \hat{\sigma}^2} + \frac{1}{2 \hat{\sigma}^4} \left\{ \sum_{i=1}^{n} (x_i-\bar{x}_n)^2 + n(\bar{x}_n-\hat{\mu})^2 \right\} &= 0 \\[10px] \Rightarrow -n \hat{\sigma}^2 + \sum_{i=1}^{n} (x_i-\bar{x}_n)^2 &= 0 \\ {\scriptsize (両辺に2\hat{\sigma}^4をかけて\mathrm{(D)}を用いた)} \\[10px] \Rightarrow \hat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i-\bar{x}_n)^2 \end{aligned}$$

学習者

そういえば不偏推定量$\tilde{\sigma}^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i-\bar{x}_n)^2$だったので(参照:<推定量の性質>:例題1)、若干異なりますね。

すたどく

その通りですね。
ところで本例題の様に分布パラメータの要素が$2$個以上の場合には、各パラメータで対数尤度関数を偏微分した式$=0$、という式が複数でてきます。これらの連立方程式を陽に解くことができる場合はよいですが、解くことができない場合には数値的に解くことになります。

2. 最尤推定量の漸近的な性質

以下の性質の前提として正則条件*を仮定しています。
(*:正則条件が成立しない場合は少なくとも統計検定$1$級レベルでは出題されないと考えられ、通常は成立するものと考えてください。正則条件の例としては、『対数尤度関数の微分可能性』『微積分の交換可能性』などが挙げられます。)


性質1. 一致性
(真の分布パラメータを$\theta$として)
最尤推定量$\hat{\theta}_{n}$について、
$$\begin{aligned} \hat{\theta}_{n} \overset{\displaystyle {p}}\longrightarrow \theta ~~~~~ \mathrm{(E)} \end{aligned}$$が成立します。


性質2. 漸近有効性
(真の分布パラメータを$\theta$、フィッシャー情報量を$I_{1}(\theta)$として)
最尤推定量$\hat{\theta}_{n}$について、
$$\begin{aligned} \sqrt{n} (\hat{\theta}_{n}-\theta) \overset{\displaystyle {d}}\longrightarrow \N(0, \frac{1}{I_{1}(\theta)}) ~~~~~ \mathrm{(F)} \end{aligned}$$が成立します。

すたどく

最尤推定量では一致性、漸近有効性が成立することは重要なので、覚えておいてください。「一致性」、「漸近有効性」を忘れてしまった方は<推定量の性質>を参照ください。
なお、証明はややadvancedなのでここでは割愛します。

  • $\mathrm{(F)}$は$n$が十分大きい時に、
    $$\begin{aligned} \begin{cases} E[\sqrt{n}(\hat{\theta}_{n}-\theta)] \fallingdotseq 0 \\ V[\sqrt{n}(\hat{\theta}_{n}-\theta)] \fallingdotseq \frac{1}{I_{1}(\theta)} \end{cases} \\ \Rightarrow \begin{cases} E[\hat{\theta}_{n}] \fallingdotseq \theta ~~~~~ \mathrm{(G)} \\ V[\hat{\theta}_{n}] \fallingdotseq \frac{1}{n I_{1}(\theta)} = \frac{1}{I_{n}(\theta)} ~~~~~ \mathrm{(H)} \end{cases} \end{aligned}$$を意味しますが、
    $\mathrm{(G)}$は『$\hat{\theta}_{n}$が近似的に($\theta$の)不偏推定量である』ことを、
    $\mathrm{(H)}$は『$\hat{\theta}_{n}$が近似的にクラメル・ラオの不等式の下限を達成する』ことを示しています。

    即ち、$\mathrm{(F)}$(もとい$\mathrm{(G), (H)}$)は『$n$が十分大きい時に、$\hat{\theta}_{n}$が近似的にUMVUである』ことを示しています

  • ところで、$\mathrm{(G)}$($\mathrm{(F)}$の一部)があれば$\mathrm{(E)}$(一致性)は不要ではないかと思う方がいるかもしれません。しかし、そもそも$\mathrm{(E)}$を用いて$\mathrm{(F)}$は証明されるものであり、また、$\mathrm{(E)}$が成立するための条件は$\mathrm{(F)}$よりも緩いものになっています。(詳細はここでは割愛します)
    そのため、$\mathrm{(E)}$は$\mathrm{(E)}$として必要な性質なのです。

例題3.
$X_i \overset{i.i.d}\sim \Bern(p) ~~{\small (i=1, \ldots, n)}$である時、$p$の最尤推定値$\hat{p}$は
$$\begin{aligned} \hat{p} = \frac{\sum_{i=1}^{n} X_i}{n} \end{aligned}$$である。
この$\hat{p}$は漸近有効性をもつことを中心極限定理を用いて示せ。

ただしフィッシャー情報量$I_{1}(p)$が、
$$\begin{aligned} I_{1}(p) = \frac{1}{p(1-p)} \end{aligned}$$であることは既知とする。

解答.

$\sqrt{n} (\hat{p}-p)$について、
$$\begin{aligned} \sqrt{n} (\hat{p}-p) &= \sqrt{n} (\underbrace{\frac{1}{n} \sum_{i=1}^{n} X_i}_{平均の形}-p) \\ &\overset{\displaystyle {d}}\longrightarrow \N(0, p(1-p)) = \N(0, \frac{1}{I_{1}(p)}) \\ &{\scriptsize (E[X_i]=p, V[X_i]=p(1-p)と中心極限定理より)} \end{aligned}$$となり、題意は示された。

すたどく

中心極限定理とは、確率変数列$\{ X_n \}$に対して$X_i \overset{i.i.d}\sim F~~(E[X_i] = \mu, V[X_i] = \sigma^2) ~ {\small (i=1, \ldots, n)}$である時、$\displaystyle \frac{\bar{X_n}-\mu}{\displaystyle \frac{\sigma}{\sqrt n}} \overset{\displaystyle {d}}\longrightarrow \mathrm{N}(0, 1)$、でした。

即ち、${\sqrt n}(\bar{X_n}-E[X_i]) \overset{\displaystyle {d}}\longrightarrow \mathrm{N}(0, V[X_i])$、ですね。
(参照:<極限定理>:「4. 中心極限定理」)

例題4.
$X_i \overset{i.i.d}\sim \N(\mu, \sigma^2) ~~{\small (i=1, \ldots, n)}$である時、$\mu, \sigma^2$の最尤推定量$\hat{\mu}, \hat{\sigma}^2$は、
$$\begin{aligned} \hat{\mu} &= \bar{X}_{n} \\ \hat{\sigma}^2 &= \frac{1}{n} \sum_{i=1}^{n} (X_i-\bar{X}_{n})^2 \end{aligned}$$である。
この$\hat{\mu}, \hat{\sigma}^2$は漸近有効性をもつことを中心極限定理を用いて示せ。

ただしフィッシャー情報量$I_{1}(\sigma^2)$が、
$$\begin{aligned} I_{1}(\sigma^2) = \frac{1}{2 \sigma^4} \end{aligned}$$であることは既知とする。
<フィッシャー情報量>:例題4における$(2,2)$成分で$n=1$としたものに相当)

解答.

($\hat{\mu}$について)
$\sqrt{n} (\hat{\mu}-\mu)$について、
$$\begin{aligned} \sqrt{n} (\hat{\mu}-\mu) &= \sqrt{n} (\bar{X}_{n}-\mu) \\[10px] &= \sqrt{n} (\underbrace{\frac{1}{n} \sum_{i=1}^{n} X_i}_{平均の形}-\mu) \\ &\overset{\displaystyle {d}}\longrightarrow \N(0, \sigma^2) \\ &{\scriptsize (V[X_i]=\sigma^2と中心極限定理より)} \end{aligned}$$


($\hat{\sigma}^2$について)
まず$\hat{\sigma}^2$について、
$$\begin{aligned} \hat{\sigma}^2 = \frac{1}{n} \left \{ \sum_{i=1}^{n} (X_i-\mu)^2-n(\bar{X}_{n}-\mu)^2 \right\} \end{aligned}$$と変形することができる。


よって$\sqrt{n} (\hat{\sigma}^2-\sigma^2)$について、
$$\begin{aligned} \sqrt{n} (\hat{\sigma}^2-\sigma^2) &= \underbrace{\sqrt{n} \left\{ \underbrace{\frac{1}{n} \sum_{i=1}^{n} (X_i-\mu)^2}_{平均の形}-\sigma^2 \right\}}_{(1)}-\underbrace{{\sqrt{n}} (\bar{X}_{n}-\mu)^2}_{(2)} ~~~~~ \mathrm{(I)} \end{aligned}$$となるが、
$$\begin{aligned} \small{(\mathrm{(I)}の(1))} &\overset{\displaystyle {d}}\longrightarrow \N(0, 2\sigma^4) \\ &{\scriptsize (V[(X_i-\mu)^2]=2\sigma^4と中心極限定理より)} \\ \small{(\mathrm{(I)}の(2))} &= \frac{1}{\sqrt{n}} \cdot ( \frac{\bar{X}_n-\mu}{\frac{\sigma}{\sqrt{n}}} )^2 \cdot \sigma^2 \\ &\overset{\displaystyle {d}}\longrightarrow 0 \cdot Y \cdot \sigma^2 = 0 ~~~~~ (*) \\ &{\scriptsize (ただしYはY \sim \chi^2(1)なる確率変数としてスルツキーの定理を用いた)} \end{aligned}$$であるため($V[(X_i-\mu)^2]=2\sigma^4$については<補足:最尤推定量_例題4>を参照)、スルツキーの定理と合わせると、
$$\begin{aligned} \sqrt{n} (\hat{\sigma}^2-\sigma^2) \overset{\displaystyle {d}}\longrightarrow \N(0, 2 \sigma^4) = \N(0, \frac{1}{I_{1}(\sigma^2)}) \end{aligned}$$となり、題意は示された。

  • $(*)$について補足:
    この部分については、以下の$2$点を利用した結果です。

    * $\dfrac{\bar{X}_n-\mu}{\frac{\sigma}{\sqrt{n}}} \overset{\displaystyle {d}}\longrightarrow \N(0,1)$

    * 確率変数$U_n, V$について$U_n \overset{\displaystyle {d}}\longrightarrow V$である時、$U_n^2 \overset{\displaystyle {d}}\longrightarrow V^2$(連続写像定理の$1$つ)

3. 最尤推定量の不変性

(性質)
分布パラメータ$\theta$について、
$$\begin{aligned} \tau = g(\theta) \end{aligned}$$なる変換をした時、 $\theta$の最尤推定量$\hat{\theta}_{MLE}$と$\tau$の最尤推定量$\hat{\tau}_{MLE}$の間には、
$$\begin{aligned} \hat{\tau}_{MLE} = g(\hat{\theta}_{MLE}) \end{aligned}$$の関係が成立します。

すたどく

 『最尤推定量の不変性』は$\theta$と$\tau$が$1:1$対応であるか($g^{-1}$が存在するか)に関わらず成立します。(証明略)

例1.
$X_i \overset{i.i.d}\sim \N(\mu, \sigma^2) ~~{\small (i=1, \ldots, n)}$である時、母分散$\sigma^2$の最尤推定量$\hat{\sigma}^2$は、
$$\begin{aligned} \hat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^{n} (X_i-\bar{X}_n)^2 \end{aligned}$$であったが、この時、母標準偏差$\sigma$の最尤推定量$\hat{\sigma}$は、
$$\begin{aligned} \hat{\sigma} = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (X_i-\bar{X}_n)^2} \end{aligned}$$となる。

すたどく

注意すべき点として、(最尤推定量とは異なり)不偏推定量は不変性をもちません。以下の例2を参照してください。

例2.
$X \sim \N(\mu, \sigma^2)$である時、$E[X] = \mu$が成立するので$X$は$\mu$の不偏推定量である。
一方で、
$$\begin{aligned} E[X^2] &= V[X] + (E[X])^2 \\ &= \sigma^2 + \mu^2 \\ &\neq \mu^2 \end{aligned}$$であるから、$X^2$は$\mu^2$の不偏推定量ではない。

まとめ.

  • 最尤推定量は、尤度関数(または対数尤度関数)を最大化する推定量である。

  • 最尤推定量は、サンプルサイズ$n$が十分大きい時にUMVUに近似できる。

  • 最尤推定量は、不変性をもつ。
他の記事を参照されたい方はこちら

 サイトマップからお好きな記事をお探しください。