統計学

カルバック・ライブラー情報量

$\gdef \vec#1{\boldsymbol{#1}} \\ \gdef \rank {\mathrm{rank}} \\ \gdef \det {\mathrm{det}} \\ \gdef \Bern {\mathrm{Bern}} \\ \gdef \Bin {\mathrm{Bin}} \\ \gdef \Mn {\mathrm{Mn}} \\ \gdef \Cov {\mathrm{Cov}} \\ \gdef \Po {\mathrm{Po}} \\ \gdef \HG {\mathrm{HG}} \\ \gdef \Geo {\mathrm{Geo}}\\ \gdef \N {\mathrm{N}} \\ \gdef \LN {\mathrm{LN}} \\ \gdef \U {\mathrm{U}} \\ \gdef \t {\mathrm{t}} \\ \gdef \F {\mathrm{F}} \\ \gdef \Exp {\mathrm{Exp}} \\ \gdef \Ga {\mathrm{Ga}} \\ \gdef \Be {\mathrm{Be}} \\ \gdef \NB {\mathrm{NB}}$

学習者

今回は「カルベック・ライブラー情報量」ですか。
『情報量』と言えば、「フィッシャー情報量」を以前勉強しましたね。

すたどく

実はその$2$つは類似した概念なのです!

学習者

。。。どういうことでしょうか?

すたどく

カルバック・ライブラー情報量」とは分布間の『キョリ*』なのです。

学習者

一方のフィッシャー情報量は(分布パラメータの)推定量の推定精度の指標でしたよね。

すたどく

そうですね。
実はフィッシャー情報量とは分布パラメータが近い分布間の『キョリ』に影響する因子なのです。フィッシャー情報量が小さいとこの『キョリ』が小さくなり、推定精度が高い、という判定がなされるのです。

学習者

まとめると、

  • カルバック・ライブラー情報量:任意の分布間の『キョリ*』
  • フィッシャー情報量:分布パラメータが近い分布間の『キョリ*』に影響する因子

となりますでしょうか?

すたどく

その通りです。

*:ここで言う『キョリ』とはいわゆる「距離」ではありません。
点A,Bに対して、
(AからBをみた距離)=(BからAをみた距離)、ですが、
(AからBをみた『キョリ』)=(BからAをみた『キョリ』)、は必ずしも成立しません。

1. カルバック・ライブラー情報量

(定義)
分布P, Qの確率密度関数を$p(x), q(x)$とした時、
カルバック・ライブラー情報量$KL(P||Q)$は、
$$\begin{aligned} KL(P||Q) = \int_{-\infty}^{\infty} p(x) \cdot \log(\frac{p(x)}{q(x)}) dx \end{aligned}$$と定義されます。


ただし、以下の通りとします。

  • $p(x)=0$の時は($q(x)=0$の時を含め)$\int$内は$0$

  • $p(x) \neq 0, q(x) = 0$の時は$\int$内は$\infty$

  • 確率関数の場合には、上式の$\int$を$\sum$に置換する
    (注意:本記事では以下確率密度関数の場合のみ扱う)
すたどく

上式で$p(x), q(x)$に対称性がないことから、$KL(P||Q)=KL(Q||P)$、は一般には成立しません。

それでは以下の例を通じてイメージを確立してください。

例題1.
分布P:$\N(0,1)$、分布Q:$\N(\mu, 1)$、とした時、カルバック・ライブラー情報量$KL(P||Q)$を求めそれを図示せよ。

解答.

分布P, Qの確率密度関数をそれぞれ$p(x), q(x)$とすると、
$$\begin{aligned} p(x) &= \frac{1}{\sqrt{2 \pi}} \exp(-\frac{x^2}{2}) \\[10px] q(x) &= \frac{1}{\sqrt{2 \pi }} \exp(-\frac{(x-\mu)^2}{2}) \end{aligned}$$である。


よって$KL(P||Q)$については、
$$\begin{aligned} KL(P||Q) &= \int_{-\infty}^{\infty} p(x) \cdot \log(\frac{p(x)}{q(x)}) dx \\[10px] &= \int_{-\infty}^{\infty} \frac{1}{\sqrt{2 \pi}} \exp(-\frac{x^2}{2}) \cdot \log (\frac{\frac{1}{\sqrt{2 \pi}} \exp(-\frac{x^2}{2})}{\frac{1}{\sqrt{2 \pi }} \exp(-\frac{(x-\mu)^2}{2})}) dx \\[10px] &= \frac{1}{\sqrt{2 \pi}} \int_{-\infty}^{\infty} \exp(-\frac{x^2}{2}) \cdot \log (\exp[\frac{-2\mu x + \mu^2}{2}]) dx \\[10px] &= \frac{1}{\sqrt{2 \pi}} \int_{-\infty}^{\infty} \exp(-\frac{x^2}{2}) \cdot (-\mu x + \frac{1}{2} \mu^2) dx \\[10px] &= \frac{1}{\sqrt{2 \pi}} \{ (-\mu) \underbrace{\int_{-\infty}^{\infty} \exp(-\frac{x^2}{2}) \cdot x dx}_{=0 ~~ (\int内は奇関数)} + (\frac{\mu^2}{2}) \underbrace{\int_{-\infty}^{\infty} \exp(-\frac{x^2}{2}) dx}_{=\sqrt{2\pi} ~~ (ガウス積分)} \} \\[10px] &= \frac{\mu^2}{2} \end{aligned}$$となる。


また$KL(P||Q)$は図示すると以下の様になる。

学習者

$KL(P||Q)$は$\mu$の値に応じて$2$次関数的に変化していくのですね。
また$\mu=0$の時(即ち、$P=Q$の時)は、$KL(P||Q)(=KL(P||P))=0$、となってますね。

例題2.
分布P:$\N(0,1)$、分布Q:$\N(0, \sigma^2)~~ \small{(\sigma \gt 0)}$、とした時、カルバック・ライブラー情報量$KL(P||Q)$を求めそれを図示せよ。

解答.

分布P, Qの確率密度関数をそれぞれ$p(x), q(x)$とすると、
$$\begin{aligned} p(x) &= \frac{1}{\sqrt{2 \pi}} \exp(-\frac{x^2}{2}) \\[10px] q(x) &= \frac{1}{\sqrt{2 \pi \sigma^2 }} \exp(-\frac{x^2}{2 \sigma^2}) \end{aligned}$$である。


よって$KL(P||Q)$については、
$$\begin{aligned} KL(P||Q) &= \int_{-\infty}^{\infty} p(x) \cdot \log(\frac{p(x)}{q(x)}) dx \\[10px] &= \int_{-\infty}^{\infty} \frac{1}{\sqrt{2 \pi}} \exp(-\frac{x^2}{2}) \cdot \log (\frac{\frac{1}{\sqrt{2 \pi}} \exp(-\frac{x^2}{2})}{\frac{1}{\sqrt{2 \pi \sigma^2 }} \exp(-\frac{x^2}{2 \sigma^2})}) dx \\[10px] &= \int_{-\infty}^{\infty} \frac{1}{\sqrt{2 \pi}} \exp(-\frac{x^2}{2}) \cdot \{ (\frac{1}{2 \sigma^2}-\frac{1}{2}) x^2 + \log \sigma \} dx \\[10px] &= \frac{1}{\sqrt{2 \pi}} \left[ (\frac{1}{2 \sigma^2}-\frac{1}{2}) \underbrace{\int_{-\infty}^{\infty} \exp(-\frac{x^2}{2}) \cdot x^2 dx}_{(1)} + (\log \sigma) \underbrace{\int_{-\infty}^{\infty} \exp(-\frac{x^2}{2}) dx}_{=\sqrt{2\pi} ~~ (ガウス積分)} \right] \end{aligned}$$となる。


ここで上式の$\mathrm{(1)}$について、
$$\begin{aligned} \int_{-\infty}^{\infty} \exp(-\frac{x^2}{2}) \cdot x^2 dx &= \int_{-\infty}^{\infty} (-x) [\exp(-\frac{x^2}{2})]^{\prime} dx \\[10px] &= \left[(-x) \exp(-\frac{x^2}{2}) \right]_{-\infty}^{\infty}-\int_{-\infty}^{\infty}(-1) \exp(-\frac{x^2}{2}) dx \\[10px] &= (0-0) + \sqrt{2 \pi} \\ &{\scriptsize (2項目はガウス積分より)} \\[10px] &= \sqrt{2 \pi} \end{aligned}$$となるので、まとめると、
$$\begin{aligned} KL(P||Q) &= \frac{1}{\sqrt{2 \pi}} [(\frac{1}{2 \sigma^2}-\frac{1}{2}) \cdot \sqrt{2 \pi} + (\log \sigma) \cdot \sqrt{2 \pi}] \\[10px] &= \frac{1}{2 \sigma^2}-\frac{1}{2} + \log \sigma \end{aligned}$$


また$KL(P||Q)$は図示すると以下の様になる。

学習者

例題2の$KL(P||Q)$は少し複雑な形をしていますね。
また$\sigma^2=1$の時(即ち、$P=Q$の時)は、$KL(P||Q)(=KL(P||P))=0$、となってますね。

2. カルバック・ライブラー情報量について覚えておくべき性質

性質1.
カルバック・ライブラー情報量は非負

性質2.
同一の分布に対してカルバック・ライブラー情報量は$0$

性質3.
カルバック・ライブラー情報量が$0$であれば分布は同一

すたどく

カルバック・ライブラー情報量は『キョリ』の指標であり、これは「距離」的な概念であることからこれらの性質のイメージは湧くかと思います。

(再掲)性質1.
カルバック・ライブラー情報量は非負

(証明)
分布P, Qの確率密度関数をそれぞれ$p(x), q(x)$とする。


一般に、
$$\begin{aligned} \log x &\leqq x-1 ~~ (\forall x \gt 0) \\ &{\scriptsize (証明は略)} \\ \iff -\log x &\geqq 1-x ~~ (\forall x \gt 0) \end{aligned}$$が成立し、等号成立は$x=1$の時である。


$p(x) \neq 0, q(x) \neq 0$の場合について考えると、上記より、 $$\begin{alignat}{2} &&-\log(\frac{q(x)}{p(x)}) &\geqq 1-\frac{q(x)}{p(x)} \notag \\[10px] &\Rightarrow& -p(x) \cdot \log(\frac{q(x)}{p(x)}) &\geqq p(x)-q(x) \notag \\ &&&{\scriptsize (p(x) (\gt 0)を両辺に乗した)} \notag \\[10px] &\Rightarrow& p(x) \cdot \log(\frac{p(x)}{q(x)}) &\geqq p(x)-q(x) ~~~~~ \mathrm{(A)} \notag \\ &&&{\scriptsize (\log内の分母分子を入れかえた)} \notag \end{alignat}$$となる。


$\mathrm{(A)}$は$p(x) \neq 0, q(x) = 0$の場合についても、
$$\begin{aligned} {\small (上式の左辺)} &= \infty \\[10px] {\small (上式の右辺)} &= p(x) \end{aligned}$$から成立している。


ところで$KL(P||Q)$について考えると、
$$\begin{aligned} KL(P||Q) &= \int_{-\infty}^{\infty} p(x) \cdot \log (\frac{p(x)}{q(x)}) dx \\[10px] &= \underbrace{\int_{x:p(x)=0} p(x) \cdot \log (\frac{p(x)}{q(x)}) dx}_{=0} + \int_{x:p(x) \neq 0} p(x) \cdot \log (\frac{p(x)}{q(x)}) dx \\[10px] &= \int_{x:p(x) \neq 0} p(x) \cdot \log (\frac{p(x)}{q(x)}) dx ~~~~~ \mathrm{(B)} \end{aligned}$$となる。


よって$\mathrm{(A), (B)}$より、
$$\begin{aligned} KL(P||Q) &= \int_{x:p(x) \neq 0} p(x) \cdot \log (\frac{p(x)}{q(x)}) dx \\[10px] &\underbrace{\geqq}_{(1)} \int_{x:p(x) \neq 0} (p(x)-q(x)) dx \\[10px] &= \int_{x:p(x) \neq 0} p(x) dx-\int_{x:p(x) \neq 0} q(x) dx \\[10px] &= \int_{-\infty}^{\infty} p(x) dx-\int_{x:p(x) \neq 0} q(x) dx \\[10px] &\underbrace{\geqq}_{(2)} \int_{-\infty}^{\infty} p(x) dx-\int_{-\infty}^{\infty} q(x) dx \\[10px] &= 1-1 \\ &{\scriptsize (p(x), q(x)はともに確率密度関数なので全区間で積分すると1)} \\[10px] &= 0 \end{aligned}$$


以上より題意は示された。

(再掲)性質2.
同一の分布に対してカルバック・ライブラー情報量は$0$

(証明)
$KL(P||P)$を考えると、
$$\begin{aligned} KL(P||P) &= \int_{-\infty}^{\infty} p(x) \cdot \log(\frac{p(x)}{p(x)}) dx \\[10px] &= \int_{-\infty}^{\infty} p(x) \cdot \underbrace{\log(1)}_{=0} dx \\[10px] &= 0 \end{aligned}$$となるため、題意は示された。

(再掲)性質3.
カルバック・ライブラー情報量が$0$であれば分布は同一

(証明)
$KL(P||Q)=0$なる時、性質1証明の$\mathrm{(1), (2)}$の等号が成立する必要がある。


まず$\mathrm{(1)}$の等号が成立する時、
$$\begin{aligned} \int_{x:p(x) \neq 0} p(x) \cdot \log (\frac{p(x)}{q(x)}) dx = \int_{x:p(x) \neq 0} (p(x)-q(x)) dx \\[10px] \Rightarrow \int_{x:p(x) \neq 0} \left[ p(x) \cdot \log (\frac{p(x)}{q(x)})-( p(x)-q(x) ) \right] dx = 0 \\[10px] \Rightarrow \int_{x:p(x) \neq 0} p(x) \underbrace{\left[ \log (\frac{p(x)}{q(x)})-( 1-\frac{q(x)}{p(x)} ) \right]}_{(\bullet)} dx = 0 \end{aligned}$$と整理できる。


$\mathrm{(\bullet)} \geqq 0$であるから、上式が成立するためには$x:p(x) \neq 0$なる$x$において常に$\mathrm{(\bullet)} = 0$となる必要がある。


つまり、$x:p(x) \neq 0$なる$x$において
$$\begin{aligned} \frac{q(x)}{p(x)} &= 1 \\[10px] \Rightarrow p(x) &= q(x) \end{aligned}$$となる必要がある。


続いて$\mathrm{(2)}$の等号が成立する時、$x:p(x)=0$なる$x$において$q(x)=0$となる必要がある。


まとめると$KL(P||Q)=0$なる時、任意の$x$において$p(x)=q(x)$が成立している。
以上より題意は示された。

3. カルバック・ライブラー情報量とフィッシャー情報量

冒頭の会話で

  • カルバック・ライブラー情報量:任意の分布間の『キョリ』
  • フィッシャー情報量:分布パラメータが近い分布間の『キョリ』に影響する因子

と紹介しました。


以下これを数式にて説明します。


ただし$P, Q$は同じ分布族に属し、$P$:分布パラメータ$\theta=\theta_0$と固定、$Q$:分布パラメータ$\theta$は任意として、$KL(P||Q)$の代わりに$KL(\theta_0||\theta)$と表します。
また積分区間は$-\infty \sim \infty$ですが、これは省略します。

(本説明の準備)

以下の$\mathrm{(C)-(E)}$が成立します。
(ただし、$I(\theta_0)$はフィッシャー情報量を表します)
$$\begin{aligned} KL(\theta_0||\theta) = \int f(x;\theta_0) \cdot \log f(x;\theta_0) dx-\int f(x;\theta_0) \cdot \log f(x;\theta) dx ~~~~~ \mathrm{(C)} \end{aligned}$$
$$\begin{aligned} \left.\left( \frac{\partial}{\partial \theta} KL(\theta_0||\theta) \right)\right|_{\theta=\theta_0} = 0 ~~~~~ \mathrm{(D)} \end{aligned}$$
$$\begin{aligned} \left.\left( \frac{\partial^2}{\partial \theta^2} KL(\theta_0||\theta) \right)\right|_{\theta=\theta_0} = I(\theta_0) ~~~~~ \mathrm{(E)} \end{aligned}$$


($\mathrm{(C)}$の証明)
$$\begin{aligned} KL(\theta_0||\theta) &= \int f(x;\theta_0) \cdot \log(\frac{f(x;\theta_0)}{f(x;\theta)}) dx \\ &{\scriptsize (定義より)} \\[10px] &= \int f(x;\theta_0) \cdot \log f(x;\theta_0) dx-\int f(x;\theta_0) \cdot \log f(x;\theta) dx \end{aligned}$$


($\mathrm{(D)}$の証明)
$$\begin{aligned} \left.\left( \frac{\partial}{\partial \theta} KL(\theta_0||\theta) \right)\right|_{\theta=\theta_0} &= \left.\left( \frac{\partial}{\partial \theta} \int f(x;\theta_0) \cdot \log f(x;\theta_0) dx-\frac{\partial}{\partial \theta}\int f(x;\theta_0) \cdot \log f(x;\theta) dx \right)\right|_{\theta=\theta_0} \\ &{\scriptsize ((C)より)} \\[10px] &= \left.\left( -\frac{\partial}{\partial \theta}\int f(x;\theta_0) \cdot \log f(x;\theta) dx \right)\right|_{\theta=\theta_0} \\[10px] &= \left.\left( -\int f(x;\theta_0) \cdot \frac{\partial}{\partial \theta} \log f(x;\theta) dx \right)\right|_{\theta=\theta_0} \\ &{\scriptsize (微分と積分の交換が可能とした)} \\[10px] &= \left.\left( -\int f(x;\theta_0) \cdot \frac{\frac{\partial}{\partial \theta} f(x;\theta)}{f(x;\theta)} dx \right)\right|_{\theta=\theta_0} \\[10px] &= -\int f(x;\theta_0) \cdot \frac{\frac{\partial}{\partial \theta} f(x;\theta_0)}{f(x;\theta_0)} dx \\[10px] &= -\int \frac{\partial}{\partial \theta} f(x;\theta_0) dx \\[10px] &= -\frac{\partial}{\partial \theta} \int f(x;\theta_0) dx \\ &{\scriptsize (微分と積分の交換が可能とした)} \\[10px] &= 0 \end{aligned}$$


($\mathrm{(E)}$の証明)
$$\begin{aligned} \left.\left( \frac{\partial^2}{\partial \theta^2} KL(\theta_0||\theta) \right)\right|_{\theta=\theta_0} &= \left.\left( \frac{\partial^2}{\partial \theta^2} \int f(x;\theta_0) \cdot \log f(x;\theta_0) dx-\frac{\partial^2}{\partial \theta^2}\int f(x;\theta_0) \cdot \log f(x;\theta) dx \right)\right|_{\theta=\theta_0} \\ &{\scriptsize ((C)より)} \\[10px] &= \left.\left( -\frac{\partial^2}{\partial \theta^2}\int f(x;\theta_0) \cdot \log f(x;\theta) dx \right)\right|_{\theta=\theta_0} \\[10px] &= \left.\left( -\int f(x;\theta_0) \cdot \frac{\partial^2}{\partial \theta^2} \log f(x;\theta) dx \right)\right|_{\theta=\theta_0} \\ &{\scriptsize (微分と積分の交換が可能とした)} \\[10px] &= \left. E\left[ -\frac{\partial^2}{\partial \theta^2} \log f(X;\theta) \right]\right|_{\theta=\theta_0} \\[10px] &= I(\theta_0) \\ &{\scriptsize (フィッシャー情報量の定義より)} \end{aligned}$$

(本説明)

$KL(\theta_0||\theta)$について$\theta_0$まわりでのTaylor展開して整理すると、
$$\begin{aligned} KL(\theta_0||\theta) &= KL(\theta_0||\theta_0) + \frac{1}{1!} \left.\left( \frac{\partial}{\partial \theta} KL(\theta_0||\theta) \right)\right|_{\theta=\theta_0} \cdot (\theta-\theta_0) + \frac{1}{2!} \left.\left( \frac{\partial^2}{\partial \theta^2} KL(\theta_0||\theta) \right)\right|_{\theta=\theta_0} \cdot (\theta-\theta_0)^2 + \cdots \\[10px] &\fallingdotseq \underbrace{KL(\theta_0||\theta_0)}_{=0 ~~ (性質2より)} + \frac{1}{1!} \underbrace{\left.\left( \frac{\partial}{\partial \theta} KL(\theta_0||\theta) \right)\right|_{\theta=\theta_0}}_{=0 ~~ ((D)より)} \cdot (\theta-\theta_0) + \frac{1}{2!} \underbrace{\left.\left( \frac{\partial^2}{\partial \theta^2} KL(\theta_0||\theta) \right)\right|_{\theta=\theta_0}}_{=I(\theta_0) ~~ ((E)より)} \cdot (\theta-\theta_0)^2 \\[10px] &= \frac{1}{2} I(\theta_0) \cdot (\theta-\theta_0)^2 \end{aligned}$$となります。


カルバック・ライブラー情報量とは任意の分布間の『キョリ』だったので、上式よりフィッシャー情報量が分布パラメータが近い分布間の『キョリ』に影響する因子であることが理解できます。

(本説明の補足)

  • カルバック・ライブラー情報量$KL(\theta_0||\theta)$における$\theta$は任意でしたが、上記ではTaylor展開を用いた近似をしたので、
    $$\begin{aligned} KL(\theta_0||\theta) \fallingdotseq \frac{1}{2} I(\theta_0) \cdot (\theta-\theta_0)^2 \end{aligned}$$が成立するのは$\theta$が$\theta_0$付近にある時のみです。

  • ここまでの流れの補助のために以下Figを考えてみます。
    (青の$KL_1(\theta_0 || \theta)$とそれを$\theta_0$まわりで近似した薄青、グレーの$KL_2(\theta_0 || \theta)$とそれを$\theta_0$まわりで近似した薄グレー)
  • (上記つづき)
    つまり同じ分布属に属し、かつ、分布パラメータが近い分布間の『キョリ』を考えた時、$I(\theta_0)$が大きい場合には分布間の『キョリ』$KL(\theta_0||\theta)$が大きくなります。よって、分布間の識別がしやすくなり、(分布パラメータの)推定量の推定精度が高くなります。
    (↑青・薄青に相当)


    一方で、$I(\theta_0)$が小さい場合には分布間の『キョリ』$KL(\theta_0||\theta)$が小さくなります。よって、分布間の識別がしずらくなり、(分布パラメータの)推定量の推定精度が低くなります。
    (↑グレー・薄グレーに相当)

  • 分布間の『キョリ』を考えてきましたが、考えてきた内容をFigでまとめて終わります。

まとめ.

  • カルバック・ライブラー情報量とは分布間の『キョリ*』である。

  • カルバック・ライブラー情報量を任意の分布間の『キョリ*』とすると、フィッシャー情報量は分布パラメータが近い分布間の『キョリ*』に影響する因子となる。

    (*:通常の「距離」とは異なる)
他の記事を参照されたい方はこちら

 サイトマップからお好きな記事をお探しください。