分布関数と母関数｜Statistics Doctor

すたどく

今回は分布関数と母関数を扱います。

学習者

分布関数…。勉強してもなんだかよく忘れてしまいます。

すたどく

分布関数（累積分布関数）とは、確率変数$X$がある値$x$以下をとる確率
$Pr\{X \leqq x\}$であり、分布関数$F(x) = Pr\{X \leqq x \}$と表されます。

学習者

よい覚え方はないでしょうか？

すたどく

ある値$x$までの「累積」を考えているので、『累積関数』とイメージしておくのがよいと思います。

学習者

なるほどです！ところで「母関数」とはどういったものでしょうか？

すたどく

母関数も分布関数と同じく、分布を特徴づける関数です。
ここではそのうち2種類（「確率母関数」と「積率母関数」）を扱います*。

学習者

定義は後ほど確認するとして、母関数の価値とはどういったものでしょうか？

すたどく

$E[X], E[X^2], E[X^3]$といった「積率（モーメント）」の計算に利用でき、
分布の平均・分散の導出につながります。
また、（母関数の重要な性質を利用することで）確率変数の和が従う分布を導出することができます。

*：もう1種類の母関数として「特性関数」がありますが、ここでは扱いません。

Contents

1. 分布関数
2. 確率母関数
3. 積率母関数
4. 母関数の使い道
- 4-1. 積率（モーメント）の計算
- 4-2. 確率変数の和が従う分布の導出

1. 分布関数

（定義）
確率変数$X$の分布関数$F(x)$は、
$$ \begin{aligned} \boldsymbol{F(x) = Pr\{ X \leqq x \}} \end{aligned} $$と定義されます。

すたどく

基本の内容ですが、「分布関数」と言われてすぐに上記をイメージできるようにしておきましょう。

2. 確率母関数

（定義）
非負の離散確率変数$X$の確率母関数$G^X(s)$は、
$$\begin{aligned} \boldsymbol{G^{X}(s) = E[s^x]} ~(= \sum_{x} s^{x} \cdot Pr\{ X=x \} ) ~~~~~ \mathrm{(A)} \end{aligned}$$（ただし、$|s| \leqq 1$。$Pr\{ X=x \}$は$X$の確率関数）
と定義されます。

一般に、$E[h(X)] = \displaystyle \sum_{x} h(x) \cdot Pr\{ X=x \}$、です。
$\mathrm{(A)}$の括弧内が不安な方は確認してください。
$G^{X}(s)$の”$X$”は「確率変数が$X$であること」を明示するためにつけています。
また、$G^{X}(s)$自体は$s$の関数なので注意してください。

3. 積率母関数

（定義）
（確率母関数の式$\mathrm{(A)}$において、$s=e^{\theta}~(\theta \in \mathbb{R})$、と置いたものです）

確率変数$X$の積率母関数$M^X(\theta)$は、$$ \begin{aligned} \boldsymbol{M^{X}(\theta) = E[e^{\theta X}]} ~~~~~ \mathrm{(B)} \end{aligned} $$と定義されます。

確率母関数は「離散」確率変数のみに対応するものでしたが、
積率母関数は「離散」・「連続」確率変数に対応します。

4. 母関数の使い道

母関数の主な使い道は以下の2通りです。

1. 積率（モーメント）の計算
2. 確率変数の和の従う分布の導出

4-1. 積率（モーメント）の計算

まず、前提となる「積率（モーメント）」を確認します。
確率変数$X$に対して、
「原点まわりの$k (\geqq 2)$次積率（モーメント）」とは$E[X^k]$を指し、
「平均まわりの$k (\geqq 2)$次積率（モーメント）」とは$E[(X – \mu)^k]$を指します。

すたどく

原点まわりの1次積率（モーメント）は期待値$E[X]$であり、
平均まわりの2次積率（モーメント）は分散$V[X]$となってますね。

母関数を用いることで、積率（モーメント）の計算が容易にできます。

4-1-1. 確率母関数の場合

$\mathrm{(A)}$の両辺を$s$で微分して、$$ \begin{aligned} G^{X \prime}(s) &= E[Xs^{X-1}] \\ G^{X \prime\prime}(s) &= E[X(X-1)s^{X-2}] \end{aligned} $$これらに$s=1$を代入すると、$$ \begin{aligned} G^{X \prime}(1) &= E[X] \\ G^{X \prime\prime}(1) &= E[X(X-1)] \end{aligned} $$よって、 $$ \begin{aligned} E[X] &= G^{X \prime}(1) \\ E[X^2] &= E[X(X-1)] + E[X] \\ &= G^{X \prime\prime}(1) + G^{X \prime}(1) \end{aligned}$$と原点まわりの1・2次積率（モーメント）を計算できます。

上記結果を用いると、平均$E[X]$と分散$V[X]$は、$$ \begin{aligned} E[X] &= G^{X \prime}(1) \\ V[X] &= E[X^2] – \left( E[X] \right)^2 \\ &= \left( G^{X \prime\prime}(1) + G^{X \prime}(1) \right) – \left( G^{X \prime}(1) \right)^2 \end{aligned} $$ と計算できます。

4-1-2. 積率母関数の場合

$\mathrm{(B)}$の両辺を$\theta$で微分して、$$ \begin{aligned} M^{X \prime}(\theta) &= E[Xe^{\theta X}] \\ M^{X \prime\prime}(\theta) &= E[X^2 e^{\theta X}] \end{aligned} $$これらに$\theta = 0$を代入すると、$$ \begin{aligned} M^{X \prime}(0) &= E[X] \\ M^{X \prime\prime}(0) &= E[X^2] \end{aligned} $$と原点まわりの1・2次積率（モーメント）を計算できます。

上記結果を用いると、平均$E[X]$と分散$V[X]$は、$$ \begin{aligned} E[X] &= M^{X \prime}(0) \\ V[X] &= E[X^2] – \left( E[X] \right)^2 \\ &= M^{X \prime\prime}(0) – \left( M^{X \prime}(0) \right)^2 \end{aligned} $$と計算できます。
積率母関数$M^X(\theta)$を用いた計算では$M^X(\theta)$やその導関数に$\theta = 0$を代入したので、積率母関数$M^X(\theta)$では$\theta=0$まわりで関数が定義されることが必要です。

（一方で確率母関数$G^X(s)$を用いた計算では、$G^X(s)$やその導関数に$s=1$を代入しましたが、実はべき級数の性質により$s=1$まわりで確率母関数$G^X(s)$が定義されなくてもこの計算は可能です）

すたどく

母関数を用いて積率（モーメント）を導出→平均・分散を導出、という流れは基本なので抑えておいてください！

4-2. 確率変数の和が従う分布の導出

確率変数$X, Y$が従う分布（即ち、確率密度関数または確率関数）が与えられた時に、$(X+Y)$が従う分布
（即ち、確率密度関数または確率関数）を導出することがあります。

この導出は、母関数の重要な性質『母関数と確率密度関数（確率関数）は1:1対応 *』を利用することで可能です。（*ただし、$\theta = 0$まわりで積率母関数が存在するときに限る）

例えば正規分布$\mathrm{N}(\mu, \sigma^2)$の積率母関数$M^{X}(\theta)$は$M^{X}(\theta) = \mathrm{exp[\mu \theta + \displaystyle \frac{1}{2} \sigma^2 \theta^2]}$ですが、ある確率変数$Y$の積率母関数$M^{Y}(\theta)$を計算して$M^{Y}(\theta) = \mathrm{exp[\mu \theta + \displaystyle \frac{1}{2} \sigma^2 \theta^2]}$であれば、$Y \sim \mathrm{N}(\mu, \sigma^2)$と言うことができます。

互いに独立な確率変数$X, Y$に対して、その和$(X+Y)$の確率密度関数を直接的に導出することもできますが（＜確率変数の変数変換＞：「4. たたみこみ」）、計算量は多くなります。
上記のとおり母関数を用いることで、計算量を省けることがあります。

例題1.
$X_i \overset{i.i.d}\sim \mathrm{Po}(\lambda) ~(i=1,\ldots, n)$である時、$\displaystyle \sum_{i=1}^n X_i$が従う分布を求めよ。
ただしポアソン分布$\mathrm{Po}(\lambda)$の積率母関数$M^X(\theta)$は、$$M^X(\theta) (= E[e^{\theta X}]) = \mathrm{exp[\lambda (e^\theta – 1)]}$$と既知とする。

解答.
$\displaystyle \sum_{i=1}^n X_i$の積率母関数$M^{\sum_{i=1}^n X_i}(\theta)$は、 $$\begin{aligned} M^{\sum_{i=1}^n X_i}(\theta) &= E[e^{\theta (\sum_{i=1}^n X_i)}] \\[10px] &= E[e^{\sum_{i=1}^n (\theta X_i)}] \\[10px] &= \prod_{i=1}^n \left( E[e^{\theta X_i}] \right) ~~~~~ \mathrm{(*)} \\[10px] &= \prod_{i=1}^n \left( \mathrm{exp[\lambda (e^\theta – 1)]} \right) \\ &\scriptsize{(既知の情報より)}\\[10px] &= \left\{ \mathrm{exp}[\lambda(e^\theta – 1)] \right\}^n \\[10px] &= \mathrm{exp}[n \lambda(e^\theta – 1)] \end{aligned} $$ となる。

ところで、既知の情報から、ポアソン分布$\mathrm{Po}(n \lambda)$の積率母関数$M^Y(\theta)$は$$M^Y(\theta) (= E[e^{\theta Y}]) = \mathrm{exp[n \lambda (e^\theta – 1)]}$$となる。

これらの結果と、母関数と確率密度関数が1:1対応であることから、
$\displaystyle \sum_{i=1}^n X_i$はポアソン分布$\mathrm{Po}(n \lambda)$に従う。

$\mathrm{(*)}$については、数式からすると当たり前です。
しかし、 $$\begin{aligned} M^{X+Y}(\theta) &= E[e^{\theta(X+Y)}] \\ &\scriptsize{(積率母関数の定義より)} \\[10px] &= E[e^{\theta X}] \cdot E[e^{\theta Y}] \\[10px] &= M^X(\theta)\cdot M^Y(\theta) \end{aligned}$$ であることからテクニックとして『互いに独立な確率変数$X, Y$に対して、その和$(X+Y)$の母関数は($X$の積率母関数)と($Y$の積率母関数)との積である』とまとめることができ、このテクニックを利用したとみることもできます。

まとめ.

母関数は分布を特徴づける関数である。
母関数の使い道として、
1. 積率（モーメント）を求める（そして、分布の平均・分散を求める）
2. 『母関数と確率密度関数（確率関数）は1:1対応』という性質を利用して、確率変数の和が従う分布を求める