統計学

デルタ法

$ \gdef \vec#1{\boldsymbol{#1}} \gdef \rank {\mathrm{rank}} \gdef \det {\mathrm{det}}$

学習者

「デルタ法」とは簡潔に言うとどういった手法でしょうか?

すたどく

確率変数$X$と連続微分可能な関数$g$を用いて、新たな確率変数$g(X)$を産み出したとします。
この時に、$X$がある分布に分布収束するという条件の下で、$g(X)$の分布収束先を求める手法が「デルタ法」です!

(準備)

  • 本記事では分布収束に対し、「$U_n \overset{\displaystyle {d}}\longrightarrow X {\small (確率変数)}$」または「$U_n \overset{\displaystyle {d}}\longrightarrow {\small (特定の分布を表す記号)}$」の2つの表現を採用します(その方が記載が簡潔となるためです)

1. デルタ法

1-1. デルタ法の説明

確率変数列$\{ U_n \}$、確率変数$W$、定数$\theta$、数列$a_n$(ただし$a_n \to \infty ~ {\small (n \to \infty)}$)に対して、

$$ \begin{aligned} a_n (U_n – \theta) \overset{\displaystyle {d}}\longrightarrow W \end{aligned}$$
である時、連続微分可能な関数$g$(ただし$g^{\prime}(\theta)$が存在し$g^{\prime}(\theta) \neq 0$)に対して、

$$ \begin{aligned} a_n (g(U_n) – g(\theta)) \overset{\displaystyle {d}}\longrightarrow g^{\prime}(\theta) W \end{aligned}$$
が成立します。

すたどく

デルタ法は分布収束がからんだ手法なので、極限分布の枠組みに入ると考えることもできます。
<極限定理>にデルタ法を入れてもよかったのですが、<極限定理>のボリュームの都合上別個扱いました。

1-2. よくあるデルタ法の応用例

『$\boldsymbol{a_n (U_n – \theta)}$の分布収束先の分布の分布型が正規分布である場合』、というのがよくデルタ法が使われる状況です。
具体的には以下の通りです。


確率変数列$\{ U_n \}$に対して、

$$ \begin{aligned} \sqrt n (U_n – \mu) \overset{\displaystyle {d}}\longrightarrow \mathrm{N}(0, \sigma^2) ~~~~~\mathrm{(A)} \end{aligned}$$
である時、微分可能な連続関数$g$(ただし$g^{\prime}(\theta)$が存在し$g^{\prime}(\theta) \neq 0$)に対して、

$$\begin{aligned} \sqrt n (g(U_n) – g(\mu)) \overset{\displaystyle {d}}\longrightarrow \mathrm{N}(0, \{ g^{\prime}(\mu) \}^2 \sigma^2) ~~~~~\mathrm{(B)}\end{aligned}$$
が成立します。

  • 「1-1. デルタ法の説明」とのつながりがわからなくなった方もいるかもしれませんが、 $W \sim \mathrm{N}(0, \sigma^2)$とすれば$g^{\prime}(\mu)W \sim \mathrm{N}(0, \{ g^{\prime}(\mu) \}^2 \sigma^2)$となっており、上記はデルタ法を応用したものとわかります。

  • 中心極限定理によると、
    確率変数列$\{ X_n \}$に対して、$X_i \overset{i.i.d}\sim F~~(E[X_i] = \mu, V[X_i] = \sigma^2) ~ {\small (i=1, \ldots, n)}$である時、
    $$ \begin{aligned} \displaystyle \frac{\bar{X_n} – \mu}{\displaystyle \frac{\sigma}{\sqrt n}} &\overset{\displaystyle {d}}\longrightarrow \mathrm{N}(0, 1) \\[20px] \Rightarrow \displaystyle \frac{\bar{X_n} – \mu}{\displaystyle \frac{1}{\sqrt n}} &\overset{\displaystyle {d}}\longrightarrow \mathrm{N}(0, \sigma^2) \\[20px] \Rightarrow \sqrt n (\bar{X_n} – \mu) &\overset{\displaystyle {d}}\longrightarrow \mathrm{N}(0, \sigma^2) \end{aligned}$$
    でした。(参照:<極限定理>:「4. 中心極限定理」)

    これは$\mathrm{(A)}$において$U_n = \bar{X_n}$とおいたものになっています。
    より一般には、$U_n$は『漸近正規性をもつ量』(後出の最尤推定量など)とみることができます
すたどく

具体的な出題のされ方は以下の例題1の様になります。

例題1.
確率変数列$\{ X_n \}$に対して、$X_i \overset{i.i.d}\sim F ~~ (E[X_i] = \mu, V[X_i] = \sigma^2) ~ {\small (i=1, \ldots, n)}$であるとする。
この時、$\sqrt n ( \bar{X_n}^2 – \mu^2)$の分布収束先を求めよ。
(ただし$\bar{X_n} = \displaystyle \frac{1}{n} \sum_{i=1}^n X_i$)

解答.
中心極限定理より、
$$ \begin{aligned} \sqrt n (\bar{X_n} – \mu) &\overset{\displaystyle {d}}\longrightarrow \mathrm{N}(0, \sigma^2) \end{aligned}$$が成立する。


ここで$g(X) = X^2$とすると、$g^{\prime}(X) = 2 X$である。


よってデルタ法より、
$$ \begin{aligned} \sqrt n (g(\bar{X_n}) – g(\mu)) &\overset{\displaystyle {d}}\longrightarrow \mathrm{N}(0, \{ g^{\prime}(\mu) \}^2\sigma^2) \\ \Rightarrow \sqrt n (\bar{X_n}^2 – \mu^2) &\overset{\displaystyle {d}}\longrightarrow \mathrm{N}(0, 4 \mu^2 \sigma^2) \end{aligned}$$

1-3. デルタ法の証明

(示すべき内容)
確率変数列$\{ U_n \}$、確率変数$W$、定数$\theta$、数列$a_n$(ただし$a_n \to \infty ~ {\small (n \to \infty)}$)に対して、

$$ \begin{aligned} a_n (U_n – \theta) \overset{\displaystyle {d}}\longrightarrow W \end{aligned}$$
である時、連続微分可能な関数$g$(ただし$g^{\prime}(\theta)$が存在し$g^{\prime}(\theta) \neq 0$)に対して、

$$ \begin{aligned} a_n (g(U_n) – g(\theta)) \overset{\displaystyle {d}}\longrightarrow g^{\prime}(\theta) W \end{aligned}$$

(証明)

以下のFig1を考える。

Fig1.

$U_n, \theta$の間にある$\theta \ast$に対して、Fig中の2直線の傾きの一致から、$$ \begin{aligned} \frac{g(U_n) – g(\theta)}{U_n – \theta} &= g^{\prime}(\theta^{\ast}) \\ \Rightarrow g(U_n) – g(\theta) &= g^{\prime}(\theta^{\ast})(U_n – \theta) ~~~~~\mathrm{(C)} \end{aligned}$$が成立する。


よって、$$\begin{aligned} a_n (g(U_n) – g(\theta)) &= a_n g^{\prime}(\theta^{\ast})(U_n – \theta) \\ &= g^{\prime}(\theta^{\ast}) \{ a_n (U_n – \theta) \} ~~~~~\mathrm{(D)} \end{aligned}$$となるので、以下右辺の分布収束先を考える。


$\mathrm{(D)}$内の$(U_n – \theta)$に注目して、$$ \begin{aligned} &U_n – \theta = (\frac{1}{a_n}) \cdot a_n(U_n – \theta) \overset{\displaystyle {d}}\longrightarrow 0 \cdot W = 0 \\ &{\scriptsize (仮定とスルツキーの定理から。<補足. スルツキーの定理>)} \end{aligned}$$ $$ \begin{aligned} \Rightarrow U_n – \theta \overset{\displaystyle {p}}\longrightarrow 0 \end{aligned}$$ $$ \begin{aligned} {\scriptsize (分布収束先が定数であるため同じ定数に確率収束する。<補足. 確率収束と分布収束の関係>)} \end{aligned}$$ $$\begin{aligned} \Rightarrow U_n \overset{\displaystyle {p}}\longrightarrow \theta \end{aligned}$$となる。


$\theta^{\ast}$は$U_n, \theta$の間にあるので、$$ \begin{aligned} \theta^{\ast} \overset{\displaystyle {p}}\longrightarrow \theta \end{aligned}$$となり、$g^{\prime}$が連続関数であるから、$$\begin{aligned} g^{\prime}(\theta^{\ast}) \overset{\displaystyle {p}}\longrightarrow g^{\prime}(\theta) ~~~~~\mathrm{(E)} \\ {\scriptsize (<補足. 確率収束と分布収束の関係>)} \end{aligned}$$となる。


よって$\mathrm{(D), (E)}$とスルツキーの定理より、$$ \begin{aligned} a_n (g(U_n) – g(\theta)) \overset{\displaystyle {d}}\longrightarrow g^{\prime}(\theta) W \end{aligned}$$が成立する。


(参照:<補足. スルツキーの定理><補足. 確率収束と分布収束の関係>

1-4. おまけ.<確率変数の分布のモーメントの近似計算>とデルタ法の関連

<変数変換後の分布のモーメントの近似計算>では、変数変換後の分布のモーメント(平均・分散)をTaylor展開を用いて計算しました。

例題1に対して<変数変換後の分布のモーメントの近似計算>の通りに計算すると以下の様になります。

(解答にでてくる記号を引き継ぐ)
$g(X)$を$\mu$まわりでTaylor展開すると、
$$ \begin{aligned} g(X) &= g(\mu) + \frac{g^{\prime}(\mu)}{1!}(X – \mu) + \frac{g^{\prime\prime}(\mu)}{2!}(X – \mu)^2 + \cdots \\ &\fallingdotseq g(\mu) + \frac{g^{\prime}(\mu)}{1!}(X – \mu)~~~~~\mathrm{(F)} \end{aligned}$$
両辺について期待値、分散をとると、
$$ \begin{aligned} E[g(X)] &\fallingdotseq g(\mu) \\ V[g(X)] &\fallingdotseq (g^{\prime}(\mu))^2 \cdot V[X] \\ &= (g^{\prime}(\mu))^2 \cdot \sigma^2 \end{aligned}$$

  • この結果は例題1の解答と一致していますね!
    実は$\mathrm{(F)}$(Taylor展開で1次の項までの採用)は、「1-3. デルタ法の証明」における$\mathrm{(C)}$と同等です。

    というのも$\mathrm{(C)}$の$\theta$を$\mu$に置換した式は、$$\begin{aligned} g(U_n) &= g(\mu) + g^{\prime}(\mu^{\ast})(U_n – \mu) \\ &\fallingdotseq g(\mu) + g^{\prime}(\mu)(U_n – \mu) \\ &{\scriptsize (「1-3. デルタ法の証明」よりg^{\prime}(\mu^{\ast}) \overset{\displaystyle {p}}\longrightarrow g^{\prime}(\mu)でした)} \end{aligned}$$となっているからです。

  • さらに少しだけつっこんで説明します。$$ \begin{aligned} \sqrt n \{ g(U_n) – g(\mu) \} &= \sqrt n \{ \frac{g^{\prime}(\mu)}{1!}(U_n – \mu) + \frac{g^{\prime\prime}(\mu)}{2!}(U_n – \mu)^2 + \cdots \} \\ &\overset{\displaystyle {d}}\longrightarrow {\small (ある確率変数)} \end{aligned}$$となっているので、右辺の$\{\}$内の$(U_n – \mu)$はおおよそ$\displaystyle \frac{1}{\sqrt n}$と同じスピードで収束する必要があります。(もし例えば$(U_n – \mu)$がおおよそ$\displaystyle \frac{1}{n^{\frac{1}{4}}}$と同じスピードで収束するとした場合、右辺はおおよそ$n^{\frac{1}{4}}$と同じスピードで発散することになるため、ある確率変数には収束できません)

    すると、右辺の$\{\}$内の第2項以降はおおよそ$(\displaystyle \frac{1}{\sqrt n})^2$と同じスピードで収束することになり、第1項に対して無視できることになります。

まとめ.

  • デルタ法とは、(ある分布に分布収束することがわかっている)確率変数$X$と微分可能な連続関数$g$に対して、$g(X)$の分布収束先を求める方法である。

  • デルタ法のよくある応用例として以下:
    $\sqrt n (U_n – \mu) \overset{\displaystyle {d}}\longrightarrow \mathrm{N}(0, \sigma^2)$、ならば $\sqrt n (g(U_n) – g(\mu)) \overset{\displaystyle {d}}\longrightarrow \mathrm{N}(0, \{ g^{\prime}(\mu) \}^2 \sigma^2)$

他の記事を参照されたい方はこちら

 サイトマップからお好きな記事をお探しください。