統計学

分散分析

$\gdef \vec#1{\boldsymbol{#1}} \\ \gdef \rank {\mathrm{rank}} \\ \gdef \det {\mathrm{det}} \\ \gdef \Bern {\mathrm{Bern}} \\ \gdef \Bin {\mathrm{Bin}} \\ \gdef \Mn {\mathrm{Mn}} \\ \gdef \Cov {\mathrm{Cov}} \\ \gdef \Po {\mathrm{Po}} \\ \gdef \HG {\mathrm{HG}} \\ \gdef \Geo {\mathrm{Geo}}\\ \gdef \N {\mathrm{N}} \\ \gdef \LN {\mathrm{LN}} \\ \gdef \U {\mathrm{U}} \\ \gdef \t {\mathrm{t}} \\ \gdef \F {\mathrm{F}} \\ \gdef \Exp {\mathrm{Exp}} \\ \gdef \Ga {\mathrm{Ga}} \\ \gdef \Be {\mathrm{Be}} \\ \gdef \NB {\mathrm{NB}} \\ \gdef \tr {\mathrm{tr}}$

すたどく

今回は、実験研究を通じて要因による効果を識別する手法である『分散分析』を扱います。

学習者

分散分析表を書いて検定統計量を出していく手法ですよね。
「1元配置」や「2元配置」などのverがあり、少しややこしかった覚えがあります。

すたどく

そうですね。
「2元配置」となると交互作用項がでてくるので少し複雑に思えますが、ゆっくりと整理していきましょう。

1. 実験計画法

実験計画法とは、実験研究を通じて要因による効果を識別するための手法です。

すたどく

実験計画法の起源として、フィッシャーによる農事試験があります。
農事試験では、農作物の育ち具合に対して天気・気温・水分・品種などが影響していると考えられ、いずれがよい育ち具合に影響するのかを識別することが目的とされました。

実験計画法においては、興味のあるアウトカムを「応答」と言います。
また、アウトカムに影響するか識別する対象変数を「因子」と言い、因子の中の具体的な内容を「水準」と言います。

学習者

上の例では、
・応答:農作物の育ち具合
・因子:天気・気温など
・水準:(因子を天気とした時)晴れ・曇り・雨など
となるわけですね。

実験研究においては、因子の各水準による応答の違いがあると考えられますが、そこには必ず『偶然によるバラつき(誤差)』が上乗せされます。


目に見える応答が前者によるものか後者によるものかを識別するためには、「原則1. くり返し(反復)」が求められます。1回きりでは誤差か否かの評価はできませんが、くり返し(反復)することで、それが可能となります。


ところで、実験研究では実験者がコントロールできる因子とできない因子があります。 この違いを解消するために「原則2. ランダム化」が求められます。 時間的・空間的にランダム化することで、実験者がコントロールできない因子による変動を『偶然によるバラつき(誤差)』に転化することができます。


そして、コントロールできる因子の水準ごとにランダム化することで(「原則3. 局所管理」)、さらにメリットが得られます。 というのも、コントロールできる因子$A$の水準ごとにランダム化を行わず、全体に対してランダム化を行った場合、因子$A$の水準の割合が両群で大きく異なってしまうという事態が生じ得ます。この様な場合には、因子$A$の水準による応答の違いによって見たい結果がマスクされてしまいます。 局所管理をすることで、おおよそこの様な事態を避けることができます。

すたどく

例えばある薬(とプラセボ薬)が入院期間に与える影響を検証する臨床試験において、臨床試験に参加する病院が10あるとします。『コントロールできる因子の水準ごとにランダム化』とは、例えば、各病院において対象患者さんをある薬かプラセボ薬かにランダムに割り振るということです。各病院のルールなどによって入院期間は異なっているはずですが、各病院におけるランダム化をすることで、『病院』という因子の影響を最小限にすることが可能になります。

以下では、興味のある因子が1つである「1元配置分散分析と、興味のある因子が2つである「2元配置分散分析を扱います。なお、興味のある因子が3つ以上である場合は2元配置分散分析の拡張となります。

2. 1元配置分散分析

(モデル)

ある因子$A$についての水準が$a$個あり、各水準について$n_i$回$~~ {\small (i=1, \ldots, a)}$の実験を行うとします。ただし、応答は$Y$とします。


この時、
$$\begin{aligned} Y_{il} &= \mu_i + \varepsilon_{il} ~~ {\small (i=1,\ldots,a; l=1, \ldots, n_i)} \\ &{\scriptsize(ただし、\textcolor{red}{\varepsilon_{il} \overset{i.i.d}\sim \N(0, \sigma^2)})} \\ \mu_i &= \mu + \alpha_i ~~ {\small (i=1,\ldots,a)} \\ &{\scriptsize (\muを「\textcolor{red}{一般平均}」, \alpha_iを「\textcolor{red}{主効果}」という)} \\ \sum_{i=1}^{a} n_i \alpha_i &= 0 \\ &{\scriptsize (この条件は母数\alpha_iの一意性を保つために必要)} \\ N &= \sum_{i=1}^{a} n_i \end{aligned}$$という$4$つの式からなるモデルが自然なものとなります。

学習者

各水準の平均$\mu_i$は主効果$\mu$に$\alpha_i$がのる形でそれぞれ決まり、各個体の値$Y_{il}$はそこに誤差$\varepsilon_{il}$がのる形で決まるんですね。

すたどく

そうですね。
また興味あるパラメータについての次元を確認しておきましょう。
興味あるパラメータ$\mu,\alpha_i ~~ {\small (i=1,\ldots,a)}$はそれぞれ1次元なので、興味あるパラメータ全体としては$(a+1)$次元になりますが、3つ目の式で制約条件が1つ課されているので最終的には$a$次元になります。

(推定)

上記モデルにおいて興味あるパラメータは$\mu, \alpha_i$ですが、これらは、
$$\begin{aligned} \hat{\mu} &= \frac{1}{a} \sum_{i=1}^a n_i \bar{Y}_i \\ \hat{\alpha}_i &= \bar{Y}_i-\frac{1}{N} \sum_{i=1}^a n_i \bar{Y}_i \end{aligned}$$と推定されます。

すたどく

実は分散分析は線形モデルの枠組みに入り、これらの推定量はUMVUとなっています。(参照:<不偏推定量>

(検定)

上記モデルにおいてよく設定される帰無仮説$H_0$、対立仮説$H_1$は、

・${\small 帰無仮説} H_0: \alpha_i = 0 ~~ {\small (i=1,\ldots,a)}$
・${\small 対立仮説} H_1: {\small 上記の等式の少なくとも1つが不成立}$

となります。 (有意水準$\alpha$の検定とします)




具体的な検定方式は以下のとおり導出されます。


$$\begin{aligned} Y_{il}-\bar{Y} = (\bar{Y}_i-\bar{Y}) + (Y_{il}-\bar{Y}_i) ~~~~~ \mathrm{(A)} \end{aligned}$$の両辺を$2$乗して$\sum_i \sum_l$をとると、
$$\begin{aligned} \sum_i \sum_l (Y_{il}-\bar{Y})^2 &= \sum_i \sum_l (\bar{Y}_i-\bar{Y})^2 + 2 \sum_i \sum_l (\bar{Y}_i-\bar{Y})(Y_{il}-\bar{Y}_i) \\ &+ \sum_i \sum_l (Y_{il}-\bar{Y}_i)^2 \\ &= \sum_{i} n_i (\bar{Y}_i-\bar{Y})^2 + 2 \sum_i (\bar{Y}_i-\bar{Y}) \underbrace{(n_i \bar{Y}_i-n_i \bar{Y}_i)}_{=0} \\ &+ \sum_i \sum_l (Y_{il}-\bar{Y}_i)^2 \\ \end{aligned}$$となり、これを整理すると、
$$\begin{aligned} \underbrace{\sum_i \sum_l (Y_{il}-\bar{Y})^2}_{(総平方和) S_T} = \underbrace{\sum_{i} n_i (\bar{Y}_i-\bar{Y})^2}_{(群間平方和) S_A} + \underbrace{\sum_i \sum_l (Y_{il}-\bar{Y}_i)^2}_{(群内平方和) S_R} ~~~~~ \mathrm{(B)} \end{aligned}$$ $S_T, S_A, S_R$に対応する実質的な自由度はそれぞれ$\phi_T = N-1, \phi_A = a-1, \phi_R = N-a$となります。

すたどく

$\mathrm{(B)}$を『平方和の分解』と言います。$\mathrm{(A)}$から導出する一連の流れを覚えておいてください。

すると以下の分散分析表を書くことができます。
($V_A, V_R, F$、はここで定義しています)

要因平方和自由度分散 $F$値
$A$$S_A$$\phi_A=a-1$$V_A=\dfrac{S_A}{\phi_A}$$F=\dfrac{V_A}{V_R}$
誤差$S_R$$\phi_R=N-a$$V_R=\dfrac{S_R}{\phi_R}$
合計$S_T$$\phi_T=N-1$
学習者

分散分析の勉強をしているとこの分散分析表をよく見ますが、これは必ず書く様にしたほうがよいでしょうか?

すたどく

必ずしも書く必要はないですが、書いた方が整理されるためによく書かれるのでしょう。

この時、
$$\begin{aligned} F = \frac{V_A}{V_R} \sim \F(\phi_A, \phi_R) ~~ under H_0 \end{aligned}$$が成立するため*、

・$F \leqq \F_{\alpha}(\phi_A, \phi_R) \Rightarrow {\small H_0を選択}$
・$F \gt \F_{\alpha}(\phi_A, \phi_R) \Rightarrow {\small H_1を選択}$

という判定がなされます。
(ただし$\F_{\alpha}(\phi_A, \phi_R)$を$\F(\phi_A, \phi_R)$の上側$\alpha$点とする)

(補足1)
*について:

まず、以下が成立しています。(参照:<基本的な統計量が従う分布>
$$\begin{aligned} &\frac{S_R}{\sigma^2} \sim \chi^2(\phi_R) ~~ \small{(常に)} \\ &\frac{S_T}{\sigma^2} \sim \chi^2(\phi_T) ~~ under H_0 \end{aligned}$$
これと、$\mathrm{(B)}$より
$$\begin{aligned} \frac{S_T}{\sigma^2} = \frac{S_A}{\sigma^2} + \frac{S_R}{\sigma^2} \end{aligned}$$であることから
$$\begin{aligned} \frac{S_A}{\sigma^2} \sim \chi^2(\phi_T-\phi_R) = \chi^2(\phi_A) ~~ under H_0 \end{aligned}$$となります。(ここの証明は割愛)




以上より、
$$\begin{aligned} F &= \frac{\frac{\frac{S_A}{\sigma^2}}{\phi_A}}{\frac{\frac{S_R}{\sigma^2}}{\phi_R}} \sim \F(\phi_A, \phi_R) ~~ under H_0 \end{aligned}$$となります。

学習者

$X \sim \chi^2(a), Y \sim \chi^2(b)$である時、$\frac{\frac{X}{a}}{\frac{Y}{b}} \sim \F(a, b)$から由来するのですね!(参照:<基本的な統計量が従う分布>

(補足2)

よく設定される帰無仮説$H_0$の置き方に注意してください。

・${\small 帰無仮説} H_0: {\small すべての}\alpha_i ~~ {\small (i=1,\ldots,a)} {\small は0}$
・${\small 対立仮説} H_1: {\small 少なくとも1つの} \alpha_i ~~ {\small (i=1,\ldots,a)} {\small は0ではない}$

です。

(補足3)

平方和の分解である$\mathrm{(B)}$まで辿り着ければ自然と分散分析表を書くことができます。繰り返しになりますが、$\mathrm{(A)}$から$\mathrm{(B)}$を素早く導出できる様にしてください。

例題1.
お菓子の梱包用機械の性能比較をする実験を考える。 機械の1時間あたりの梱包個数を調べる実験を複数回行ったところ、下記のとおりであった。

機械梱包個数実験回数
M113 14 12 134
M216 18 173
M310 11 123
M419 20 17 184

分散分析モデルの下で、帰無仮説$H_0$を『機械レベルでの梱包個数の平均は等しい』とおいた時、これを有意水準$\alpha=0.05$で検定をせよ。

なお、$F_{0.05} (3,10) = 3.7$とする。

解答.
全体平均,M1の平均,M2の平均,M3の平均,M4の平均は、
$$\begin{aligned} \small{(全体平均)} &= \frac{(13 + 14 + 12 + 13 +16 + 18 + 17 +10 + 11 + 12 +19 + 20 + 17 + 18)}{(4+3+3+4)} = 15 \\ \small{(M1の平均)} &= \frac{(13+14+12+13)}{4} = 13 \\ \small{(M2の平均)} &= \frac{(16+18+17)}{3} = 17 \\ \small{(M3の平均)} &= \frac{(10+11+12)}{3} = 11 \\ \small{(M4の平均)} &= \frac{(19+20+17+18)}{4} = 18.5 \end{aligned}$$である。


よって、総平方和$S_T$,群間平方和$S_M$, 群内平方和$S_R$については、
$$\begin{aligned} S_T &= (13-15)^2 + (14-15)^2 + (12-15)^2 + (13-15)^2 \\ &+ (16-15)^2 + (18-15)^2 + (17-15)^2 \\ &+ (10-15)^2 + (11-15)^2 + (12-15)^2 \\ &+ (19-15)^2 + (20-15)^2 + (17-15)^2 + (18-15)^2 \\ &= 136 \\ S_M &= 4 \cdot (13-15)^2 \\ &+ 3 \cdot (17-15)^2 \\ &+ 3 \cdot (11-15)^2 \\ &+ 4 \cdot (18.5-15)^2 \\ &= 125 \\ S_R &= (13-13)^2 + (14-13)^2 + (12-13)^2 + (13-13)^2 \\ &+ (16-17)^2 + (18-17)^2 + (17-17)^2 \\ &+ (10-11)^2 + (11-11)^2 + (12-11)^2 \\ &+ (19-18.5)^2 + (20-18.5)^2 + (17-18.5)^2 + (18-18.5)^2 \\ &= 11 \end{aligned}$$となる。
($S_T = S_M + S_R$が成立することを確認せよ。なお、この式を知っていれば$S_R=S_T-S_M$の様に求めても良い。)


またそれぞれに対応する実質的な自由度は、$\phi_T = 4+3+3+4-1 = 13, \phi_M = 4-1 = 3, \phi_R = (4+3+3+4)-4 = 10$となる。


以上より以下の分散分析表が得られる。

要因平方和自由度分散$F$値
$M$$S_M=125$$\phi_M=3$$V_M = \dfrac{S_M}{\phi_M} \fallingdotseq 41.7$$F = \dfrac{V_M}{V_R} \fallingdotseq 37.9$
誤差$S_R = 11$$\phi_R = 10$$V_R = \dfrac{S_R}{\phi_R} = 1.1$
合計$S_T = 136$$\phi_T = 13$

よって、求めた$F \gt F_{0.05} (3,10)$であることから、帰無仮説$H_0$は棄却される。

3. 2元配置分散分析

興味のある因子が2つになったのが2元配置分散分析です。

(モデル)

ある因子$A, B$についての水準がそれぞれ$a,b$個あり、各水準について$n$回の実験を行うとします*。ただし、応答は$Y$とします。
(*:各水準について$n_{ij}$回の実験を行うとすると少し複雑なので単純化しています)


この時、
$$\begin{aligned} Y_{ijl} &= \mu_{ij} + \varepsilon_{ijl} ~~ {\small (i=1,\ldots,a; j=1,\ldots,b; l=1, \ldots, n)} \\ &{\scriptsize(ただし、\textcolor{red}{\varepsilon_{ijl} \overset{i.i.d}\sim \N(0, \sigma^2)})} \\ \mu_{ij} &= \mu + \alpha_i + \beta_j + \gamma_{ij} ~~ {\small (i=1,\ldots,a; j=1,\ldots,b)} \\ &{\scriptsize (\muを「\textcolor{red}{一般平均}」, \alpha_i, \beta_jを「\textcolor{red}{主効果}」, \gamma_{ij}を「\textcolor{red}{交互作用項}」という)} \\ \sum_{i} \alpha_i &= \sum_{j} \beta_j = \sum_{i} \gamma_{ij} = \sum_{j} \gamma_{ij} = 0 \\ &{\scriptsize (この条件は母数\alpha_i, \beta_j, \gamma_{ij}の一意性を保つために必要)} \end{aligned}$$という式からなるモデルが自然なものとなります。

学習者

平均$\mu_{ij}$は主効果$\mu$に$\alpha_i, \beta_j, \gamma_{ij}$がのる形でそれぞれ決まり、各個体の値$Y_{ijl}$はそこに誤差$\varepsilon_{ijl}$がのる形で決まるんですね。

すたどく

そうですね。
また興味あるパラメータについての次元を確認しておきましょう。
興味あるパラメータ$\mu,\alpha_i, \beta_j, \gamma_{ij} ~~ {\small (i=1,\ldots,a; j=1, \ldots, b)}$はそれぞれ1次元なので、興味あるパラメータ全体としては$(ab+a+b+1)$次元になります。ただし上記3つ目の式のうち、$\sum_i \alpha_i=0, \sum_j \beta_j =0$でそれぞれ$1,1$個ずつの制約条件が課され、$\sum_i \gamma_{ij}=0, \sum_j \gamma_{ij}=0$で$(a+b-1)$個の制約条件が課されます。よって最終的なパラメータ全体の次元は、$(ab+a+b+1)-\{1+1+(a+b-1)\}=ab$となります。

(推定)

上記モデルにおいて興味あるパラメータは$\mu, \alpha_i, \beta_j, \gamma_{ij}$です。

$$\begin{aligned} \bar{Y}_{\bullet \bullet} &= \frac{1}{nab} \sum_i \sum_j \sum_l Y_{ijl} \\ \bar{Y}_{i \bullet} &= \frac{1}{nb} \sum_j \sum_l Y_{ijl} \\ \bar{Y}_{\bullet j} &= \frac{1}{na} \sum_i \sum_l Y_{ijl} \\ \bar{Y}_{i j} &= \frac{1}{n} \sum_l Y_{ijl} \\ \end{aligned}$$とすると、興味あるパラメータは、
$$\begin{aligned} \hat{\mu} &= \bar{Y}_{\bullet \bullet} \\ \hat{\alpha}_i &= \bar{Y}_{i \bullet}-\bar{Y}_{\bullet \bullet} \\ \hat{\beta}_j &= \bar{Y}_{\bullet j}-\bar{Y}_{\bullet \bullet} \\ \hat{\gamma}_{ij} &= \bar{Y}_{i j}-\bar{Y}_{i \bullet}-\bar{Y}_{\bullet j}+\bar{Y}_{\bullet \bullet} \\ \end{aligned}$$と推定されます。

すたどく

1元配置と同様に、これらの推定量もUMVUとなっています。

(検定)

上記モデルにおいてよく設定される帰無仮説はいくつかあり、代表的な帰無仮説$H_0^A, H_0^B, H_0^{A \times B}$は、

・${\small 帰無仮説} H_0^A: \alpha_i = 0 ~~ {\small (i=1,\ldots,a)}$
・${\small 帰無仮説} H_0^B: \beta_j = 0 ~~ {\small (j=1,\ldots,b)}$
・${\small 帰無仮説} H_0^{A \times B}: \gamma_{ij} = 0 ~~ {\small (i=1,\ldots,a; j=1,\ldots, b)}$

となります。それぞれに対応する対立仮説は『少なくとも$1$つの等式は不成立』です。
(有意水準$\alpha$の検定とします)

すたどく

具体的な検定方式は以下のとおり導出されます。

$$\begin{aligned} Y_{ijl}-\bar{Y}_{\bullet \bullet} &= (\bar{Y}_{i \bullet}-\bar{Y}_{\bullet \bullet}) + (\bar{Y}_{\bullet j}-\bar{Y}_{\bullet \bullet}) \\ &+ ( \bar{Y}_{ij}-\bar{Y}_{i \bullet}-\bar{Y}_{\bullet j} + \bar{Y}_{\bullet \bullet} ) + (Y_{ijl}-\bar{Y}_{ij}) ~~~~~ \mathrm{(A)’} \end{aligned}$$の両辺を$2$乗して$\sum_i \sum_j \sum_l$をとると、
$$\begin{aligned} \underbrace{\sum_i \sum_j \sum_l (\bar{Y}_{ijl}-\bar{Y}_{\bullet \bullet})^2}_{(総平方和) S_T} &= \underbrace{nb \sum_i (\bar{Y}_{i \bullet}-\bar{Y}_{\bullet \bullet})^2}_{(群間平方和) S_A} + \underbrace{na \sum_j (\bar{Y}_{\bullet j}-\bar{Y}_{\bullet \bullet})^2}_{(群間平方和) S_B} \\ &+ \underbrace{n \sum_{i} \sum_{j} ( \bar{Y}_{ij}-\bar{Y}_{i \bullet}-\bar{Y}_{\bullet j} + \bar{Y}_{\bullet \bullet})^2}_{(群間平方和) S_{A \times B}} + \underbrace{\sum_{i} \sum_{j} \sum_{l} (Y_{ijl}-\bar{Y}_{ij})^2}_{(群内平方和) S_R} ~~~~~ \mathrm{(B)’} \end{aligned}$$となり、$S_T, S_A, S_B, S_{A \times B}, S_R$に対応する実質的な自由度はそれぞれ$\phi_T = N-1, \phi_A = a-1, \phi_B = b-1, \phi_{A \times B} = (a-1)(b-1), \phi_R = N-ab$となります。

すたどく

2元配置分散分析にも1元配置分散分析と同様に『平方和の分解』がでてきます。なお、$\mathrm{(A)’}$から$\mathrm{(B)’}$の導出過程を省略しましたが、$(\bar{Y}_{i \bullet}-\bar{Y}_{\bullet \bullet}),(\bar{Y}_{\bullet j}-\bar{Y}_{\bullet \bullet}),( \bar{Y}_{ij}-\bar{Y}_{i \bullet}-\bar{Y}_{\bullet j} + \bar{Y}_{\bullet \bullet} ),(Y_{ijl}-\bar{Y}_{ij})$のクロスタームに$\sum_i \sum_j \sum_l$をとったものは$0$となるので、$\mathrm{(B)’}$の右辺のとおりとなります。

すると以下の分散分析表を書くことができます。
($V_A, V_B, V_{A \times B}, V_R, F_A, F_B, F_{A \times B}$、はここで定義しています)

要因平方和自由度分散$F$値
$A$$S_A$$\phi_A = a-1$$V_A = \dfrac{S_A}{\phi_A}$$\dfrac{V_A}{V_R}$
$B$$S_B$$\phi_B = b-1$$V_B = \dfrac{S_B}{\phi_B}$$\dfrac{V_B}{V_R}$
$A \times B$$S_{A \times B}$$\phi_{A \times B} = (a-1)(b-1)$$V_{A \times B} = \dfrac{S_{A \times B}}{\phi_{A \times B}}$$\dfrac{V_{A \times B}}{V_R}$
誤差$S_R$$\phi_R = N-ab$$V_R = \dfrac{S_R}{\phi_R}$
合計$S_T$$\phi_T = N-1$

以下ではどの帰無仮説を扱うかによって検定方式が変わるため、それぞれの帰無仮説を扱っていきます。


⚪︎帰無仮説$H_0^A$を扱う場合

帰無仮説$H_0^A$の下で、
$$\begin{aligned} F_A = \frac{V_A}{V_R} \sim \F(\phi_A, \phi_R) \end{aligned}$$が成立するため、

・$F_A \leqq \F_{\alpha}(\phi_A, \phi_R) \Rightarrow {\small H_0^Aを選択}$
・$F_A \gt \F_{\alpha}(\phi_A, \phi_R) \Rightarrow {\small H_1^Aを選択}$

という判定がなされます。
(ただし$\F_{\alpha}(\phi_A, \phi_R)$を$\F(\phi_A, \phi_R)$の上側$\alpha$点とする)




⚪︎帰無仮説$H_0^B$を扱う場合

帰無仮説$H_0^B$の下で、
$$\begin{aligned} F_B = \frac{V_B}{V_R} \sim \F(\phi_B, \phi_R) \end{aligned}$$が成立するため、

・$F_B \leqq \F_{\alpha}(\phi_B, \phi_R) \Rightarrow {\small H_0^Bを選択}$
・$F_B \gt \F_{\alpha}(\phi_B, \phi_R) \Rightarrow {\small H_1^Bを選択}$

という判定がなされます。
(ただし$\F_{\alpha}(\phi_B, \phi_R)$を$\F(\phi_B, \phi_R)$の上側$\alpha$点とする)




⚪︎帰無仮説$H_0^{A \times B}$を扱う場合

帰無仮説$H_0^{A \times B}$の下で、
$$\begin{aligned} F_{A \times B} = \frac{V_{A \times B}}{V_R} \sim \F(\phi_{A \times B}, \phi_R) \end{aligned}$$が成立するため、

・$F_{A \times B} \leqq \F_{\alpha}(\phi_{A \times B}, \phi_R) \Rightarrow {\small H_0^{A \times B}を選択}$
・$F_{A \times B} \gt \F_{\alpha}(\phi_{A \times B}, \phi_R) \Rightarrow {\small H_1^{A \times B}を選択}$

という判定がなされます。
(ただし$\F_{\alpha}(\phi_{A \times B}, \phi_R)$を$\F(\phi_{A \times B}, \phi_R)$の上側$\alpha$点とする)

(補足1)

2元配置であろうと分散分析のポイントは『平方和の分解』でした。$\mathrm{(A)’, (B)’}$をすぐに書き下せる様にするとともに、対応する実質的な自由度もすぐに書き下せる様にしてください。




(補足2)

今回は交互作用項$\gamma_{ij}$を含む2元配置分散分析モデルを考えましたが、背景知識から交互作用項ががないと考えることが妥当な場合には交互作用項を含まない2元配置分散分析モデルを考えることも可能です。具体的には以下の様なモデルです。
$$\begin{aligned} Y_{ijl} &= \mu_{ij} + \varepsilon_{ijl} ~~ {\small (i=1,\ldots,a; j=1,\ldots,b; l=1, \ldots, n)} \\ &{\scriptsize(ただし、\textcolor{red}{\varepsilon_{ijl} \overset{i.i.d}\sim \N(0, \sigma^2)})} \\ \mu_{ij} &= \mu + \alpha_i + \beta_j ~~ {\small (i=1,\ldots,a; j=1,\ldots,b)} \\ \sum_{i} \alpha_i &= \sum_{j} \beta_j = 0 \end{aligned}$$
このモデルに対応する分散分析表は以下の様になります。

要因平方和自由度分散$F$値
$A$$S_A$$\phi_A = a-1$$V_A = \dfrac{S_A}{\phi_A}$$\dfrac{V_A}{V_R^{‘}}$
$B$$S_B$$\phi_B = b-1$$V_B = \dfrac{S_B}{\phi_B}$$\dfrac{V_B}{V_R^{‘}}$
誤差$S_R^{‘}$$\phi_R^{‘} = N-a-b+1$$V_R^{‘} = \dfrac{S_R^{‘}}{\phi_R^{‘}}$
合計$S_T$$\phi_T = N-1$

$S_A, S_B, S_T, \phi_A, \phi_B, \phi_T, V_A, V_B$は先のモデルと同じですが、それ以外が変化しています。




ここでは、
$$\begin{aligned} S’_R &\leftarrow S_R + S_{A \times B} \\ \phi’_A &\leftarrow \phi_R + \phi_{A \times B} \end{aligned}$$の様に交互作用項の平方和・自由度を誤差項のそれにまとめられており、$H_0^A, H_0^B$についての検出力が上がることがあります。




検出力が上がるのは例えば、
$$\begin{aligned} F’_A \gt F_A &\iff V_R \gt V’_R \\ &\iff \frac{S_R}{\phi_R} \gt \frac{S’_R}{\phi’_R} \\ &\iff \frac{S_R}{\phi_R} \gt \frac{(S_R + S_{A \times B})}{(\phi_R + \phi_{A \times B})} \end{aligned}$$となる場合です。




なぜなら、$\phi’_R \gt \phi_R$より『$F(\phi_A, \phi’_R)$の上側$\alpha$点$\lt$$F(\phi_A, \phi_R)$の上側$\alpha$点』となっているためです。

例題2.
お菓子の梱包用機械とお菓子の種類の組み合わせを検証する実験を考える。 機械の1時間あたりの梱包個数を調べる実験を複数回行ったところ、下記のとおりであった。

お菓子A1の梱包個数お菓子A2の梱包個数お菓子A3の梱包個数
機械M19 10 811 7 910 11 6
機械M27 8 128 9 1012 5 10
機械M312 18 2414 18 2213 17 24

(交互作用項を加味した)分散分析モデルの下で、機械M、お菓子Aの主効果、交互作用について、対応する帰無仮説$H_0^M, H_0^A, H_0^{M \times A}$を以下の様に定めた時、それぞれ有意水準$\alpha=0.05$で検定せよ。

・帰無仮説$H_0^M$:機械レベルでの梱包個数の平均は等しい
・帰無仮説$H_0^A$:お菓子レベルでの梱包個数の平均は等しい
・帰無仮説$H_0^{M \times A}$:機械レベル$\times$お菓子レベルでの梱包個数に対する交互作用はない

なお、$F_{0.05} (2,18) = 3.5, F_{0.05} (4,18) = 2.9$とする。

解答.
全体平均,M1の平均,M2の平均,M3の平均,A1の平均, A2の平均, A3の平均, (M1, A1)の平均, (M1, A2)の平均, (M1, A3)の平均, (M2, A1)の平均, (M2, A2)の平均, (M2, A3)の平均, (M3, A1)の平均, (M3, A2)の平均, (M3, A3)の平均は、 (計算略)
$$\begin{aligned} \small{(全体平均)} &= 12 \\ \small{(M1の平均)} &= 9 \\ \small{(M2の平均)} &= 9 \\ \small{(M3の平均)} &= 18 \\ \small{(A1の平均)} &= 12 \\ \small{(A2の平均)} &= 12 \\ \small{(A3の平均)} &= 12 \\ \small{((M1,A1)の平均)} &= 9 \\ \small{((M1,A2)の平均)} &= 9 \\ \small{((M1,A3)の平均)} &= 9 \\ \small{((M2,A1)の平均)} &= 9 \\ \small{((M2,A2)の平均)} &= 9 \\ \small{((M2,A3)の平均)} &= 9 \\ \small{((M3,A1)の平均)} &= 18 \\ \small{((M3,A2)の平均)} &= 18 \\ \small{((M3,A3)の平均)} &= 18 \\ \end{aligned}$$である。


よって、総平方和$S_T$,群間平方和$S_M, S_A, S_{M \times A}$, 群内平方和$S_R$については、
$$\begin{aligned} S_T &= (9-12)^2 + (10-12)^2 + (8-12)^2 + (11-12)^2 + (7-12)^2 \\ &+ (9-12)^2 + (10-12)^2 + (11-12)^2 + (6-12)^2 \\ &+ (7-12)^2 + (8-12)^2 + (12-12)^2 + (8-12)^2 + (9-12)^2 \\ &+ (10-12)^2 + (12-12)^2 + (5-12)^2 + (10-12)^2 \\ &+ (12-12)^2 + (18-12)^2 + (24-12)^2 + (14-12)^2 + (18-12)^2 \\ &+ (22-12)^2 + (13-12)^2 + (17-12)^2 + (24-12)^2 \\ &= 718 \\ S_M &= 9 \cdot (9-12)^2 \\ &+ 9 \cdot (9-12)^2 \\ &+ 9 \cdot (18-12)^2 \\ &= 486 \\ S_A &= 9 \cdot (12-12)^2 \\ &+ 9 \cdot (12-12)^2 \\ &+ 9 \cdot (12-12)^2 \\ &= 0 \\ S_{M \times A} &= 3 \cdot (9-9-12+12)^2 \\ &+ 3 \cdot (9-9-12+12)^2 \\ &+ 3 \cdot (9-9-12+12)^2 \\ &+ 3 \cdot (9-9-12+12)^2 \\ &+ 3 \cdot (9-9-12+12)^2 \\ &+ 3 \cdot (9-9-12+12)^2 \\ &+ 3 \cdot (18-18-12+12)^2 \\ &+ 3 \cdot (18-18-12+12)^2 \\ &+ 3 \cdot (18-18-12+12)^2 \\ &= 0 \\ S_{R} &= (9-9)^2 + (10-9)^2 + (8-9)^2 \\ &+ (11-9)^2 + (7-9)^2 + (9-9)^2 \\ &+ (10-9)^2 + (11-9)^2 + (6-9)^2 \\ &+ (7-9)^2 + (8-9)^2 + (12-9)^2 \\ &+ (8-9)^2 + (9-9)^2 + (10-9)^2 \\ &+ (12-9)^2 + (5-9)^2 + (10-9)^2 \\ &+ (12-18)^2 + (18-18)^2 + (24-18)^2 \\ &+ (14-18)^2 + (18-18)^2 + (22-18)^2 \\ &+ (13-18)^2 + (17-18)^2 + (24-18)^2 \\ &= 232 \end{aligned}$$となる。($S_T = S_M + S_A + S_{M \times A} + S_R$が成立することを確認せよ。


またそれぞれに対応する実質的な自由度は、

・$\phi_T = 27-1 = 26$
・$\phi_M = 3-1 = 2$
・$\phi_A = 3-1 = 2$
・$\phi_{M \times A} = (3-1)\cdot(3-1) = 4$
・$\phi_R = 27-3 \cdot 3 = 18$

となる。


以上より以下の分散分析表が得られる。

要因平方和自由度分散$F$値
$M$$S_M=486$$\phi_M=2$$V_M = \frac{S_M}{\phi_M} = 243$$F_M = \frac{V_M}{V_R} \fallingdotseq 18.8$
$A$$S_A = 0$$\phi_A = 2$$V_A = \frac{S_A}{\phi_A} = 0$$F_A = \frac{V_A}{V_R} = 0$
$M \times A$$S_{M \times A} = 0$$\phi_{M \times A} = 4$$V_{M \times A} = \frac{S_{M \times A}}{\phi_{M \times A}} = 0$$F_{M \times A} = \frac{V_{M \times A}}{V_R} = 0$
誤差$S_R = 232$$\phi_R = 18$$V_R = \frac{S_R}{\phi_R} \fallingdotseq 12.9$
合計$S_T = 718$$\phi_T = 26$

求めた$F_M \gt F_{0.05} (2,18)$であることから、帰無仮説$H_0^M$は棄却される。


求めた$F_A \leqq F_{0.05} (2,18), F_{M \times A} \leqq F_{0.05} (4,18)$であることから、帰無仮説$H_0^A, H_0^{M \times A}$は棄却されない。

まとめ.

  • 実験計画法と分散分析の概要を確認した。


  • 分散分析の肝は1元配置であろうと2元配置であろうと、平方和の分解と分散分析表である。
他の記事を参照されたい方はこちら

 サイトマップからお好きな記事をお探しください。