Step 9:分散分析(ANOVA)

Step 9: 分散分析(ANOVA)

一元配置・二元配置分散分析、多重比較法を体系的に学びます

📚 このステップで学ぶこと

このステップでは、3つ以上の群の平均値を比較する分散分析(ANOVA)を学びます。平方和の分解、F検定の理論、二元配置分散分析における交互作用、多重比較法など、実験データの分析に不可欠な技術を習得します。

🎯 なぜ分散分析を学ぶのか?
  • 多群比較:3群以上の平均を同時に比較できる唯一の適切な方法
  • 実験計画:複数要因の効果を同時に分析可能
  • 交互作用:要因間の相乗効果・打ち消し効果を検出
  • 効率性:t検定の繰り返しより統計的に優れている

1. 一元配置分散分析の基礎

1.1 分散分析とは

📖 分散分析(Analysis of Variance, ANOVA)

3つ以上の群の平均値に差があるかを検定する手法

問題設定:
$k$ 個の群(処理)からデータを取得
各群の母平均:$\mu_1, \mu_2, \ldots, \mu_k$

帰無仮説:$H_0: \mu_1 = \mu_2 = \cdots = \mu_k$
対立仮説:$H_1:$ 少なくとも1つは異なる

なぜt検定を繰り返さないのか?
・多重検定により第1種の誤りが増大
・$k$ 個の群で $\binom{k}{2} = \frac{k(k-1)}{2}$ 回の検定が必要
・全体としての有意水準を $\alpha$ に保てない

1.2 モデルと仮定

📐 一元配置分散分析のモデル

$$y_{ij} = \mu + \alpha_i + \varepsilon_{ij}$$
ここで、
・$y_{ij}$:$i$ 番目の群の $j$ 番目の観測値
・$\mu$:全体平均
・$\alpha_i$:$i$ 番目の群の効果($\sum \alpha_i = 0$)
・$\varepsilon_{ij} \sim N(0, \sigma^2)$:誤差項

仮定:
正規性:各群は正規分布に従う
等分散性:各群の分散は等しい($\sigma^2$)
独立性:観測値は独立

$H_0: \alpha_1 = \alpha_2 = \cdots = \alpha_k = 0$

例題1:ANOVAの適用場面

問題:3種類の肥料A, B, Cの効果を比較したい。なぜt検定を3回(A vs B, A vs C, B vs C)行うのではなく、ANOVAを使うべきか?

解答:

【t検定を3回行う場合の問題】
各検定の有意水準を $\alpha = 0.05$ とすると、
全体として第1種の誤りを犯さない確率は:
$$(1 – 0.05)^3 = 0.857$$
よって、全体の有意水準は:
$$1 – 0.857 = 0.143 \text{(約14%!)}$$
【ANOVAの利点】
・1回の検定で全体の有意水準を $\alpha$ に保てる
・多重検定による誤りの増大を防げる
・より効率的な検定が可能

2. 平方和の分解とF検定

2.1 平方和の分解

⭐ 総平方和の分解

$$S_T = S_A + S_E$$
総平方和(Total Sum of Squares):
$$S_T = \sum_{i=1}^{k}\sum_{j=1}^{n_i}(y_{ij} – \bar{y}_{..})^2$$ (全データの全体平均からのばらつき)

群間平方和(Between-group SS):
$$S_A = \sum_{i=1}^{k} n_i(\bar{y}_{i.} – \bar{y}_{..})^2$$ (各群平均の全体平均からのばらつき)

群内平方和(Within-group SS):
$$S_E = \sum_{i=1}^{k}\sum_{j=1}^{n_i}(y_{ij} – \bar{y}_{i.})^2$$ (各群内でのばらつき)

ここで、
$\bar{y}_{i.}$:$i$ 番目の群の平均
$\bar{y}_{..}$:全体平均
$n_i$:$i$ 番目の群のサンプルサイズ

2.2 自由度と平均平方

📖 自由度(Degrees of Freedom)

・総自由度:$\phi_T = N – 1$($N$:全サンプルサイズ)
・群間自由度:$\phi_A = k – 1$($k$:群の数)
・群内自由度:$\phi_E = N – k$

$$\phi_T = \phi_A + \phi_E$$
平均平方(Mean Square)
・群間平均平方:$V_A = \frac{S_A}{k-1}$
・群内平均平方:$V_E = \frac{S_E}{N-k}$

F統計量:
$$F = \frac{V_A}{V_E} \sim F(k-1, N-k) \quad (H_0 \text{の下で})$$
F値が大きい → 群間の差が大きい → $H_0$ を棄却

例題2:平方和の計算

問題:3群のデータ
群A:5, 6, 7($n_1=3$, $\bar{y}_1=6$)
群B:8, 9, 10($n_2=3$, $\bar{y}_2=9$)
群C:11, 12, 13($n_3=3$, $\bar{y}_3=12$)
全体平均 $\bar{y}_{..} = 9$ のとき、$S_T$, $S_A$, $S_E$ を求めよ。

解答:

【総平方和 $S_T$】
$$S_T = (5-9)^2 + (6-9)^2 + (7-9)^2 + (8-9)^2 + (9-9)^2 + (10-9)^2$$ $$+ (11-9)^2 + (12-9)^2 + (13-9)^2$$ $$= 16 + 9 + 4 + 1 + 0 + 1 + 4 + 9 + 16 = 60$$
【群間平方和 $S_A$】
$$S_A = 3(6-9)^2 + 3(9-9)^2 + 3(12-9)^2$$ $$= 3 \times 9 + 3 \times 0 + 3 \times 9 = 27 + 0 + 27 = 54$$
【群内平方和 $S_E$】
$$S_E = S_T – S_A = 60 – 54 = 6$$
または直接計算:
$$S_E = \{(5-6)^2+(6-6)^2+(7-6)^2\} + \{(8-9)^2+(9-9)^2+(10-9)^2\}$$ $$+ \{(11-12)^2+(12-12)^2+(13-12)^2\}$$ $$= (1+0+1) + (1+0+1) + (1+0+1) = 6 \checkmark$$

2.3 分散分析表

📐 ANOVAテーブル(分散分析表)
要因 平方和 自由度 平均平方 F値
群間 $S_A$ $k-1$ $V_A = \frac{S_A}{k-1}$ $F = \frac{V_A}{V_E}$
群内 $S_E$ $N-k$ $V_E = \frac{S_E}{N-k}$
総和 $S_T$ $N-1$

例題3:F検定の実施

問題:例題2のデータで、$\alpha=0.05$ でF検定を行え。($F_{2,6}(0.05) = 5.14$)

解答:

【平均平方】
$$V_A = \frac{S_A}{k-1} = \frac{54}{2} = 27$$ $$V_E = \frac{S_E}{N-k} = \frac{6}{6} = 1$$
【F統計量】
$$F = \frac{V_A}{V_E} = \frac{27}{1} = 27$$
【分散分析表】
要因 平方和 自由度 平均平方 F値
群間 54 2 27 27
群内 6 6 1
総和 60 8
【判定】
$F = 27 > F_{2,6}(0.05) = 5.14$
よって、$H_0$ を棄却。

結論:3群の平均に有意な差がある。

3. 二元配置分散分析

3.1 二元配置分散分析の概念

⭐ 二元配置分散分析(Two-way ANOVA)

2つの要因(因子)が目的変数に与える影響を同時に分析

要因:
・要因A:$a$ 個の水準
・要因B:$b$ 個の水準

モデル(繰り返しなし):
$$y_{ij} = \mu + \alpha_i + \beta_j + \varepsilon_{ij}$$
モデル(繰り返しあり):
$$y_{ijk} = \mu + \alpha_i + \beta_j + (\alpha\beta)_{ij} + \varepsilon_{ijk}$$
$(\alpha\beta)_{ij}$:交互作用効果

3.2 繰り返しのない二元配置

📖 平方和の分解

$$S_T = S_A + S_B + S_E$$
・$S_A$:要因Aの平方和
・$S_B$:要因Bの平方和
・$S_E$:残差平方和

自由度:
・$\phi_T = ab – 1$
・$\phi_A = a – 1$
・$\phi_B = b – 1$
・$\phi_E = (a-1)(b-1)$

F統計量:
$$F_A = \frac{V_A}{V_E} \sim F(a-1, (a-1)(b-1))$$ $$F_B = \frac{V_B}{V_E} \sim F(b-1, (a-1)(b-1))$$

例題4:二元配置(繰り返しなし)

問題:3種類の肥料(A)と4種類の土壌(B)の組み合わせで収穫量を測定。
$S_A=50$, $S_B=80$, $S_T=150$ のとき、F検定を行え。($F_{2,6}(0.05)=5.14$, $F_{3,6}(0.05)=4.76$)

解答:

$a = 3$(肥料), $b = 4$(土壌)

【残差平方和】
$$S_E = S_T – S_A – S_B = 150 – 50 – 80 = 20$$
【自由度】
$\phi_A = a – 1 = 2$
$\phi_B = b – 1 = 3$
$\phi_E = (a-1)(b-1) = 2 \times 3 = 6$

【平均平方】
$V_A = 50/2 = 25$
$V_B = 80/3 \approx 26.67$
$V_E = 20/6 \approx 3.33$

【F統計量】
$F_A = 25/3.33 \approx 7.51 > 5.14$ → 肥料は有意
$F_B = 26.67/3.33 \approx 8.00 > 4.76$ → 土壌も有意

3.3 交互作用

📐 交互作用(Interaction)

要因Aの効果が、要因Bの水準によって異なる
(または、要因Bの効果が要因Aの水準によって異なる)

繰り返しありの場合:
$$S_T = S_A + S_B + S_{AB} + S_E$$
$S_{AB}$:交互作用平方和
$\phi_{AB} = (a-1)(b-1)$

検定順序:
① 交互作用の検定:$F_{AB} = V_{AB}/V_E$
② 交互作用が有意なら、主効果の解釈は慎重に
③ 交互作用が非有意なら、主効果を検定

例題5:交互作用の解釈

問題:薬剤(A:あり/なし)と運動(B:あり/なし)の効果を調べた結果、交互作用が有意だった。これは何を意味するか?

解答:

薬剤の効果が、運動の有無によって異なる。

例:
・運動なしの場合:薬剤の効果が大きい
・運動ありの場合:薬剤の効果が小さい

または逆に、
・薬剤なしの場合:運動の効果が大きい
・薬剤ありの場合:運動の効果が小さい

実務的意味:
「薬剤と運動を組み合わせても、単純な足し算にならない」

4. 多重比較法

4.1 多重比較の必要性

⚠️ なぜ多重比較が必要か?

ANOVAで $H_0$ を棄却
→ 「少なくとも1つの群平均が異なる」
→ しかし、どの群とどの群が異なるかは不明!

事後検定(Post-hoc test):
ANOVAで有意だった後に、どの群間に差があるかを調べる

問題:
単純にt検定を繰り返すと、全体の第1種の誤りが増大!

4.2 Bonferroni法

📖 Bonferroni の方法

最も保守的(厳しい)な方法

手順:
$k$ 個の群がある場合、$\binom{k}{2} = \frac{k(k-1)}{2}$ 個の比較
各比較の有意水準を $\alpha / \binom{k}{2}$ に設定

例:$k=3$, $\alpha=0.05$
比較数 $= 3$
各比較の有意水準 $= 0.05/3 \approx 0.0167$

利点:シンプルで厳密
欠点:検出力が低い

4.3 Tukey法

📐 Tukey の HSD(Honestly Significant Difference)検定

すべての対比較で最も広く使われる

検定統計量:
$$q = \frac{\bar{y}_i – \bar{y}_j}{\sqrt{V_E/n}}$$
$q > q_\alpha(k, \phi_E)$ なら有意

ここで、$q_\alpha(k, \phi_E)$ は studentized range 分布の上側 $\alpha$ 点

利点:
・Bonferroni より検出力が高い
・全体の有意水準を $\alpha$ に保つ
・サンプルサイズが等しい場合に最適

例題6:多重比較

問題:4群のANOVAでF検定が有意($\alpha=0.05$)。各群の平均:$\bar{y}_1=10$, $\bar{y}_2=12$, $\bar{y}_3=15$, $\bar{y}_4=16$, $V_E=4$, $n=5$。Tukey法で群1と群3を比較せよ。($q_{0.05}(4,16)=4.05$)

解答:

【検定統計量】
$$q = \frac{\bar{y}_3 – \bar{y}_1}{\sqrt{V_E/n}} = \frac{15 – 10}{\sqrt{4/5}} = \frac{5}{\sqrt{0.8}} = \frac{5}{0.894} \approx 5.59$$
【臨界値】
$q_{0.05}(4, 16) = 4.05$

【判定】
$5.59 > 4.05$
よって、群1と群3の間に有意差あり。

4.4 その他の多重比較法

⭐ 多重比較法の選択

Dunnett法
対照群と各処理群を比較する場合に使用
Tukey より検出力が高い

Scheffé法
あらゆる対比(contrast)を検定可能
最も汎用性が高いが、検出力は最も低い

選択の目安:
・全ての対比較:Tukey
・対照群との比較:Dunnett
・複雑な対比:Scheffé
・保守的:Bonferroni

5. 前提条件の確認

5.1 正規性の検定

📖 正規性の確認方法

Q-Qプロット:視覚的確認
Shapiro-Wilk検定:小サンプル向け
Kolmogorov-Smirnov検定:大サンプル向け

対処法(正規性が成り立たない場合):
・データ変換(対数変換など)
・ノンパラメトリック法(Kruskal-Wallis検定)

5.2 等分散性の検定

📐 等分散性の確認方法

Bartlett検定:正規性を仮定
Levene検定:ロバスト(正規性不要)

Bartlett検定:
$H_0: \sigma_1^2 = \sigma_2^2 = \cdots = \sigma_k^2$
$\chi^2 \sim \chi^2(k-1)$(近似的)

対処法(等分散性が成り立たない場合):
・Welch の ANOVA
・データ変換
・ノンパラメトリック法

5.3 独立性の確認

⚠️ 独立性の重要性

観測値が独立でない場合:
・標準誤差が過小評価される
・F検定が不正確になる

独立性が成り立たない例:
・同じ個体から複数測定
・時系列データ
・空間的相関

対処法:
・反復測定ANOVA
・混合効果モデル
・適切な実験計画

📝 練習問題(20問)

問題 1

平方和の分解

$S_T=100$, $S_A=60$ のとき、$S_E$ を求めよ。

解答:

$$S_E = S_T – S_A = 100 – 60 = 40$$
問題 2

F値の計算

$V_A=30$, $V_E=5$ のとき、F値を求めよ。

解答:

$$F = \frac{V_A}{V_E} = \frac{30}{5} = 6$$
問題 3

自由度の計算

$k=4$ 群、各群 $n=6$ のとき、群間・群内・総自由度を求めよ。

解答:

$N = 4 \times 6 = 24$
$\phi_A = k – 1 = 3$
$\phi_E = N – k = 20$
$\phi_T = N – 1 = 23$
問題 4

ANOVA表の完成

$k=3$, $N=15$, $S_A=40$, $S_E=20$ の分散分析表を完成させよ。

解答:

$\phi_A = 2$, $\phi_E = 12$
$V_A = 40/2 = 20$
$V_E = 20/12 \approx 1.67$
$F = 20/1.67 \approx 12.0$
問題 5

F検定の判定

$F=5.2$, $F_{2,15}(0.05)=3.68$ のとき、判定せよ。

解答:

$F = 5.2 > 3.68$
よって、$H_0$ を棄却。
群間に有意差あり。
問題 6

群間平方和の計算

3群で $n_1=n_2=n_3=4$, $\bar{y}_1=10$, $\bar{y}_2=12$, $\bar{y}_3=14$, $\bar{y}_{..}=12$ のとき、$S_A$ を求めよ。

解答:

$$S_A = 4(10-12)^2 + 4(12-12)^2 + 4(14-12)^2$$ $$= 4 \times 4 + 0 + 4 \times 4 = 16 + 0 + 16 = 32$$
問題 7

二元配置の自由度

$a=3$, $b=4$, 繰り返しなしのとき、$\phi_A$, $\phi_B$, $\phi_E$ を求めよ。

解答:

$\phi_A = a – 1 = 2$
$\phi_B = b – 1 = 3$
$\phi_E = (a-1)(b-1) = 2 \times 3 = 6$
問題 8

Bonferroni補正

$k=5$ 群、$\alpha=0.05$ で全ての対比較を行う。Bonferroni法での各比較の有意水準は?

解答:

比較数 $= \binom{5}{2} = 10$
各比較の有意水準 $= 0.05/10 = 0.005$
問題 9

交互作用の自由度

$a=3$, $b=4$, 繰り返しありのとき、交互作用の自由度は?

解答:

$$\phi_{AB} = (a-1)(b-1) = 2 \times 3 = 6$$
問題 10

Tukey検定

$\bar{y}_1=8$, $\bar{y}_2=12$, $V_E=4$, $n=5$, $q_{0.05}(4,16)=4.05$ のとき、群1と群2に差はあるか?

解答:

$$q = \frac{12-8}{\sqrt{4/5}} = \frac{4}{\sqrt{0.8}} \approx 4.47$$ $4.47 > 4.05$ より、有意差あり。
問題 11

平均平方の計算

$S_A=60$, $k=4$ のとき、$V_A$ を求めよ。

解答:

$$V_A = \frac{S_A}{k-1} = \frac{60}{3} = 20$$
問題 12

分散分析の前提

ANOVAの3つの前提条件を挙げよ。

解答:

正規性:各群は正規分布に従う
等分散性:各群の分散が等しい
独立性:観測値が独立
問題 13

残差平方和

群内の各観測値と群平均の差の二乗和は何と呼ばれるか?

解答:

群内平方和($S_E$)または残差平方和
問題 14

効果量

$\eta^2$(イータ二乗)$= S_A/S_T$ は何を表すか?

解答:

全変動のうち、要因によって説明される割合
(効果量の一種)
問題 15

二元配置の平方和

$S_T=200$, $S_A=60$, $S_B=80$, $S_{AB}=30$ のとき、$S_E$ を求めよ。

解答:

$$S_E = S_T – S_A – S_B – S_{AB} = 200 – 60 – 80 – 30 = 30$$
問題 16

検定の順序

二元配置(繰り返しあり)で、どの順で検定すべきか?

解答:

① 交互作用の検定
②(交互作用が非有意なら)主効果A, B の検定
③(各主効果が有意なら)多重比較
問題 17

等分散性の検定

正規性を仮定しない等分散性の検定は?

解答:

Levene検定(レビーン検定)
問題 18

対比較の数

$k=6$ 群のとき、すべての対比較の数は?

解答:

$$\binom{6}{2} = \frac{6 \times 5}{2} = 15$$
問題 19

モデルの解釈

$y_{ij} = \mu + \alpha_i + \varepsilon_{ij}$ で、$\sum \alpha_i = 0$ の制約がある理由は?

解答:

$\mu$(全体平均)と $\alpha_i$(群効果)を一意に識別するため。
この制約なしでは、無限に多くの解が存在する。
問題 20

Scheffé法の利点

Scheffé法が他の多重比較法と異なる点は?

解答:

あらゆる対比(contrast)を検定できる。
(Tukey や Bonferroni は対比較のみ)

ただし、検出力は最も低い。
📌 Step 9のまとめ
  • 一元配置分散分析の理論と計算方法を理解した
  • 平方和の分解とF検定の原理を習得した
  • 二元配置分散分析と交互作用の概念を学んだ
  • 多重比較法(Bonferroni, Tukey)を使えるようになった
  • ANOVAの前提条件と確認方法を理解した
次のStep 10では、ノンパラメトリック検定を学びます!
📝

学習メモ

統計検定準1級対策 - Step 9

📋 過去のメモ一覧
#artnasekai #学習メモ
LINE