Step 10: ノンパラメトリック検定
分布を仮定しない検定手法を習得し、実データに柔軟に対応します
📚 このステップで学ぶこと
このステップでは、母集団分布を仮定しないノンパラメトリック検定を学びます。正規性が疑わしい場合、外れ値がある場合、順序尺度データなど、パラメトリック検定が使えない状況で威力を発揮する手法です。
- 柔軟性:分布の仮定なしに検定できる
- ロバスト性:外れ値の影響を受けにくい
- 順序データ対応:順位しか意味がないデータに適用可能
- 小サンプル:正規性が確認できない場合の代替手段
1. ノンパラメトリック検定の基礎
1.1 ノンパラメトリック検定とは
母集団分布の形を仮定しない検定手法
パラメトリック検定との違い:
| 項目 | パラメトリック | ノンパラメトリック |
| 分布の仮定 | 必要(通常は正規分布) | 不要 |
| 使用するデータ | 実測値 | 順位・符号 |
| 検出力 | 高い(条件満たせば) | やや低い |
| ロバスト性 | 低い | 高い |
| 外れ値の影響 | 大きい | 小さい |
1.2 使用場面
① 正規性が疑わしい:分布が歪んでいる
② 外れ値がある:極端な値の影響を避けたい
③ 小サンプル:$n$ が小さく正規性が確認できない
④ 順序尺度データ:順序しか意味がない
⑤ 等分散性が成り立たない
例:
・アンケートの満足度(1-5点)
・順位データ(1位、2位、3位…)
・年収(分布が右に歪む)
・反応時間(外れ値が多い)
2. 符号検定
2.1 符号検定の原理
中央値に関する検定で、符号(+/−)のみを使用
1標本の場合:
$H_0: M = M_0$(中央値が $M_0$)
$H_1: M \neq M_0$
手順:
① $x_i – M_0$ の符号を調べる
② $+$ の個数を数える($r$)
③ $r \sim B(n, 0.5)$($H_0$ の下で)
④ 両側検定:$P(|R – n/2| ≧ |r – n/2|)$ を計算
対応のある2標本:
差 $d_i = x_i – y_i$ の符号を使う
例題1:符号検定
問題:10人のダイエット前後の体重を測定。体重が減った人は8人、増えた人は2人。中央値の変化は有意か?($\alpha=0.05$, 両側検定)
【帰無仮説】
中央値の変化なし(減少と増加が同じ確率)
【検定統計量】
減少した人数 $r = 8$
$H_0$ の下で、$r \sim B(10, 0.5)$
【p値の計算】
$$P(R ≧ 8) = P(R=8) + P(R=9) + P(R=10)$$ $$= \binom{10}{8} \times 0.5^{10} + \binom{10}{9} \times 0.5^{10} + \binom{10}{10} \times 0.5^{10}$$ $$= \frac{45 + 10 + 1}{1024} = \frac{56}{1024} \approx 0.0547$$
両側検定なので、$p$ 値 $= 2 \times 0.0547 = 0.1094$
【判定】
$p = 0.1094 > 0.05$
$H_0$ を棄却できない。
注:$n$ が小さいため検出力が低い
3. ウィルコクソンの符号付順位検定
3.1 検定の原理
符号だけでなく、差の大きさ(順位)も考慮
手順:
① 差 $d_i = x_i – y_i$ を計算
② $|d_i|$ の順位をつける
③ 正の差と負の差に分ける
④ 正の順位和 $W^+$ を計算
⑤ 検定統計量:$T = \min(W^+, W^-)$
分布:
・小サンプル:正確な分布表を使用
・大サンプル($n ≧ 10$):正規近似
$$E(W^+) = \frac{n(n+1)}{4}$$ $$V(W^+) = \frac{n(n+1)(2n+1)}{24}$$
例題2:ウィルコクソン検定
問題:5人の処置前後の測定値:
処置前:12, 15, 18, 20, 25
処置後:10, 14, 20, 19, 22
中央値の変化は有意か?
【差の計算】
$d =$ 後 − 前:$-2, -1, +2, -1, -3$
【$|d|$ の順位】
$|d|$:2, 1, 2, 1, 3
順位:3.5, 1.5, 3.5, 1.5, 5
(同順位は平均をとる)
【符号付き順位】
$-3.5, -1.5, +3.5, -1.5, -5$
【順位和】
$W^+ = 3.5$
$W^- = 3.5 + 1.5 + 1.5 + 5 = 11.5$
$W^+ + W^- = 15 = \frac{5 \times 6}{2}$ ✓
【検定統計量】
$T = \min(3.5, 11.5) = 3.5$
臨界値表より($n=5$, $\alpha=0.05$, 両側)
臨界値 $= 0$
$3.5 > 0$ なので、$H_0$ を棄却できない。
4. マン・ホイットニーのU検定
4.1 2標本の比較
独立な2群の分布の位置の差を検定
(t検定のノンパラメトリック版)
手順:
① 2群のデータを合併して順位付け
② 各群の順位和 $R_1, R_2$ を計算
③ U統計量を計算:
$$U_1 = n_1 n_2 + \frac{n_1(n_1+1)}{2} – R_1$$ $$U_2 = n_1 n_2 + \frac{n_2(n_2+1)}{2} – R_2$$ $$U = \min(U_1, U_2)$$
大サンプル近似($n_1, n_2 ≧ 8$):
$$E(U) = \frac{n_1 n_2}{2}$$ $$V(U) = \frac{n_1 n_2 (n_1 + n_2 + 1)}{12}$$ $$Z = \frac{U – E(U)}{\sqrt{V(U)}} \sim N(0,1)$$
例題3:マン・ホイットニーU検定
問題:A群($n_1=4$):5, 7, 9, 12
B群($n_2=3$):6, 8, 11
2群の分布に差はあるか?
【合併して順位付け】
値:5, 6, 7, 8, 9, 11, 12
群:A, B, A, B, A, B, A
順位:1, 2, 3, 4, 5, 6, 7
【順位和】
$R_1$(A群)$= 1 + 3 + 5 + 7 = 16$
$R_2$(B群)$= 2 + 4 + 6 = 12$
($R_1 + R_2 = 28 = \frac{7 \times 8}{2}$ ✓)
【U統計量】
$$U_1 = 4 \times 3 + \frac{4 \times 5}{2} – 16 = 12 + 10 – 16 = 6$$ $$U_2 = 4 \times 3 + \frac{3 \times 4}{2} – 12 = 12 + 6 – 12 = 6$$ $$U = \min(6, 6) = 6$$
【臨界値】
U表より($n_1=4$, $n_2=3$, $\alpha=0.05$, 両側)
臨界値 $= 0$
$6 > 0$ なので、$H_0$ を棄却できない。
サンプルサイズが小さいため検出力が低い
4.2 ウィルコクソン順位和検定との関係
関係式:$U = n_1 n_2 – W$($W$:順位和)
どちらを使っても結果は同じ。
検定統計量の計算方法が異なるだけ。
5. クラスカル・ウォリス検定
5.1 3群以上の比較
3つ以上の独立な群の分布の位置を比較
(一元配置ANOVAのノンパラメトリック版)
検定統計量:
$$H = \frac{12}{N(N+1)} \sum_{i=1}^{k} \frac{R_i^2}{n_i} – 3(N+1)$$
ここで、
・$N$:全サンプルサイズ
・$k$:群の数
・$R_i$:$i$ 番目の群の順位和
・$n_i$:$i$ 番目の群のサンプルサイズ
分布:
$H \sim \chi^2(k-1)$(近似的、各 $n_i ≧ 5$)
例題4:クラスカル・ウォリス検定
問題:3群のデータ
A群($n_1=3$):5, 7, 9
B群($n_2=3$):6, 8, 12
C群($n_3=3$):10, 11, 13
3群に差はあるか?($\chi^2_2(0.05) = 5.99$)
【合併して順位付け】
値:5, 6, 7, 8, 9, 10, 11, 12, 13
群:A, B, A, B, A, C, C, B, C
順位:1, 2, 3, 4, 5, 6, 7, 8, 9
【順位和】
$R_1$(A)$= 1 + 3 + 5 = 9$
$R_2$(B)$= 2 + 4 + 8 = 14$
$R_3$(C)$= 6 + 7 + 9 = 22$
【H統計量】
$N = 9$, $k = 3$
$$H = \frac{12}{9 \times 10} \times \left( \frac{9^2}{3} + \frac{14^2}{3} + \frac{22^2}{3} \right) – 3 \times 10$$ $$= \frac{12}{90} \times \left( \frac{81}{3} + \frac{196}{3} + \frac{484}{3} \right) – 30$$ $$= 0.1333 \times 253.67 – 30$$ $$= 33.82 – 30 = 3.82$$
【判定】
$H = 3.82 < \chi^2_2(0.05) = 5.99$
$H_0$ を棄却できない。
3群の分布に有意差は認められない。
6. スピアマンの順位相関係数
6.1 順位相関
2変数間の順序関係の強さを測る
(ピアソン相関のノンパラメトリック版)
計算式:
$$\rho = 1 – \frac{6 \sum d_i^2}{n(n^2 – 1)}$$
ここで、$d_i = R_{x_i} – R_{y_i}$(順位の差)
性質:
・$-1 ≦ \rho ≦ 1$
・$\rho = 1$:完全な正の順位相関
・$\rho = -1$:完全な負の順位相関
・$\rho = 0$:無相関
検定:
$H_0: \rho = 0$
大サンプル($n ≧ 10$):$Z = \rho \sqrt{n-1} \sim N(0,1)$(近似的)
例題5:スピアマン相関
問題:5人の学生の数学と英語の成績順位
数学順位:1, 2, 3, 4, 5
英語順位:2, 1, 4, 3, 5
順位相関係数を求めよ。
【順位の差】
$d =$ 英語 − 数学:$1, -1, 1, -1, 0$
【$d^2$ の和】
$$\sum d^2 = 1^2 + (-1)^2 + 1^2 + (-1)^2 + 0^2 = 1 + 1 + 1 + 1 + 0 = 4$$
【$\rho$ の計算】
$$\rho = 1 – \frac{6 \times 4}{5(25-1)} = 1 – \frac{24}{120} = 1 – 0.2 = 0.8$$
【解釈】
強い正の順位相関がある。
数学の順位が高い人は、英語の順位も高い傾向。
📝 練習問題(15問)
ノンパラメトリック検定の適用
どのような場合にノンパラメトリック検定を使うべきか、3つ挙げよ。
① 正規性が疑わしい
② 外れ値がある
③ 順序尺度データ
(その他:小サンプル、等分散性が成り立たない)
符号検定
12人中、9人が改善、3人が悪化。符号検定のp値を求めよ。(両側検定)
$$P(R ≧ 9) = \frac{\binom{12}{9} + \binom{12}{10} + \binom{12}{11} + \binom{12}{12}}{2^{12}}$$ $$= \frac{220 + 66 + 12 + 1}{4096} = \frac{299}{4096} \approx 0.073$$ 両側:$p = 2 \times 0.073 = 0.146$
順位の計算
データ:5, 7, 7, 9, 12 の順位を求めよ。(同順位は平均)
5:順位1
7:順位2と3の平均 → 2.5
7:順位2と3の平均 → 2.5
9:順位4
12:順位5
ウィルコクソン検定
差の絶対値と順位:$|d|=2$(順位3), $|d|=1$(順位1.5), $|d|=3$(順位4), $|d|=1$(順位1.5)
符号:−, +, −, +。$W^+$ と $W^-$ を求めよ。
$W^+ = 1.5 + 1.5 = 3$
$W^- = 3 + 4 = 7$
$W^+ + W^- = 10 = \frac{4 \times 5}{2}$ ✓
マン・ホイットニーU
$n_1=5$, $n_2=4$, $R_1=30$ のとき、$U_1$ を求めよ。
$$U_1 = n_1 n_2 + \frac{n_1(n_1+1)}{2} – R_1$$ $$= 5 \times 4 + \frac{5 \times 6}{2} – 30 = 20 + 15 – 30 = 5$$
クラスカル・ウォリス
3群で $R_1=15$, $R_2=21$, $R_3=9$, $n_1=n_2=n_3=3$。H統計量を求めよ。
$N = 9$
$$H = \frac{12}{9 \times 10} \times \left( \frac{15^2}{3} + \frac{21^2}{3} + \frac{9^2}{3} \right) – 30$$ $$= 0.1333 \times \left( \frac{225}{3} + \frac{441}{3} + \frac{81}{3} \right) – 30$$ $$= 0.1333 \times 249 – 30 = 33.2 – 30 = 3.2$$
スピアマン相関
$n=4$, $\sum d^2=10$ のとき、$\rho$ を求めよ。
$$\rho = 1 – \frac{6 \times 10}{4(16-1)} = 1 – \frac{60}{60} = 0$$
検定の選択
対応のある2群のデータで、正規性が疑わしい。どの検定を使うべきか?
ウィルコクソンの符号付順位検定
(対応あり t検定のノンパラメトリック版)
パラメトリックとの対応
一元配置ANOVAのノンパラメトリック版は?
クラスカル・ウォリス検定
検出力
ノンパラメトリック検定の検出力は、パラメトリック検定と比べてどうか?
一般的にやや低い。
ただし、前提条件(正規性など)が満たされない場合は、
ノンパラメトリック検定の方が適切で検出力も高い。
符号検定の帰無仮説
符号検定の $H_0$ の下で、+ と − が出る確率はそれぞれいくらか?
それぞれ 0.5(50%)
順位の性質
$n$ 個のデータの順位の和はいくらか?
$$\frac{n(n+1)}{2}$$ ($1 + 2 + \cdots + n$ の和)
外れ値への対処
なぜノンパラメトリック検定は外れ値の影響を受けにくいのか?
順位を使うため。
極端な値も、単に「最大」または「最小」の順位となり、
その大きさ自体は検定に影響しない。
大サンプル近似
マン・ホイットニーU検定で正規近似が使える条件は?
$n_1, n_2 ≧ 8$(両群とも8以上)
中央値と平均値
ノンパラメトリック検定は中央値と平均値のどちらに関する検定か?
主に中央値(または分布の位置)。
パラメトリック検定は平均値に関する検定。
- ノンパラメトリック検定の基本概念と適用場面を理解した
- 符号検定とウィルコクソン検定(対応あり)を習得した
- マン・ホイットニーU検定(独立2群)を使えるようになった
- クラスカル・ウォリス検定(3群以上)の計算ができるようになった
- スピアマンの順位相関係数を理解した
学習メモ
統計検定準1級対策 - Step 10