STEP 12:カイ二乗検定

🔢 STEP 12: カイ二乗検定

適合度検定、独立性の検定、分割表の分析をマスターしよう

📖 このステップで学ぶこと

カイ二乗分布適合度検定独立性の検定分割表の分析を学びます。

📝 練習問題: 15問
🎯 到達目標: 適合度検定ができる、独立性の検定ができる、分割表の分析ができる、期待度数の計算ができる

1️⃣ カイ二乗分布とは

カイ二乗分布(χ²分布)
標準正規分布に従う変数の二乗和の分布

Z₁, Z₂, …, Zₖ が独立に N(0, 1) に従うとき、
χ² = Z₁² + Z₂² + … + Zₖ² は χ²(k) に従う

特徴:
• 自由度kのパラメータで形状が決まる
• 0以上の値のみ取る(負の値は取らない)
• 右に裾を引いた形(非対称)
• 自由度が大きいほど正規分布に近づく
💡 カイ二乗分布の用途
適合度検定: 観測度数が理論分布に適合するか
独立性の検定: 2つの質的変数が独立か
分散の検定: 母分散の検定(F検定の基礎)
⚠️ カイ二乗検定の対象
カイ二乗検定は質的データ(カテゴリデータ)を扱う検定です。
連続データ(量的データ)にはt検定や分散分析を使います。

2️⃣ 適合度検定(Goodness-of-Fit Test)

適合度検定
観測された度数分布が、理論的な分布に適合するかを検定

H₀: 観測度数は理論分布に従う
H₁: 理論分布に従わない

検定統計量:
χ² = Σ[(観測度数 – 期待度数)² / 期待度数]
χ² = Σ[(Oᵢ – Eᵢ)² / Eᵢ]

自由度: ν = k – 1(k:カテゴリ数)
※パラメータを推定した場合は ν = k – 1 – s(s:推定したパラメータ数)
例題1: サイコロを120回振った結果

123456合計
観測度数251822191719120

このサイコロは公平といえるか検定しなさい(α=0.05)
χ²(5, 0.05) = 11.07
結論: 公平なサイコロといえる(H₀を棄却できない)



【ステップ1: 問題の状況を理解】
「公平なサイコロ」とは?
→ 各目が等確率(1/6)で出る

検定の種類: 適合度検定
→ 観測データが理論分布(均等分布)に従うか



【ステップ2: 仮説を設定】
H₀(帰無仮説): 各目の出る確率は等しい(p = 1/6)
H₁(対立仮説): 各目の出る確率は等しくない

※両側検定(偏りがあるかどうかを検定)



【ステップ3: 期待度数を計算】
公平なサイコロなら、各目は同じ回数出るはず

期待度数 E = 全体の回数 × 確率
         = 120 × (1/6)
         = 20

各目の期待度数:
目:     1   2   3   4   5   6
期待:  20  20  20  20  20  20



【ステップ4: 自由度を確認】
自由度 ν = カテゴリ数 - 1
       = 6 - 1
       = 5

※6つの度数のうち、5つが決まれば
  残り1つは自動的に決まる(合計120だから)



【ステップ5: 検定統計量χ²を計算】
公式: χ² = Σ[(Oᵢ - Eᵢ)² / Eᵢ]

各項を計算:
目1: (25-20)²/20 = 25/20 = 1.25
目2: (18-20)²/20 = 4/20  = 0.20
目3: (22-20)²/20 = 4/20  = 0.20
目4: (19-20)²/20 = 1/20  = 0.05
目5: (17-20)²/20 = 9/20  = 0.45
目6: (19-20)²/20 = 1/20  = 0.05

χ² = 1.25 + 0.20 + 0.20 + 0.05 + 0.45 + 0.05
   = 2.20



【ステップ6: 棄却域を確認】
有意水準: α = 0.05
自由度: ν = 5
臨界値: χ²(5, 0.05) = 11.07

棄却域: χ² > 11.07



【ステップ7: 判定】
計算したχ² = 2.20
臨界値 = 11.07

2.20 < 11.07 なので棄却域に入らない

→ H₀を棄却できない

---

【ステップ8: 結論を述べる】
「有意水準5%で、このサイコロは公平といえる」

※正確には「公平でないとはいえない」
  (帰無仮説を棄却できなかっただけで、
   公平であることを証明したわけではない)

---

【計算のまとめ】
観測O期待EO-E(O-E)²(O-E)²/E
125205251.25
21820-240.20
32220240.20
41920-110.05
51720-390.45
61920-110.05
合計1201200-2.20
⚡ 適合度検定の条件
• 各カテゴリの期待度数が5以上
• 期待度数が小さい場合は、カテゴリを統合する

3️⃣ 独立性の検定(Test of Independence)

独立性の検定
2つの質的変数が独立かどうかを検定

H₀: 2変数は独立(関連がない)
H₁: 2変数は独立でない(関連がある)

検定統計量:
χ² = Σ[(Oᵢⱼ - Eᵢⱼ)² / Eᵢⱼ]

自由度: ν = (r - 1)(c - 1)
(r:行数、c:列数)

期待度数の計算

期待度数の公式:
Eᵢⱼ = (行iの合計 × 列jの合計) / 全体の合計

意味:
もし2変数が独立なら、各セルの度数はこの値になるはず
例題2: 性別と商品購入の関連を調べる

購入非購入合計
男性302050
女性203050
合計5050100

性別と購入に関連があるか検定しなさい(α=0.05)
χ²(1, 0.05) = 3.84
結論: 性別と購入には関連がある(H₀を棄却)

---

【ステップ1: 問題の状況を理解】
調べたいこと:
「性別」と「購入/非購入」に関連があるか?

検定の種類: 独立性の検定
→ 2つの質的変数が独立かどうか

---

【ステップ2: 仮説を設定】
H₀(帰無仮説): 性別と購入は独立(関連なし)
H₁(対立仮説): 性別と購入は独立でない(関連あり)

---

【ステップ3: 期待度数を計算】
公式: E = (行合計 × 列合計) / 全体合計

E(男性,購入) = (50 × 50) / 100 = 25
E(男性,非購入) = (50 × 50) / 100 = 25
E(女性,購入) = (50 × 50) / 100 = 25
E(女性,非購入) = (50 × 50) / 100 = 25

期待度数の表:
         購入  非購入
男性      25    25
女性      25    25

---

【ステップ4: 自由度を計算】
自由度 ν = (行数 - 1) × (列数 - 1)
       = (2 - 1) × (2 - 1)
       = 1 × 1
       = 1

---

【ステップ5: 検定統計量χ²を計算】
公式: χ² = Σ[(O - E)² / E]

各セルを計算:
(男性,購入): (30-25)²/25 = 25/25 = 1.0
(男性,非購入): (20-25)²/25 = 25/25 = 1.0
(女性,購入): (20-25)²/25 = 25/25 = 1.0
(女性,非購入): (30-25)²/25 = 25/25 = 1.0

χ² = 1.0 + 1.0 + 1.0 + 1.0 = 4.0

---

【ステップ6: 棄却域を確認】
有意水準: α = 0.05
自由度: ν = 1
臨界値: χ²(1, 0.05) = 3.84

棄却域: χ² > 3.84

---

【ステップ7: 判定】
計算したχ² = 4.0
臨界値 = 3.84

4.0 > 3.84 なので棄却域に入る

→ H₀を棄却

---

【ステップ8: 結論を述べる】
「有意水準5%で、性別と購入には関連がある」

データの傾向を見ると:
・男性は購入が多い(30 vs 期待25)
・女性は非購入が多い(30 vs 期待25)
→ 男性の方が購入しやすい傾向がある

---

【計算のまとめ】
セル観測O期待EO-E(O-E)²/E
男性×購入302551.0
男性×非購入2025-51.0
女性×購入2025-51.0
女性×非購入302551.0
χ²の合計4.0
💡 独立性の検定のポイント
• 「独立」= 一方の変数が他方に影響しない
• 「関連がある」= H₀を棄却した場合
• 関連の方向性(どちらが多い/少ない)は別途分析

4️⃣ 分割表(クロス集計表)の分析

分割表(Contingency Table)
2つの質的変数のクロス集計

表の構成:
• 行: 変数1のカテゴリ
• 列: 変数2のカテゴリ
• セル: 各組み合わせの度数(観測度数)
• 周辺度数: 各行・各列の合計
例題3: 3×2の分割表(薬の効果)

薬A薬B合計
有効403070
やや有効302050
無効102030
合計8070150

効果と薬の種類に関連があるか検定しなさい(α=0.05)
χ²(2, 0.05) = 5.99
結論: 効果と薬の種類には関連がある(H₀を棄却)

---

【ステップ1: 問題の状況を理解】
調べたいこと:
「薬の種類(A/B)」と「効果(有効/やや有効/無効)」に関連があるか?

検定の種類: 独立性の検定(3×2分割表)

---

【ステップ2: 仮説を設定】
H₀(帰無仮説): 効果と薬の種類は独立(関連なし)
H₁(対立仮説): 効果と薬の種類は独立でない(関連あり)

---

【ステップ3: 期待度数を計算】
公式: E = (行合計 × 列合計) / 全体合計

E(有効,薬A) = (70 × 80) / 150 = 5600/150 ≈ 37.33
E(有効,薬B) = (70 × 70) / 150 = 4900/150 ≈ 32.67
E(やや有効,薬A) = (50 × 80) / 150 = 4000/150 ≈ 26.67
E(やや有効,薬B) = (50 × 70) / 150 = 3500/150 ≈ 23.33
E(無効,薬A) = (30 × 80) / 150 = 2400/150 = 16.00
E(無効,薬B) = (30 × 70) / 150 = 2100/150 = 14.00

---

【ステップ4: 自由度を計算】
自由度 ν = (行数 - 1) × (列数 - 1)
       = (3 - 1) × (2 - 1)
       = 2 × 1
       = 2

---

【ステップ5: 検定統計量χ²を計算】
公式: χ² = Σ[(O - E)² / E]

各セルを計算:
(有効,薬A): (40-37.33)²/37.33 = 7.13/37.33 ≈ 0.19
(有効,薬B): (30-32.67)²/32.67 = 7.13/32.67 ≈ 0.22
(やや有効,薬A): (30-26.67)²/26.67 = 11.09/26.67 ≈ 0.42
(やや有効,薬B): (20-23.33)²/23.33 = 11.09/23.33 ≈ 0.48
(無効,薬A): (10-16.00)²/16.00 = 36/16 = 2.25
(無効,薬B): (20-14.00)²/14.00 = 36/14 ≈ 2.57

χ² = 0.19 + 0.22 + 0.42 + 0.48 + 2.25 + 2.57
   ≈ 6.13

---

【ステップ6: 棄却域を確認】
有意水準: α = 0.05
自由度: ν = 2
臨界値: χ²(2, 0.05) = 5.99

棄却域: χ² > 5.99

---

【ステップ7: 判定】
計算したχ² ≈ 6.13
臨界値 = 5.99

6.13 > 5.99 なので棄却域に入る

→ H₀を棄却

---

【ステップ8: 結論を述べる】
「有意水準5%で、効果と薬の種類には関連がある」

データの傾向を詳しく見ると:
・薬A: 有効が多い(40 vs 期待37.33)、無効が少ない(10 vs 16)
・薬B: 無効が多い(20 vs 期待14)

→ 薬Aの方が効果が高い傾向がある

---

【計算のまとめ】
セル観測O期待EO-E(O-E)²/E
有効×薬A4037.332.670.19
有効×薬B3032.67-2.670.22
やや有効×薬A3026.673.330.42
やや有効×薬B2023.33-3.330.48
無効×薬A1016.00-6.002.25
無効×薬B2014.006.002.57
χ²の合計6.13

---

【χ²が大きくなった原因】
χ²への寄与が大きいセル:
・無効×薬A: 2.25(観測10、期待16 → 期待より少ない)
・無効×薬B: 2.57(観測20、期待14 → 期待より多い)

この2つで全体の79%を占める
→ 「無効」カテゴリでの差が関連の主な原因
💡 分割表分析のポイント
• 期待度数は (行合計×列合計)/全体合計
• 自由度は (行数-1)×(列数-1)
• すべてのセルで期待度数≥5が必要
• χ²への寄与が大きいセルを確認すると、関連の原因がわかる

5️⃣ イエーツの連続性補正

イエーツの補正(Yates' Correction)
2×2分割表でサンプルサイズが小さい場合に使用

補正後の統計量:
χ² = Σ[(|Oᵢⱼ - Eᵢⱼ| - 0.5)² / Eᵢⱼ]

|Oᵢⱼ - Eᵢⱼ| から0.5を引いてから二乗する

2×2分割表で全体のサンプルサイズが40未満、または期待度数が5未満のセルがある場合に、イエーツの補正を適用することが推奨されます。

⚠️ カイ二乗検定の注意点
• 期待度数が5未満のセルがある → カテゴリ統合またはフィッシャーの正確検定
• 2×2表で小サンプル → イエーツの補正
• 順序カテゴリ → 傾向性の検定を検討
• 対応のあるデータ → マクネマー検定を使用

📊 適合度検定 vs 独立性の検定

使い分けのフローチャート

質問: 何を調べたいか?

A. 1つの変数の分布が理論と合うか?
適合度検定
例: サイコロの公平性、遺伝の法則の確認
自由度: k - 1

B. 2つの変数に関連があるか?
独立性の検定
例: 性別と購入、薬と効果
自由度: (r-1)(c-1)

📝 練習問題(15問)

このステップの理解度を確認しましょう。12問以上正解できれば次のステップへ進めます。

問題 1

カイ二乗統計量

カイ二乗検定の統計量の公式は?

解答: χ² = Σ[(O - E)² / E]

【解き方】
O: 観測度数(実際に観測された値)
E: 期待度数(理論的に期待される値)
各セルで計算して合計する
問題 2

適合度検定の自由度

カテゴリが5つの適合度検定で、自由度は?

解答: ν = 4

【解き方】
適合度検定の自由度: ν = k - 1
ν = 5 - 1 = 4
問題 3

独立性検定の自由度

3×4の分割表で、自由度は?

解答: ν = 6

【解き方】
独立性検定の自由度: ν = (r-1)(c-1)
ν = (3-1)(4-1) = 2 × 3 = 6
問題 4

期待度数の公式

分割表で期待度数の計算式は?

解答: E = (行合計×列合計) / 全体合計

【解き方】
独立の仮定の下での期待値
「もし2変数が独立なら、この度数になるはず」という値
問題 5

適用条件

カイ二乗検定を適用する条件は?

解答: 各セルの期待度数が5以上

【解き方】
満たさない場合はカテゴリ統合
またはフィッシャーの正確検定を使用
問題 6

独立性の帰無仮説

独立性の検定で、H₀は何か?

解答: 2つの変数は独立(関連がない)

【解き方】
H₀: 独立(関連なし)
H₁: 独立でない(関連あり)
問題 7

計算問題1

O=30, E=25のとき、(O-E)²/E は?

解答: 1.0

【解き方】
(O-E)²/E = (30-25)²/25
= 5²/25 = 25/25 = 1.0
問題 8

計算問題2

行合計50、列合計60、全体100。期待度数は?

解答: E = 30

【解き方】
E = (行合計 × 列合計) / 全体
= (50 × 60) / 100 = 3000/100 = 30
問題 9

2×2分割表

2×2分割表の自由度は?

解答: ν = 1

【解き方】
ν = (2-1)(2-1) = 1 × 1 = 1
問題 10

イエーツの補正

イエーツの補正を使うのはどんな時?

解答: 2×2表で小サンプル(n<40)

【解き方】
または期待度数<5のセルがある時
|O-E|から0.5を引く補正
問題 11

検定の種類

サイコロの目の出方の公平性を調べる検定は?

解答: 適合度検定

【解き方】
1つの変数の分布が理論(均等)に従うか
自由度 = 6 - 1 = 5
問題 12

検定の種類2

性別と支持政党の関連を調べる検定は?

解答: 独立性の検定

【解き方】
2つの質的変数(性別、支持政党)の独立性
分割表を作成して検定
問題 13

総合問題1

4×3の分割表で、α=0.05のとき自由度は?

解答: ν = 6

【解き方】
自由度 = (4-1)(3-1) = 3 × 2 = 6
χ²(6, 0.05) ≈ 12.59
問題 14

総合問題2

χ² = 8.5、ν=3、α=0.05のとき判定は?(χ²(3,0.05)=7.81)

解答: H₀を棄却

【解き方】
棄却域: χ² > 7.81
8.5 > 7.81 なので棄却域に入る
問題 15

総合問題3

カイ二乗検定で有意差が出た。因果関係があるといえるか?

解答: いえない

【解き方】
関連がある ≠ 因果関係がある
交絡因子(第三の変数)の可能性
因果関係の証明には実験や追加の分析が必要

⚠️ よくあるつまずきポイントと対策

適合度検定と独立性検定を混同する

対策: 変数の数で判断しましょう。

  • 適合度検定: 1つの変数の分布 → 自由度 = k - 1
  • 独立性検定: 2つの変数の関連 → 自由度 = (r-1)(c-1)

期待度数の計算を間違える

対策: 「行×列÷全体」を必ず確認しましょう。

  • E = (行合計 × 列合計) / 全体合計
  • 期待度数の合計 = 観測度数の合計(検算に使える)
  • 各行の期待度数合計 = その行の観測合計

自由度の公式を間違える

対策: 検定の種類ごとに公式を覚えましょう。

  • 適合度検定: ν = k - 1(カテゴリ数 - 1)
  • 独立性検定: ν = (r-1)(c-1)(行-1)×(列-1)
  • 2×2分割表は必ず自由度1

「関連がある」と「因果関係がある」を混同する

対策: カイ二乗検定でわかるのは「関連」だけです。

  • 有意 = 関連がある(偶然とは考えにくい)
  • 因果関係は別の分析や実験が必要
  • 交絡因子(第三の変数)の可能性を考える

📚 このステップのまとめ

🎯 学習したこと

  • カイ二乗分布: 標準正規分布の二乗和、質的データの検定に使用
  • 適合度検定: 理論分布との適合性、自由度 = k - 1
  • 独立性の検定: 2変数の独立性、自由度 = (r-1)(c-1)
  • 期待度数: (行合計×列合計)/全体合計
  • 検定統計量: χ² = Σ[(O-E)²/E]
  • 適用条件: 期待度数≥5
💡 次のステップへ進む前に
練習問題で12問以上(80%以上)正解できたら、STEP 13に進みましょう!

カイ二乗検定は質的データの分析に必須です。
期待度数の計算と自由度の求め方をしっかり理解しましょう!
📝

学習メモ

統計検定2級対策 - Step 12

📋 過去のメモ一覧
#artnasekai #学習メモ
LINE