Step 15: 多変量解析入門
複数の変数を同時に扱う多変量解析の基礎的手法を習得します
📚 このステップで学ぶこと
このステップでは、多変量解析の基本手法を学びます。主成分分析、判別分析、クラスター分析など、複数の変数を同時に扱い、データの構造を理解する方法を習得します。
1. 多変量データの基礎
1.1 多変量データ
複数の変数を同時に観測したデータ
表記:
n個体、p変数のデータ行列
X = [x₁, x₂, …, xₙ]ᵀ
xᵢ = (xᵢ₁, xᵢ₂, …, xᵢₚ)ᵀ
データ行列 (n×p):
| 変数1 | 変数2 | … | 変数p | |
|---|---|---|---|---|
| 個体1 | x₁₁ | x₁₂ | … | x₁ₚ |
| 個体2 | x₂₁ | x₂₂ | … | x₂ₚ |
| ⋮ | ⋮ | ⋮ | ⋱ | ⋮ |
| 個体n | xₙ₁ | xₙ₂ | … | xₙₚ |
1.2 多変量正規分布
密度関数:
f(x) = (2π)⁻ᵖ/²|Σ|⁻¹/² exp[-½(x-μ)ᵀΣ⁻¹(x-μ)]
μ: 平均ベクトル (p×1)
Σ: 分散共分散行列 (p×p)
平均ベクトル:
μ = (μ₁, μ₂, …, μₚ)ᵀ
μᵢ = E[Xᵢ]
分散共分散行列:
Σ = [σᵢⱼ]
σᵢᵢ = Var(Xᵢ)
σᵢⱼ = Cov(Xᵢ, Xⱼ)
性質:
・線形変換も正規分布
・周辺分布も正規分布
・条件付き分布も正規分布
1.3 マハラノビス距離
変数間の相関を考慮した距離
定義:
D²(x, μ) = (x-μ)ᵀΣ⁻¹(x-μ)
特徴:
・スケール不変
・相関を考慮
・楕円状の等高線
ユークリッド距離との違い:
ユークリッド: d² = (x-μ)ᵀ(x-μ)
相関を無視
マハラノビス: 相関を考慮した
真の距離
2. 主成分分析 (PCA)
2.1 主成分分析の原理
多次元データを少数の合成変数で要約
目的:
・次元削減
・データの可視化
・多重共線性の解消
第1主成分:
データの分散を最大にする線形結合
Z₁ = a₁₁X₁ + a₁₂X₂ + … + a₁ₚXₚ
制約: a₁ᵀa₁ = 1
第2主成分:
第1主成分と直交し、分散が最大
解法:
分散共分散行列Σの固有値問題
Σa = λa
2.2 主成分の性質
1. 分散:
Var(Zₖ) = λₖ (k番目の固有値)
2. 直交性:
Cov(Zᵢ, Zⱼ) = 0 (i≠j)
3. 分散の保存:
Σλₖ = Σσᵢᵢ = tr(Σ)
4. 寄与率:
第k主成分の寄与率 = λₖ / Σλᵢ
5. 累積寄与率:
第1〜m主成分の累積寄与率
= (λ₁+…+λₘ) / Σλᵢ
目安: 累積寄与率80%以上で十分
例題1: 主成分の計算
問題: 2変数X₁, X₂の分散共分散行列がΣ = [[4, 2], [2, 1]]。
第1主成分の分散(固有値)を求めよ。
固有値の計算:
特性方程式: det(Σ – λI) = 0
|4-λ 2 |
|2 1-λ | = 0
(4-λ)(1-λ) – 4 = 0
4 – 5λ + λ² – 4 = 0
λ² – 5λ = 0
λ(λ – 5) = 0
固有値:
λ₁ = 5
λ₂ = 0
第1主成分の分散:
Var(Z₁) = λ₁ = 5
寄与率:
第1主成分: 5/(5+0) = 100%
第1主成分だけで全情報を表現可能!
実は完全な線形関係がある
3. 判別分析
3.1 線形判別分析
既知のグループに基づき、新しい個体を分類
2群の場合:
群1と群2を最もよく分ける線形式を求める
判別関数:
Z = aᵀx
a: 判別係数ベクトル
Fisher の判別関数:
群間分散 / 群内分散 を最大化
a = W⁻¹(μ₁ – μ₂)
W: 群内分散共分散行列
μ₁, μ₂: 各群の平均ベクトル
3.2 判別規則
線形判別関数の値:
z = aᵀx
判別境界:
z₀ = (z̄₁ + z̄₂)/2
z̄₁: 群1の判別得点の平均
z̄₂: 群2の判別得点の平均
判別規則:
z > z₀ → 群1に分類
z ≤ z₀ → 群2に分類
マハラノビス距離による判別:
D₁²(x) < D₂²(x) → 群1
D₁²(x) ≥ D₂²(x) → 群2
Dᵢ²(x) = (x-μᵢ)ᵀΣ⁻¹(x-μᵢ)
例題2: 判別分析の適用
問題: 群1の平均(2, 3)、群2の平均(4, 1)。新個体(3, 2)はどちらに近いか? (ユークリッド距離で)
群1までの距離:
d₁ = √[(3-2)² + (2-3)²]
= √[1² + (-1)²]
= √2 ≈ 1.414
群2までの距離:
d₂ = √[(3-4)² + (2-1)²]
= √[(-1)² + 1²]
= √2 ≈ 1.414
結果:
d₁ = d₂
→ 両群から等距離
→ 判別境界上
実務的には:
・事前確率を考慮
・誤判別のコストを考慮
・マハラノビス距離を使用
単純なユークリッド距離では
変数のスケールの影響を受ける
4. クラスター分析
4.1 階層的クラスター分析
個体をグループに分類する手法
手順:
1. 各個体を1つのクラスターとする
2. 最も近い2つのクラスターを併合
3. n-1回繰り返す
クラスター間距離の定義:
1. 最短距離法 (単連結法)
d(C₁, C₂) = min{d(x, y): x∈C₁, y∈C₂}
・最も近い点同士の距離
2. 最長距離法 (完全連結法)
d(C₁, C₂) = max{d(x, y): x∈C₁, y∈C₂}
・最も遠い点同士の距離
3. 群平均法
d(C₁, C₂) = 平均{d(x, y): x∈C₁, y∈C₂}
・すべてのペアの平均
4. Ward法
クラスター内平方和の増加が最小
・最もよく使われる
4.2 デンドログラム
クラスターの併合過程を視覚化
読み方:
・縦軸: 距離または非類似度
・横軸: 個体
・枝の高さ: 併合時の距離
クラスター数の決定:
・適当な高さで水平に切る
・エルボー法
・解釈可能性
注意:
・手法により結果が異なる
・外れ値の影響大
・事前の標準化が重要
4.3 k-means法
クラスター数kを指定して分類
アルゴリズム:
1. k個の初期中心を設定
2. 各点を最も近い中心に割り当て
3. 各クラスターの中心を再計算
4. 収束するまで2-3を繰り返す
目的関数:
クラスター内平方和を最小化
W = ΣΣ||xᵢ – μₖ||²
利点:
・計算が速い
・大規模データに適用可能
欠点:
・初期値に依存
・kを事前に指定
・球状クラスターを仮定
例題3: 単純なクラスタリング
問題: 3点A(0,0), B(1,0), C(0,1)を最短距離法でクラスタリングせよ。
距離の計算:
d(A,B) = 1
d(A,C) = 1
d(B,C) = √2 ≈ 1.414
ステップ1:
最小距離: d(A,B) = 1 または d(A,C) = 1
→ AとBを併合 (任意選択)
クラスター: {A,B}, {C}
ステップ2:
{A,B}と{C}の距離:
最短距離法 → min{d(A,C), d(B,C)}
= min{1, 1.414} = 1
併合距離: 1
最終クラスター: {A,B,C}
デンドログラム:
高さ1でA-B併合
高さ1で{A,B}-C併合
もしAとCを先に併合しても
同じ高さで全て併合される
5. 因子分析
5.1 因子分析の原理
観測変数の背後にある潜在因子を探る
モデル:
X = Λf + ε
X: 観測変数 (p次元)
f: 共通因子 (m次元, m
Λ: 因子負荷行列 (p×m)
ε: 独自因子 (p次元)
仮定:
E[f] = 0, Var(f) = I
E[ε] = 0, Var(ε) = Ψ (対角)
Cov(f, ε) = 0
分散共分散:
Σ = ΛΛᵀ + Ψ
5.2 因子の回転
解釈しやすい因子構造を得る
直交回転:
・バリマックス回転 (最も一般的)
・因子負荷の2乗を極端にする
・因子間の相関なし
斜交回転:
・プロマックス回転
・因子間の相関を許す
・より現実的
因子負荷の解釈:
|λᵢⱼ| > 0.4: 実質的な負荷
|λᵢⱼ| > 0.7: 強い負荷
主成分分析との違い:
PCA: 分散の最大化
FA: 因果モデル、潜在変数
6. 正準相関分析
6.1 正準相関の概念
2組の変数群の関係を調べる
設定:
X群: X₁, X₂, …, Xₚ
Y群: Y₁, Y₂, …, Yᵧ
目的:
各群の線形結合の相関を最大化
第1正準変量:
U₁ = a₁ᵀX
V₁ = b₁ᵀY
Cor(U₁, V₁)を最大化
第1正準相関係数:
ρ₁ = Cor(U₁, V₁)
解釈:
2組の変数群間の関係の強さ
6.2 重回帰との関係
Y群が1変数の場合:
正準相関分析 = 重回帰分析
第1正準相関 = 重相関係数
両群が1変数の場合:
正準相関分析 = 単相関
一般的な関係:
正準相関は重回帰の多変量版
応用例:
・学力テスト群と成績群の関係
・身体測定値群と運動能力群
・経済指標群と社会指標群
📝 練習問題 (15問)
多変量正規分布
p変量正規分布のパラメータを2つ挙げよ。
2. 分散共分散行列 Σ
マハラノビス距離
マハラノビス距離の特徴を2つ挙げよ。
2. 変数間の相関を考慮
PCAの目的
主成分分析の主な目的を2つ挙げよ。
2. データの可視化
主成分の性質
主成分間の関係は?
寄与率
第k主成分の寄与率の式を書け。
(k番目の固有値 / 全固有値の和)
判別分析の目的
線形判別分析は何を最大化するか?
判別規則
マハラノビス距離を用いた判別規則を述べよ。
最も近い群に分類する
階層的クラスタリング
最もよく使われるクラスター間距離の定義法は?
(クラスター内平方和の増加最小)
k-means法
k-means法の目的関数は?
デンドログラム
デンドログラムの縦軸は何を表すか?
因子分析のモデル
因子分析の基本式を書け。
(Λ: 因子負荷, f: 共通因子, ε: 独自因子)
因子回転
最も一般的な直交回転法は?
PCAと因子分析
主成分分析と因子分析の主な違いは?
FA: 因果モデル、潜在変数を仮定
正準相関
正準相関分析の目的は?
相関を最大化する
特殊ケース
Y群が1変数のとき、正準相関分析は何になるか?
(第1正準相関=重相関係数)
- 多変量データの基本概念とマハラノビス距離を理解した
- 主成分分析(PCA)で次元削減と可視化ができるようになった
- 判別分析でグループ分類の方法を習得した
- クラスター分析(階層的・非階層的)でデータをグループ化できるようになった
- 因子分析で潜在因子を探る方法を学んだ
- 正準相関分析で変数群間の関係を理解した
学習メモ
統計検定準1級対策 - Step 15