Step 15:多変量解析入門

Step 15: 多変量解析入門

複数の変数を同時に扱う多変量解析の基礎的手法を習得します

📚 このステップで学ぶこと

このステップでは、多変量解析の基本手法を学びます。主成分分析、判別分析、クラスター分析など、複数の変数を同時に扱い、データの構造を理解する方法を習得します。

1. 多変量データの基礎

1.1 多変量データ

多変量データ (Multivariate Data)
複数の変数を同時に観測したデータ

表記:
n個体、p変数のデータ行列

X = [x₁, x₂, …, xₙ]ᵀ

xᵢ = (xᵢ₁, xᵢ₂, …, xᵢₚ)ᵀ

データ行列 (n×p):
変数1変数2変数p
個体1x₁₁x₁₂x₁ₚ
個体2x₂₁x₂₂x₂ₚ
個体nxₙ₁xₙ₂xₙₚ

1.2 多変量正規分布

多変量正規分布 Nₚ(μ, Σ)

密度関数:
f(x) = (2π)⁻ᵖ/²|Σ|⁻¹/² exp[-½(x-μ)ᵀΣ⁻¹(x-μ)]

μ: 平均ベクトル (p×1)
Σ: 分散共分散行列 (p×p)

平均ベクトル:
μ = (μ₁, μ₂, …, μₚ)ᵀ
μᵢ = E[Xᵢ]

分散共分散行列:
Σ = [σᵢⱼ]
σᵢᵢ = Var(Xᵢ)
σᵢⱼ = Cov(Xᵢ, Xⱼ)

性質:
・線形変換も正規分布
・周辺分布も正規分布
・条件付き分布も正規分布

1.3 マハラノビス距離

マハラノビス距離
変数間の相関を考慮した距離

定義:
D²(x, μ) = (x-μ)ᵀΣ⁻¹(x-μ)

特徴:
・スケール不変
・相関を考慮
・楕円状の等高線

ユークリッド距離との違い:
ユークリッド: d² = (x-μ)ᵀ(x-μ)
       相関を無視

マハラノビス: 相関を考慮した
       真の距離

2. 主成分分析 (PCA)

2.1 主成分分析の原理

主成分分析 (Principal Component Analysis)
多次元データを少数の合成変数で要約

目的:
・次元削減
・データの可視化
・多重共線性の解消

第1主成分:
データの分散を最大にする線形結合
Z₁ = a₁₁X₁ + a₁₂X₂ + … + a₁ₚXₚ

制約: a₁ᵀa₁ = 1

第2主成分:
第1主成分と直交し、分散が最大

解法:
分散共分散行列Σの固有値問題
Σa = λa

2.2 主成分の性質

主成分の性質

1. 分散:
Var(Zₖ) = λₖ (k番目の固有値)

2. 直交性:
Cov(Zᵢ, Zⱼ) = 0 (i≠j)

3. 分散の保存:
Σλₖ = Σσᵢᵢ = tr(Σ)

4. 寄与率:
第k主成分の寄与率 = λₖ / Σλᵢ

5. 累積寄与率:
第1〜m主成分の累積寄与率
= (λ₁+…+λₘ) / Σλᵢ

目安: 累積寄与率80%以上で十分

例題1: 主成分の計算

問題: 2変数X₁, X₂の分散共分散行列がΣ = [[4, 2], [2, 1]]。
第1主成分の分散(固有値)を求めよ。

解答:
固有値の計算:
特性方程式: det(Σ – λI) = 0

|4-λ  2 |
|2  1-λ | = 0

(4-λ)(1-λ) – 4 = 0
4 – 5λ + λ² – 4 = 0
λ² – 5λ = 0
λ(λ – 5) = 0

固有値:
λ₁ = 5
λ₂ = 0

第1主成分の分散:
Var(Z₁) = λ₁ = 5

寄与率:
第1主成分: 5/(5+0) = 100%

第1主成分だけで全情報を表現可能!
実は完全な線形関係がある

3. 判別分析

3.1 線形判別分析

線形判別分析 (Linear Discriminant Analysis)
既知のグループに基づき、新しい個体を分類

2群の場合:
群1と群2を最もよく分ける線形式を求める

判別関数:
Z = aᵀx

a: 判別係数ベクトル

Fisher の判別関数:
群間分散 / 群内分散 を最大化

a = W⁻¹(μ₁ – μ₂)

W: 群内分散共分散行列
μ₁, μ₂: 各群の平均ベクトル

3.2 判別規則

判別規則

線形判別関数の値:
z = aᵀx

判別境界:
z₀ = (z̄₁ + z̄₂)/2

z̄₁: 群1の判別得点の平均
z̄₂: 群2の判別得点の平均

判別規則:
z > z₀ → 群1に分類
z ≤ z₀ → 群2に分類

マハラノビス距離による判別:
D₁²(x) < D₂²(x) → 群1
D₁²(x) ≥ D₂²(x) → 群2

Dᵢ²(x) = (x-μᵢ)ᵀΣ⁻¹(x-μᵢ)

例題2: 判別分析の適用

問題: 群1の平均(2, 3)、群2の平均(4, 1)。新個体(3, 2)はどちらに近いか? (ユークリッド距離で)

解答:
群1までの距離:
d₁ = √[(3-2)² + (2-3)²]
= √[1² + (-1)²]
= √2 ≈ 1.414

群2までの距離:
d₂ = √[(3-4)² + (2-1)²]
= √[(-1)² + 1²]
= √2 ≈ 1.414

結果:
d₁ = d₂
→ 両群から等距離
判別境界上

実務的には:
・事前確率を考慮
・誤判別のコストを考慮
・マハラノビス距離を使用

単純なユークリッド距離では
変数のスケールの影響を受ける

4. クラスター分析

4.1 階層的クラスター分析

階層的クラスター分析
個体をグループに分類する手法

手順:
1. 各個体を1つのクラスターとする
2. 最も近い2つのクラスターを併合
3. n-1回繰り返す

クラスター間距離の定義:

1. 最短距離法 (単連結法)
d(C₁, C₂) = min{d(x, y): x∈C₁, y∈C₂}
・最も近い点同士の距離

2. 最長距離法 (完全連結法)
d(C₁, C₂) = max{d(x, y): x∈C₁, y∈C₂}
・最も遠い点同士の距離

3. 群平均法
d(C₁, C₂) = 平均{d(x, y): x∈C₁, y∈C₂}
・すべてのペアの平均

4. Ward法
クラスター内平方和の増加が最小
・最もよく使われる

4.2 デンドログラム

デンドログラム (樹形図)
クラスターの併合過程を視覚化

読み方:
・縦軸: 距離または非類似度
・横軸: 個体
・枝の高さ: 併合時の距離

クラスター数の決定:
・適当な高さで水平に切る
・エルボー法
・解釈可能性

注意:
・手法により結果が異なる
・外れ値の影響大
・事前の標準化が重要

4.3 k-means法

k-means法 (非階層的)
クラスター数kを指定して分類

アルゴリズム:
1. k個の初期中心を設定
2. 各点を最も近い中心に割り当て
3. 各クラスターの中心を再計算
4. 収束するまで2-3を繰り返す

目的関数:
クラスター内平方和を最小化
W = ΣΣ||xᵢ – μₖ||²

利点:
・計算が速い
・大規模データに適用可能

欠点:
・初期値に依存
・kを事前に指定
・球状クラスターを仮定

例題3: 単純なクラスタリング

問題: 3点A(0,0), B(1,0), C(0,1)を最短距離法でクラスタリングせよ。

解答:
距離の計算:
d(A,B) = 1
d(A,C) = 1
d(B,C) = √2 ≈ 1.414

ステップ1:
最小距離: d(A,B) = 1 または d(A,C) = 1
→ AとBを併合 (任意選択)
クラスター: {A,B}, {C}

ステップ2:
{A,B}と{C}の距離:
最短距離法 → min{d(A,C), d(B,C)}
= min{1, 1.414} = 1

併合距離: 1
最終クラスター: {A,B,C}

デンドログラム:
高さ1でA-B併合
高さ1で{A,B}-C併合

もしAとCを先に併合しても
同じ高さで全て併合される

5. 因子分析

5.1 因子分析の原理

因子分析 (Factor Analysis)
観測変数の背後にある潜在因子を探る

モデル:
X = Λf + ε

X: 観測変数 (p次元)
f: 共通因子 (m次元, m Λ: 因子負荷行列 (p×m)
ε: 独自因子 (p次元)

仮定:
E[f] = 0, Var(f) = I
E[ε] = 0, Var(ε) = Ψ (対角)
Cov(f, ε) = 0

分散共分散:
Σ = ΛΛᵀ + Ψ

5.2 因子の回転

因子回転
解釈しやすい因子構造を得る

直交回転:
・バリマックス回転 (最も一般的)
・因子負荷の2乗を極端にする
・因子間の相関なし

斜交回転:
・プロマックス回転
・因子間の相関を許す
・より現実的

因子負荷の解釈:
|λᵢⱼ| > 0.4: 実質的な負荷
|λᵢⱼ| > 0.7: 強い負荷

主成分分析との違い:
PCA: 分散の最大化
FA: 因果モデル、潜在変数

6. 正準相関分析

6.1 正準相関の概念

正準相関分析 (Canonical Correlation Analysis)
2組の変数群の関係を調べる

設定:
X群: X₁, X₂, …, Xₚ
Y群: Y₁, Y₂, …, Yᵧ

目的:
各群の線形結合の相関を最大化

第1正準変量:
U₁ = a₁ᵀX
V₁ = b₁ᵀY

Cor(U₁, V₁)を最大化

第1正準相関係数:
ρ₁ = Cor(U₁, V₁)

解釈:
2組の変数群間の関係の強さ

6.2 重回帰との関係

特殊ケース

Y群が1変数の場合:
正準相関分析 = 重回帰分析
第1正準相関 = 重相関係数

両群が1変数の場合:
正準相関分析 = 単相関

一般的な関係:
正準相関は重回帰の多変量版

応用例:
・学力テスト群と成績群の関係
・身体測定値群と運動能力群
・経済指標群と社会指標群

📝 練習問題 (15問)

問題 1

多変量正規分布

p変量正規分布のパラメータを2つ挙げよ。

1. 平均ベクトル μ
2. 分散共分散行列 Σ
問題 2

マハラノビス距離

マハラノビス距離の特徴を2つ挙げよ。

1. スケール不変
2. 変数間の相関を考慮
問題 3

PCAの目的

主成分分析の主な目的を2つ挙げよ。

1. 次元削減
2. データの可視化
問題 4

主成分の性質

主成分間の関係は?

互いに直交(無相関)
問題 5

寄与率

第k主成分の寄与率の式を書け。

λₖ / Σλᵢ
(k番目の固有値 / 全固有値の和)
問題 6

判別分析の目的

線形判別分析は何を最大化するか?

群間分散 / 群内分散
問題 7

判別規則

マハラノビス距離を用いた判別規則を述べよ。

各群までのマハラノビス距離を計算し、
最も近い群に分類する
問題 8

階層的クラスタリング

最もよく使われるクラスター間距離の定義法は?

Ward法
(クラスター内平方和の増加最小)
問題 9

k-means法

k-means法の目的関数は?

クラスター内平方和の最小化
問題 10

デンドログラム

デンドログラムの縦軸は何を表すか?

距離または非類似度
問題 11

因子分析のモデル

因子分析の基本式を書け。

X = Λf + ε
(Λ: 因子負荷, f: 共通因子, ε: 独自因子)
問題 12

因子回転

最も一般的な直交回転法は?

バリマックス回転
問題 13

PCAと因子分析

主成分分析と因子分析の主な違いは?

PCA: 分散の最大化、記述的
FA: 因果モデル、潜在変数を仮定
問題 14

正準相関

正準相関分析の目的は?

2組の変数群の線形結合の
相関を最大化する
問題 15

特殊ケース

Y群が1変数のとき、正準相関分析は何になるか?

重回帰分析
(第1正準相関=重相関係数)
📌 Step 15のまとめ
  • 多変量データの基本概念とマハラノビス距離を理解した
  • 主成分分析(PCA)で次元削減と可視化ができるようになった
  • 判別分析でグループ分類の方法を習得した
  • クラスター分析(階層的・非階層的)でデータをグループ化できるようになった
  • 因子分析で潜在因子を探る方法を学んだ
  • 正準相関分析で変数群間の関係を理解した
多変量解析の基礎を完全にマスターしました!これで全15ステップが完了です!
📝

学習メモ

統計検定準1級対策 - Step 15

📋 過去のメモ一覧
#artnasekai #学習メモ
LINE