Step 15: 多変量解析入門

複数の変数を同時に扱う多変量解析の基礎的手法を習得します

📚 このステップで学ぶこと

このステップでは、多変量解析の基本手法を学びます。主成分分析、判別分析、クラスター分析など、複数の変数を同時に扱い、データの構造を理解する方法を習得します。

1. 多変量データの基礎

1.1 多変量データ

        多変量データ (Multivariate Data)

        複数の変数を同時に観測したデータ

        表記:

        n個体、p変数のデータ行列

        X = [x₁, x₂, …, xₙ]ᵀ

        xᵢ = (xᵢ₁, xᵢ₂, …, xᵢₚ)ᵀ

        データ行列 (n×p):

            変数1変数2…変数p
個体1x₁₁x₁₂…x₁ₚ
個体2x₂₁x₂₂…x₂ₚ
⋮⋮⋮⋱⋮
個体nxₙ₁xₙ₂…xₙₚ

	変数1	変数2	…	変数p
個体1	x₁₁	x₁₂	…	x₁ₚ
個体2	x₂₁	x₂₂	…	x₂ₚ
⋮	⋮	⋮	⋱	⋮
個体n	xₙ₁	xₙ₂	…	xₙₚ

1.2 多変量正規分布

多変量正規分布 Nₚ(μ, Σ)

密度関数:
f(x) = (2π)⁻ᵖ/²|Σ|⁻¹/² exp[-½(x-μ)ᵀΣ⁻¹(x-μ)]

μ: 平均ベクトル (p×1)
Σ: 分散共分散行列 (p×p)

平均ベクトル:
μ = (μ₁, μ₂, …, μₚ)ᵀ
μᵢ = E[Xᵢ]

分散共分散行列:
Σ = [σᵢⱼ]
σᵢᵢ = Var(Xᵢ)
σᵢⱼ = Cov(Xᵢ, Xⱼ)

性質:
・線形変換も正規分布
・周辺分布も正規分布
・条件付き分布も正規分布

1.3 マハラノビス距離

マハラノビス距離
変数間の相関を考慮した距離

定義:
D²(x, μ) = (x-μ)ᵀΣ⁻¹(x-μ)

特徴:
・スケール不変
・相関を考慮
・楕円状の等高線

ユークリッド距離との違い:
ユークリッド: d² = (x-μ)ᵀ(x-μ)
　　　　　　　相関を無視

マハラノビス: 相関を考慮した
　　　　　　　真の距離

2. 主成分分析 (PCA)

2.1 主成分分析の原理

        主成分分析 (Principal Component Analysis)

        多次元データを少数の合成変数で要約

        目的:

        ・次元削減

        ・データの可視化

        ・多重共線性の解消

        第1主成分:

        データの分散を最大にする線形結合

        Z₁ = a₁₁X₁ + a₁₂X₂ + … + a₁ₚXₚ

        制約: a₁ᵀa₁ = 1

        第2主成分:

        第1主成分と直交し、分散が最大

        解法:

        分散共分散行列Σの固有値問題

        Σa = λa

2.2 主成分の性質

主成分の性質

1. 分散:
Var(Zₖ) = λₖ (k番目の固有値)

2. 直交性:
Cov(Zᵢ, Zⱼ) = 0 (i≠j)

3. 分散の保存:
Σλₖ = Σσᵢᵢ = tr(Σ)

4. 寄与率:
第k主成分の寄与率 = λₖ / Σλᵢ

5. 累積寄与率:
第1〜m主成分の累積寄与率
= (λ₁+…+λₘ) / Σλᵢ

目安: 累積寄与率80%以上で十分

例題1: 主成分の計算

問題: 2変数X₁, X₂の分散共分散行列がΣ = [[4, 2], [2, 1]]。
第1主成分の分散(固有値)を求めよ。

解答:
固有値の計算:
特性方程式: det(Σ – λI) = 0

|4-λ　　2 |
|2　　1-λ | = 0

(4-λ)(1-λ) – 4 = 0
4 – 5λ + λ² – 4 = 0
λ² – 5λ = 0
λ(λ – 5) = 0

固有値:
λ₁ = 5
λ₂ = 0

第1主成分の分散:
Var(Z₁) = λ₁ = 5

寄与率:
第1主成分: 5/(5+0) = 100%

第1主成分だけで全情報を表現可能!
実は完全な線形関係がある

3. 判別分析

3.1 線形判別分析

        線形判別分析 (Linear Discriminant Analysis)

        既知のグループに基づき、新しい個体を分類

        2群の場合:

        群1と群2を最もよく分ける線形式を求める

        判別関数:

        Z = aᵀx

        a: 判別係数ベクトル

        Fisher の判別関数:

        群間分散 / 群内分散 を最大化

        a = W⁻¹(μ₁ – μ₂)

        W: 群内分散共分散行列

        μ₁, μ₂: 各群の平均ベクトル

3.2 判別規則

判別規則

線形判別関数の値:
z = aᵀx

判別境界:
z₀ = (z̄₁ + z̄₂)/2

z̄₁: 群1の判別得点の平均
z̄₂: 群2の判別得点の平均

判別規則:
z > z₀ → 群1に分類
z ≤ z₀ → 群2に分類

マハラノビス距離による判別:
D₁²(x) < D₂²(x) → 群1
D₁²(x) ≥ D₂²(x) → 群2

Dᵢ²(x) = (x-μᵢ)ᵀΣ⁻¹(x-μᵢ)

例題2: 判別分析の適用

問題: 群1の平均(2, 3)、群2の平均(4, 1)。新個体(3, 2)はどちらに近いか? (ユークリッド距離で)

解答:
群1までの距離:
d₁ = √[(3-2)² + (2-3)²]
= √[1² + (-1)²]
= √2 ≈ 1.414

群2までの距離:
d₂ = √[(3-4)² + (2-1)²]
= √[(-1)² + 1²]
= √2 ≈ 1.414

結果:
d₁ = d₂
→ 両群から等距離
→ 判別境界上

実務的には:
・事前確率を考慮
・誤判別のコストを考慮
・マハラノビス距離を使用

単純なユークリッド距離では
変数のスケールの影響を受ける

4. クラスター分析

4.1 階層的クラスター分析

階層的クラスター分析
個体をグループに分類する手法

手順:
1. 各個体を1つのクラスターとする
2. 最も近い2つのクラスターを併合
3. n-1回繰り返す

クラスター間距離の定義:

1. 最短距離法 (単連結法)
d(C₁, C₂) = min{d(x, y): x∈C₁, y∈C₂}
・最も近い点同士の距離

2. 最長距離法 (完全連結法)
d(C₁, C₂) = max{d(x, y): x∈C₁, y∈C₂}
・最も遠い点同士の距離

3. 群平均法
d(C₁, C₂) = 平均{d(x, y): x∈C₁, y∈C₂}
・すべてのペアの平均

4. Ward法
クラスター内平方和の増加が最小
・最もよく使われる

4.2 デンドログラム

        デンドログラム (樹形図)

        クラスターの併合過程を視覚化

        読み方:

        ・縦軸: 距離または非類似度

        ・横軸: 個体

        ・枝の高さ: 併合時の距離

        クラスター数の決定:

        ・適当な高さで水平に切る

        ・エルボー法

        ・解釈可能性

        注意:

        ・手法により結果が異なる

        ・外れ値の影響大

        ・事前の標準化が重要

4.3 k-means法

k-means法 (非階層的)
クラスター数kを指定して分類

アルゴリズム:
1. k個の初期中心を設定
2. 各点を最も近い中心に割り当て
3. 各クラスターの中心を再計算
4. 収束するまで2-3を繰り返す

目的関数:
クラスター内平方和を最小化
W = ΣΣ||xᵢ – μₖ||²

利点:
・計算が速い
・大規模データに適用可能

欠点:
・初期値に依存
・kを事前に指定
・球状クラスターを仮定

例題3: 単純なクラスタリング

問題: 3点A(0,0), B(1,0), C(0,1)を最短距離法でクラスタリングせよ。

解答:
距離の計算:
d(A,B) = 1
d(A,C) = 1
d(B,C) = √2 ≈ 1.414

ステップ1:
最小距離: d(A,B) = 1 または d(A,C) = 1
→ AとBを併合 (任意選択)
クラスター: {A,B}, {C}

ステップ2:
{A,B}と{C}の距離:
最短距離法 → min{d(A,C), d(B,C)}
= min{1, 1.414} = 1

併合距離: 1
最終クラスター: {A,B,C}

デンドログラム:
高さ1でA-B併合
高さ1で{A,B}-C併合

もしAとCを先に併合しても
同じ高さで全て併合される

5. 因子分析

5.1 因子分析の原理

因子分析 (Factor Analysis)
観測変数の背後にある潜在因子を探る

モデル:
X = Λf + ε

X: 観測変数 (p次元)
f: 共通因子 (m次元, m Λ: 因子負荷行列 (p×m)
ε: 独自因子 (p次元)

仮定:
E[f] = 0, Var(f) = I
E[ε] = 0, Var(ε) = Ψ (対角)
Cov(f, ε) = 0

分散共分散:
Σ = ΛΛᵀ + Ψ

5.2 因子の回転

        因子回転

        解釈しやすい因子構造を得る

        直交回転:

        ・バリマックス回転 (最も一般的)

        ・因子負荷の2乗を極端にする

        ・因子間の相関なし

        斜交回転:

        ・プロマックス回転

        ・因子間の相関を許す

        ・より現実的

        因子負荷の解釈:

        |λᵢⱼ| > 0.4: 実質的な負荷

        |λᵢⱼ| > 0.7: 強い負荷

        主成分分析との違い:

        PCA: 分散の最大化

        FA: 因果モデル、潜在変数

6. 正準相関分析

6.1 正準相関の概念

正準相関分析 (Canonical Correlation Analysis)
2組の変数群の関係を調べる

設定:
X群: X₁, X₂, …, Xₚ
Y群: Y₁, Y₂, …, Yᵧ

目的:
各群の線形結合の相関を最大化

第1正準変量:
U₁ = a₁ᵀX
V₁ = b₁ᵀY

Cor(U₁, V₁)を最大化

第1正準相関係数:
ρ₁ = Cor(U₁, V₁)

解釈:
2組の変数群間の関係の強さ

6.2 重回帰との関係

特殊ケース

Y群が1変数の場合:
正準相関分析 = 重回帰分析
第1正準相関 = 重相関係数

両群が1変数の場合:
正準相関分析 = 単相関

一般的な関係:
正準相関は重回帰の多変量版

応用例:
・学力テスト群と成績群の関係
・身体測定値群と運動能力群
・経済指標群と社会指標群

📝 練習問題 (15問)

問題 1

多変量正規分布

p変量正規分布のパラメータを2つ挙げよ。

1. 平均ベクトル μ
2. 分散共分散行列 Σ

問題 2

マハラノビス距離

マハラノビス距離の特徴を2つ挙げよ。

1. スケール不変
2. 変数間の相関を考慮

問題 3

PCAの目的

主成分分析の主な目的を2つ挙げよ。

1. 次元削減
2. データの可視化

問題 4

主成分の性質

主成分間の関係は?

互いに直交(無相関)

問題 5

寄与率

第k主成分の寄与率の式を書け。

λₖ / Σλᵢ
(k番目の固有値 / 全固有値の和)

問題 6

判別分析の目的

線形判別分析は何を最大化するか?

群間分散 / 群内分散

問題 7

判別規則

マハラノビス距離を用いた判別規則を述べよ。

各群までのマハラノビス距離を計算し、
最も近い群に分類する

問題 8

階層的クラスタリング

最もよく使われるクラスター間距離の定義法は?

Ward法
(クラスター内平方和の増加最小)

問題 9

k-means法

k-means法の目的関数は?

クラスター内平方和の最小化

問題 10

デンドログラム

デンドログラムの縦軸は何を表すか?

距離または非類似度

問題 11

因子分析のモデル

因子分析の基本式を書け。

X = Λf + ε
(Λ: 因子負荷, f: 共通因子, ε: 独自因子)

問題 12

因子回転

最も一般的な直交回転法は?

バリマックス回転

問題 13

PCAと因子分析

主成分分析と因子分析の主な違いは?

PCA: 分散の最大化、記述的
FA: 因果モデル、潜在変数を仮定

問題 14

正準相関

正準相関分析の目的は?

2組の変数群の線形結合の
相関を最大化する

問題 15

特殊ケース

Y群が1変数のとき、正準相関分析は何になるか?

重回帰分析
(第1正準相関=重相関係数)

📌 Step 15のまとめ

多変量データの基本概念とマハラノビス距離を理解した
主成分分析(PCA)で次元削減と可視化ができるようになった
判別分析でグループ分類の方法を習得した
クラスター分析(階層的・非階層的)でデータをグループ化できるようになった
因子分析で潜在因子を探る方法を学んだ
正準相関分析で変数群間の関係を理解した

多変量解析の基礎を完全にマスターしました!これで全15ステップが完了です!

📝

学習メモ

統計検定準1級対策 - Step 15

📋 過去のメモ一覧 ▼