Step 13:一般化線形モデル入門

Step 13: 一般化線形モデル入門

線形モデルを拡張し、さまざまなタイプのデータに対応できるGLMを習得します

📚 このステップで学ぶこと

このステップでは、一般化線形モデル(GLM)の基礎を学びます。線形回帰の制約を超え、二値データ、カウントデータなど、さまざまなタイプの応答変数に対応できる強力な統計モデルを理解します。

🎯 なぜGLMを学ぶのか?
  • 柔軟性:様々なタイプのデータに対応
  • 統一的枠組み:ロジスティック回帰、ポアソン回帰を包括
  • 実用性:医学、社会科学、マーケティング等で必須
  • 解釈性:オッズ比、リスク比など直感的な解釈が可能

1. 一般化線形モデルの概要

1.1 線形モデルの限界

⚠️ 通常の線形回帰モデルの仮定

$$Y = \beta_0 + \beta_1 X_1 + \cdots + \beta_p X_p + \varepsilon$$ $$\varepsilon \sim N(0, \sigma^2)$$
問題点:
応答変数は連続値:$Y$ は $-\infty$ から $+\infty$
正規分布の仮定:誤差が正規分布
等分散性:分散が一定

実際のデータではこれらが成り立たない:
・二値データ(成功/失敗):0 or 1
・カウントデータ(回数):0, 1, 2, …
・正の連続値(時間):$Y > 0$
・比率データ:$0 ≦ Y ≦ 1$

一般化線形モデル(GLM)で解決!

1.2 GLMの構造

📖 一般化線形モデル(GLM)

3つの要素:

① 確率分布(Random Component)
応答変数 $Y$ の分布
・指数型分布族に属する
・正規分布、二項分布、ポアソン分布など

② 線形予測子(Systematic Component)
$$\eta = \beta_0 + \beta_1 X_1 + \cdots + \beta_p X_p$$ ・説明変数の線形結合

③ リンク関数(Link Function)
$$g(\mu) = \eta$$ ・期待値 $\mu$ と線形予測子 $\eta$ を結ぶ
・$\mu = E[Y]$

関係式:
$$g(E[Y]) = \beta_0 + \beta_1 X_1 + \cdots + \beta_p X_p$$

1.3 指数型分布族

⭐ 指数型分布族

次の形で表せる確率分布
$$f(y; \theta, \phi) = \exp\left\{ \frac{y\theta – b(\theta)}{a(\phi)} + c(y, \phi) \right\}$$
$\theta$:自然パラメータ
$\phi$:分散パラメータ

主な性質:
$$E[Y] = b'(\theta)$$ $$\text{Var}(Y) = b”(\theta) \cdot a(\phi)$$
代表的な分布:
・正規分布
・二項分布
・ポアソン分布
・ガンマ分布
・逆ガウス分布

2. ロジスティック回帰

2.1 ロジットリンク

📖 ロジスティック回帰モデル

二値応答変数(0/1)のためのGLM

確率分布:二項分布 $\text{Bin}(1, p)$

リンク関数:ロジット関数
$$\text{logit}(p) = \log\left(\frac{p}{1-p}\right) = \eta$$
逆リンク:
$$p = \frac{\exp(\eta)}{1 + \exp(\eta)} = \frac{1}{1 + \exp(-\eta)}$$
モデル式:
$$\log\left(\frac{p}{1-p}\right) = \beta_0 + \beta_1 X_1 + \cdots + \beta_p X_p$$
オッズ比:
$\frac{p}{1-p}$:オッズ(odds)
$\exp(\beta_j)$:$X_j$ が1単位増えたときのオッズ比

例題1:ロジスティック回帰の解釈

問題:合格確率のロジスティック回帰:$\text{logit}(p) = -3 + 0.05 \times \text{勉強時間}$。
勉強時間が10時間増えると、オッズは何倍になるか?

解答:

【勉強時間の係数】
$\beta_1 = 0.05$

【オッズ比(1時間あたり)】
$$\exp(\beta_1) = \exp(0.05) \approx 1.051$$
【10時間増加の場合】
$$\exp(10 \times \beta_1) = \exp(0.5) \approx 1.649$$
【解釈】
勉強時間が10時間増えると、
合格のオッズは約1.65倍になる。

【具体例】
勉強時間=20時間:
$\text{logit}(p) = -3 + 0.05 \times 20 = -2$
$p = 1/(1+\exp(2)) \approx 0.119$

勉強時間=30時間:
$\text{logit}(p) = -3 + 0.05 \times 30 = -1.5$
$p = 1/(1+\exp(1.5)) \approx 0.182$

オッズ比:$(0.182/0.818)/(0.119/0.881) = 0.222/0.135 \approx 1.65$ ✓

2.2 最尤推定

⭐ GLMのパラメータ推定

対数尤度:
$$\ell(\boldsymbol{\beta}) = \sum_{i=1}^{n} \left[ y_i \log(p_i) + (1-y_i) \log(1-p_i) \right]$$
$$p_i = \frac{1}{1 + \exp(-\eta_i)}$$ $$\eta_i = \beta_0 + \beta_1 x_{i1} + \cdots + \beta_p x_{ip}$$
推定法:
・Newton-Raphson法
・Fisher scoring法
・反復再重み付け最小二乗法(IRLS)

注意:
線形回帰と異なり、解析解は存在しない
数値的に反復計算で求める

例題2:オッズ比の計算

問題:病気の有無($Y$)と喫煙($X$:0=非喫煙, 1=喫煙)のロジスティック回帰で、$\beta_1=0.8$。喫煙者の病気オッズは非喫煙者の何倍か?

解答:

【モデル】
$$\log\left(\frac{p}{1-p}\right) = \beta_0 + 0.8 \times X$$
【非喫煙者($X=0$)】
$\log(\text{オッズ}_0) = \beta_0$
$\text{オッズ}_0 = \exp(\beta_0)$

【喫煙者($X=1$)】
$\log(\text{オッズ}_1) = \beta_0 + 0.8$
$\text{オッズ}_1 = \exp(\beta_0 + 0.8)$

【オッズ比】
$$OR = \frac{\text{オッズ}_1}{\text{オッズ}_0} = \frac{\exp(\beta_0 + 0.8)}{\exp(\beta_0)} = \exp(0.8) \approx 2.23$$
【解釈】
喫煙者の病気オッズは
非喫煙者の約2.23倍

3. ポアソン回帰

3.1 カウントデータのモデル

📖 ポアソン回帰モデル

カウントデータ(0, 1, 2, …)のためのGLM

確率分布:ポアソン分布 $\text{Pois}(\lambda)$
$$P(Y = y) = \frac{e^{-\lambda} \lambda^y}{y!}$$
リンク関数:対数リンク
$$\log(\lambda) = \eta$$
逆リンク:
$$\lambda = \exp(\eta)$$
モデル式:
$$\log(E[Y]) = \beta_0 + \beta_1 X_1 + \cdots + \beta_p X_p$$
解釈:
$\exp(\beta_j)$:$X_j$ が1単位増えたときの期待カウント数の倍率

3.2 オフセット項

⭐ オフセット(Offset)

異なる観測期間や面積などを調整

モデル:
$$\log(E[Y]) = \log(T) + \beta_0 + \beta_1 X_1 + \cdots$$
$\log(T)$:オフセット項
$T$:観測期間、面積など

レート(率)のモデル:
$$\log(E[Y]/T) = \beta_0 + \beta_1 X_1 + \cdots$$ $$\log(E[Y]) = \log(T) + \beta_0 + \beta_1 X_1 + \cdots$$
例:
・事故件数 / 走行距離
・感染者数 / 人口
・故障回数 / 稼働時間

例題3:ポアソン回帰の解釈

問題:事故件数のポアソン回帰:$\log(\lambda) = 2 + 0.3 \times \text{速度制限違反回数}$。
違反回数が1回増えると、期待事故件数は何倍になるか?

解答:

【係数】
$\beta_1 = 0.3$

【倍率】
$$\exp(\beta_1) = \exp(0.3) \approx 1.35$$
【解釈】
速度制限違反回数が1回増えると、
期待事故件数は約1.35倍(35%増加)になる。

【具体例】
違反0回:$\lambda = \exp(2 + 0.3 \times 0) = \exp(2) \approx 7.39$
違反1回:$\lambda = \exp(2 + 0.3 \times 1) = \exp(2.3) \approx 9.97$
違反2回:$\lambda = \exp(2 + 0.3 \times 2) = \exp(2.6) \approx 13.46$

確認:$9.97/7.39 \approx 1.35$ ✓
   $13.46/9.97 \approx 1.35$ ✓

4. リンク関数の種類

4.1 主なリンク関数

📐 リンク関数の選択

分布 正準リンク 逆リンク 応答変数の範囲
正規分布 恒等($\eta = \mu$) $\mu = \eta$ $-\infty < Y < +\infty$
二項分布 ロジット $\mu = \frac{1}{1+e^{-\eta}}$ $0 ≦ Y ≦ 1$
ポアソン分布 対数 $\mu = e^{\eta}$ $Y ≧ 0$
ガンマ分布 逆数 $\mu = 1/\eta$ $Y > 0$
正準リンク(Canonical Link)
・理論的に望ましい性質
・計算が安定
・解釈が自然

他のリンク関数も使用可能:
二項:プロビット、相補対数対数
ポアソン:恒等、平方根

4.2 リンク関数の比較

📖 二項分布の代表的リンク関数

① ロジットリンク
$$g(p) = \log\left(\frac{p}{1-p}\right)$$ ・最も一般的
・オッズ比の解釈が容易

② プロビットリンク
$$g(p) = \Phi^{-1}(p)$$ ・標準正規分布の分位点関数
・潜在変数モデルと対応

③ 相補対数対数リンク
$$g(p) = \log(-\log(1-p))$$ ・非対称な関係
・極値分布と対応

選択基準:
・理論的背景
・データへの適合度
・解釈のしやすさ

5. モデルの評価と診断

5.1 逸脱度

⭐ 逸脱度(Deviance)

GLMの適合度の指標

定義:
$$D = 2 \left[ \ell(\text{飽和モデル}) – \ell(\text{当該モデル}) \right]$$
飽和モデル:パラメータ数 = データ数
当該モデル:推定したいモデル

性質:
・逸脱度が小さいほど良い適合
・近似的に $\chi^2$ 分布に従う
・自由度 = $n – p – 1$

残差逸脱度:
Residual Deviance
モデルの適合度を評価

5.2 AICによるモデル選択

📖 赤池情報量規準(AIC)

$$AIC = -2\ell(\hat{\boldsymbol{\beta}}) + 2p$$
$\ell(\hat{\boldsymbol{\beta}})$:最大対数尤度
$p$:パラメータ数

選択規準:
AICが最小のモデルを選択

解釈:
・第1項:適合度(小さいほど良い)
・第2項:ペナルティ(複雑さ)
・バランスを取る

比較:
$\Delta AIC = AIC_i – AIC_{\min}$
$\Delta AIC < 2$:実質的に同等
$2 < \Delta AIC < 7$:弱い証拠
$\Delta AIC > 10$:明確に劣る

例題4:モデルの比較

問題:モデル1:AIC=100.5、モデル2:AIC=98.2、モデル3:AIC=105.8。
どのモデルを選ぶべきか?

解答:

【最小AIC】
モデル2(98.2)

【AIC差】
$\Delta_1 = 100.5 – 98.2 = 2.3$
$\Delta_3 = 105.8 – 98.2 = 7.6$

【評価】
モデル1:$\Delta AIC = 2.3$ → 弱い証拠でモデル2に劣る
モデル3:$\Delta AIC = 7.6$ → モデル2に明確に劣る

【結論】
モデル2を選択

ただし、モデル1も実用上は考慮可能
($\Delta AIC < 7$)

6. 過分散とその対処

6.1 過分散の問題

⚠️ 過分散(Overdispersion)

観測された分散が理論的分散より大きい

ポアソン分布の仮定:
$$E[Y] = \text{Var}(Y) = \lambda$$
過分散が起きると:
$$\text{Var}(Y) > E[Y]$$
原因:
・外れ値の存在
・重要な説明変数の欠落
・個体間の異質性
・測定誤差

問題:
・標準誤差の過小評価
・検定が過度に有意
・信頼区間が狭すぎる

6.2 対処法

📐 過分散への対処

① 準ポアソンモデル
分散を $\phi\lambda$ に拡張
$\phi$:過分散パラメータ

② 負の二項分布
$$\text{Var}(Y) = \mu + \frac{\mu^2}{k}$$ より柔軟な分散構造

③ ゼロ過剰モデル
ゼロが多すぎる場合
Zero-Inflated Poisson(ZIP)

④ 混合効果モデル
ランダム効果を導入
個体差を考慮

診断:
$$\hat{\phi} = \frac{\text{残差逸脱度}}{\text{自由度}}$$ $\hat{\phi} > 1$ → 過分散の疑い

例題5:過分散の判定

問題:ポアソン回帰で、残差逸脱度=150、自由度=50。過分散はあるか?

解答:

【過分散パラメータ】
$$\hat{\phi} = \frac{\text{残差逸脱度}}{\text{自由度}} = \frac{150}{50} = 3.0$$
【判定】
$\hat{\phi} = 3.0 >> 1$
明らかな過分散あり

【対処】
① 準ポアソンモデルを使用
  標準誤差を $\sqrt{3}$ 倍に修正

② 負の二項分布モデルを検討

③ モデルの再検討
  ・欠落変数の探索
  ・交互作用項の追加
  ・外れ値の確認

📝 練習問題(15問)

問題 1

GLMの3要素

GLMを構成する3つの要素を挙げよ。

解答:

① 確率分布(Random Component)
② 線形予測子(Systematic Component)
③ リンク関数(Link Function)
問題 2

ロジットリンク

ロジットリンク関数を式で表せ。

解答:

$$\text{logit}(p) = \log\left(\frac{p}{1-p}\right)$$
問題 3

オッズ

確率 $p=0.8$ のとき、オッズはいくつか?

解答:

$$\text{オッズ} = \frac{p}{1-p} = \frac{0.8}{0.2} = 4$$
問題 4

オッズ比の計算

ロジスティック回帰で $\beta=0.5$。オッズ比はいくつか?

解答:

$$\text{オッズ比} = \exp(\beta) = \exp(0.5) \approx 1.649$$
問題 5

ポアソン回帰のリンク

ポアソン回帰の正準リンク関数は?

解答:

対数リンク:$\log(\lambda) = \eta$
問題 6

カウント数の倍率

ポアソン回帰で $\beta=0.2$。$X$ が1増えると期待カウント数は何倍?

解答:

$$\exp(\beta) = \exp(0.2) \approx 1.221 \text{倍}$$
問題 7

オフセット項

オフセット項が必要なのはどんな場合?

解答:

観測期間や面積などが異なり、
率(レート)を比較したい場合。
問題 8

正準リンク

二項分布の正準リンク関数は?

解答:

ロジットリンク
問題 9

逸脱度

逸脱度が小さいほど、モデルの適合度は良いか悪いか?

解答:

良い
問題 10

AICの解釈

AICが小さいモデルと大きいモデル、どちらを選ぶ?

解答:

小さいモデルを選ぶ
問題 11

過分散の定義

過分散とはどういう状態?

解答:

観測された分散が
理論的分散より大きい状態
問題 12

過分散パラメータ

$\hat{\phi} = \text{残差逸脱度}/\text{自由度} = 2.5$。過分散はあるか?

解答:

$\hat{\phi} = 2.5 > 1$ なので、
過分散あり
問題 13

指数型分布族

GLMで使える確率分布の条件は?

解答:

指数型分布族に属すること
問題 14

ポアソン分布の性質

ポアソン分布で、平均と分散の関係は?

解答:

$$E[Y] = \text{Var}(Y) = \lambda$$ (平均と分散が等しい)
問題 15

逆リンク

ロジスティック回帰で $\eta = -1$ のとき、$p$ はいくつ?

解答:

$$p = \frac{1}{1 + \exp(-\eta)} = \frac{1}{1 + \exp(1)} = \frac{1}{1 + 2.718} \approx 0.269$$
📌 Step 13のまとめ
  • 一般化線形モデル(GLM)の構造と3要素を理解した
  • ロジスティック回帰でオッズ比を計算・解釈できるようになった
  • ポアソン回帰でカウントデータを分析できるようになった
  • リンク関数の種類と選択基準を習得した
  • 逸脱度とAICによるモデル評価ができるようになった
  • 過分散の診断と対処法を理解した
次のStep 14では、時系列分析の基礎を学びます!
📝

学習メモ

統計検定準1級対策 - Step 13

📋 過去のメモ一覧
#artnasekai #学習メモ
LINE