Step 12: ベイズ統計学入門
事前分布と事後分布、ベイズの定理を理解し、ベイズ推定の基礎を習得します
📚 このステップで学ぶこと
このステップでは、ベイズ統計学の基本概念を学びます。頻度論統計学との違いを理解し、事前分布と事後分布の関係、ベイズの定理を用いた推定方法を習得します。
- 直感的な解釈:確率で直接語れる
- 事前情報の活用:専門知識を統合できる
- 小標本に強い:事前分布で補完
- 柔軟性:複雑なモデルに対応可能
1. ベイズ統計学の基本概念
1.1 頻度論とベイズ主義の違い
頻度論統計学(Frequentist)
・パラメータ $\theta$ は固定された未知の値
・確率は長期的な相対頻度
・データは確率変数
・信頼区間:データが変動
ベイズ統計学(Bayesian)
・パラメータ $\theta$ は確率変数
・確率は信念の度合い
・データは観測された固定値
・信用区間:パラメータが変動
例:コインの表が出る確率 $p$
頻度論:$p$ は0.5か0.6か…(固定値)
ベイズ:$p$ は確率分布に従う確率変数
1.2 ベイズの定理
条件付き確率の形:
$$P(A|B) = \frac{P(B|A) P(A)}{P(B)}$$
統計的推測の形:
$$P(\theta|\text{データ}) = \frac{P(\text{データ}|\theta) P(\theta)}{P(\text{データ})}$$
各項の名称:
・$P(\theta|\text{データ})$:事後分布(posterior)
・$P(\text{データ}|\theta)$:尤度(likelihood)
・$P(\theta)$:事前分布(prior)
・$P(\text{データ})$:周辺尤度(marginal likelihood)
比例形式(よく使う):
$$\text{事後分布} \propto \text{尤度} \times \text{事前分布}$$
例題1:ベイズの定理の基本
問題:ある病気の有病率は1%。検査の感度(病気のとき陽性)は95%、特異度(健康なとき陰性)は90%。検査が陽性だった人が実際に病気である確率は?
$A$:病気である、$B$:検査陽性とする
【与えられた情報】
$P(A) = 0.01$(事前確率)
$P(B|A) = 0.95$(感度)
$P(B|A^c) = 0.10$(1−特異度)
【ベイズの定理】
$$P(A|B) = \frac{P(B|A) P(A)}{P(B)}$$
【$P(B)$ を計算】
$$P(B) = P(B|A)P(A) + P(B|A^c)P(A^c)$$ $$= 0.95 \times 0.01 + 0.10 \times 0.99$$ $$= 0.0095 + 0.099 = 0.1085$$
【事後確率】
$$P(A|B) = \frac{0.95 \times 0.01}{0.1085} = \frac{0.0095}{0.1085} \approx 0.0876 = 8.76\%$$
陽性でも病気の確率は約9%程度!
有病率が低いため、偽陽性が多い
2. 事前分布と事後分布
2.1 事前分布の選択
データを観測する前のパラメータに関する信念
① 情報的事前分布(Informative Prior)
・過去の研究や専門知識に基づく
・明確な信念を反映
・例:$N(100, 10^2)$ など具体的な分布
② 無情報事前分布(Non-informative Prior)
・事前情報がない、または中立的立場
・データに語らせる
・例:一様分布、Jeffreysの事前分布
③ 共役事前分布(Conjugate Prior)
・事後分布が事前分布と同じ分布族
・計算が簡単
・例:ベルヌーイ → ベータ分布
2.2 共役事前分布の例
| 尤度 | パラメータ | 共役事前分布 | 事後分布 |
| ベルヌーイ | $p$ | ベータ分布 | ベータ分布 |
| 二項分布 | $p$ | ベータ分布 | ベータ分布 |
| ポアソン分布 | $\lambda$ | ガンマ分布 | ガンマ分布 |
| 正規分布 | $\mu$($\sigma^2$ 既知) | 正規分布 | 正規分布 |
| 正規分布 | $\sigma^2$($\mu$ 既知) | 逆ガンマ分布 | 逆ガンマ分布 |
例題2:ベータ-二項共役
問題:コインを投げて10回中7回表。事前分布を $\text{Beta}(2,2)$ とする。事後分布のパラメータを求めよ。
【尤度】
二項分布 $\text{Bin}(10, p)$
データ:$x = 7$ 回表
【事前分布】
$p \sim \text{Beta}(\alpha_0, \beta_0) = \text{Beta}(2, 2)$
【共役性により事後分布】
$$p|\text{データ} \sim \text{Beta}(\alpha_0 + x, \beta_0 + n – x)$$ $$= \text{Beta}(2 + 7, 2 + 10 – 7) = \text{Beta}(9, 5)$$
【事後平均】
$$E[p|\text{データ}] = \frac{9}{9+5} = \frac{9}{14} \approx 0.643$$
【解釈】
事前:均等に近い($\alpha = \beta = 2$)
データ:$7/10 = 0.7$
事後:$0.643$(両者の妥協点)
3. ベイズ推定
3.1 点推定
① 事後平均(Posterior Mean)
$$\hat{\theta} = E[\theta|\text{データ}]$$ ・二乗損失下で最適
・最も一般的
② 事後中央値(Posterior Median)
$$P(\theta ≦ \hat{\theta}|\text{データ}) = 0.5$$ ・絶対損失下で最適
・外れ値に頑健
③ 事後最頻値(MAP: Maximum A Posteriori)
$$\hat{\theta} = \arg\max P(\theta|\text{データ})$$ ・0-1損失下で最適
・最尤推定の一般化
3.2 区間推定
パラメータがその区間に含まれる確率が95%
95%信用区間:
$$P(L ≦ \theta ≦ U|\text{データ}) = 0.95$$
頻度論の信頼区間との違い:
信頼区間:データが変動、$\theta$ は固定
信用区間:$\theta$ が変動、データは固定
解釈の違い:
信頼区間:「100回中95回は真値を含む」
信用区間:「$\theta$ がこの区間にある確率95%」
信用区間の方が直感的!
例題3:正規分布のベイズ推定
問題:$X \sim N(\mu, 1)$、$n=4$ のデータの平均 $\bar{x}=10$。事前分布 $\mu \sim N(8, 4)$ のとき、事後分布のパラメータを求めよ。
【事前分布】
$\mu \sim N(\mu_0, \tau_0^2) = N(8, 4)$
精度:$1/\tau_0^2 = 1/4$
【尤度】
$\bar{X} \sim N(\mu, \sigma^2/n) = N(\mu, 1/4)$
精度:$n/\sigma^2 = 4/1 = 4$
【事後分布(正規-正規共役)】
$\mu|\text{データ} \sim N(\mu_1, \tau_1^2)$
【事後精度】
$$\frac{1}{\tau_1^2} = \frac{1}{\tau_0^2} + \frac{n}{\sigma^2} = \frac{1}{4} + 4 = 0.25 + 4 = 4.25$$ $$\tau_1^2 = \frac{1}{4.25} \approx 0.235$$
【事後平均】
$$\mu_1 = \frac{\mu_0/\tau_0^2 + n\bar{x}/\sigma^2}{1/\tau_0^2 + n/\sigma^2}$$ $$= \frac{8 \times 0.25 + 4 \times 10}{4.25} = \frac{2 + 40}{4.25} = \frac{42}{4.25} \approx 9.88$$
【結果】
$\mu|\text{データ} \sim N(9.88, 0.235)$
事前(8)とデータ(10)の加重平均
データの精度が高いので、データに近い
4. ベイズ更新
4.1 逐次ベイズ更新
前回の事後分布を今回の事前分布とする
プロセス:
1回目:事前分布 → データ₁ → 事後分布₁
2回目:事後分布₁ → データ₂ → 事後分布₂
3回目:事後分布₂ → データ₃ → 事後分布₃
⋮
性質:
・データの順序に依存しない
・全データを一度に使うのと同じ結果
・オンライン学習に適している
利点:
・新しいデータが来たら更新するだけ
・過去のデータを保存不要
・計算効率が良い
例題4:逐次更新
問題:事前分布 $\text{Beta}(1,1)$。1回目:表、2回目:裏、3回目:表。各段階での事後分布を求めよ。
【初期】
$p \sim \text{Beta}(1, 1) =$ 一様分布
【1回目の更新(表)】
$p|\text{データ}_1 \sim \text{Beta}(1+1, 1+0) = \text{Beta}(2, 1)$
$E[p] = 2/3 \approx 0.667$
【2回目の更新(裏)】
$p|\text{データ}_{1,2} \sim \text{Beta}(2+0, 1+1) = \text{Beta}(2, 2)$
$E[p] = 2/4 = 0.5$
【3回目の更新(表)】
$p|\text{データ}_{1,2,3} \sim \text{Beta}(2+1, 2+0) = \text{Beta}(3, 2)$
$E[p] = 3/5 = 0.6$
【確認(一度に更新)】
表2回、裏1回
$\text{Beta}(1+2, 1+1) = \text{Beta}(3, 2)$ ✓
どちらの方法でも同じ結果!
5. ベイズファクター
5.1 モデル選択
2つのモデルを比較する指標
定義:
$$BF_{10} = \frac{P(\text{データ}|M_1)}{P(\text{データ}|M_0)}$$
$M_1$:モデル1
$M_0$:モデル0(帰無仮説)
解釈:
$BF_{10} > 1$:データは $M_1$ を支持
$BF_{10} < 1$:データは $M_0$ を支持
$BF_{10} = 1$:両モデル同等
Jeffreysの基準:
$BF < 1$:証拠なし
$1 < BF < 3$:弱い証拠
$3 < BF < 10$:中程度の証拠
$10 < BF < 100$:強い証拠
$BF > 100$:決定的な証拠
5.2 事後オッズ
事前オッズ:
$$O_0 = \frac{P(M_1)}{P(M_0)}$$
事後オッズ:
$$O_1 = \frac{P(M_1|\text{データ})}{P(M_0|\text{データ})}$$
関係式:
$$O_1 = BF_{10} \times O_0$$
事後オッズ = ベイズファクター × 事前オッズ
解釈:
ベイズファクターはデータが提供する証拠
事前オッズと組み合わせて事後オッズを得る
例題5:ベイズファクター
問題:公正なコイン($p=0.5$)と偏ったコイン($p=0.7$)のどちらか。10回中7回表。事前オッズが1:1のとき、事後オッズを求めよ。
$M_0$:$p = 0.5$(公正)
$M_1$:$p = 0.7$(偏り)
【尤度】
$$P(\text{データ}|M_0) = \binom{10}{7} \times 0.5^{10} = 120 \times \frac{1}{1024} \approx 0.1172$$ $$P(\text{データ}|M_1) = \binom{10}{7} \times 0.7^7 \times 0.3^3 = 120 \times 0.0824 \times 0.027 \approx 0.2668$$
【ベイズファクター】
$$BF_{10} = \frac{0.2668}{0.1172} \approx 2.28$$
【事後オッズ】
$$O_1 = BF_{10} \times O_0 = 2.28 \times 1 = 2.28:1$$
【事後確率】
$$P(M_1|\text{データ}) = \frac{2.28}{1+2.28} \approx 0.695 = 69.5\%$$
偏ったコインである確率が約70%
弱〜中程度の証拠
6. 実践的なベイズ統計
6.1 ベイズ統計の利点と課題
① 直感的な解釈:確率で直接語れる
② 事前情報の活用:専門知識を統合
③ 小標本に強い:事前分布で補完
④ 逐次更新:データが増えるたび更新
⑤ 柔軟性:複雑なモデルに対応
ベイズ統計の課題
① 事前分布の選択:主観的要素
② 計算コスト:複雑なモデルで高負荷
③ 解釈の注意:事前分布の影響を考慮
④ 通信:頻度論に慣れた人への説明
使い分け:
大標本・無情報:頻度論とほぼ同じ
小標本・事前情報あり:ベイズが有利
6.2 MCMC法の概要
事後分布が解析的に求まらない場合の数値計算法
主な手法:
・Metropolis-Hastingsアルゴリズム
・Gibbsサンプリング
・Hamiltonianモンテカルロ
概念:
事後分布からランダムサンプルを生成
→ サンプルの統計量で事後分布を近似
注意点:
・収束診断が必要
・バーンイン期間の除外
・自己相関の確認
準1級では概念理解が中心
実装の詳細は不要
📝 練習問題(15問)
ベイズの定理
事後分布 $\propto$ (?) × (?) を埋めよ。
事後分布 $\propto$ 尤度 × 事前分布
確率の解釈
頻度論とベイズで、パラメータ $\theta$ の扱いの違いは?
頻度論:$\theta$ は固定された未知の値
ベイズ:$\theta$ は確率変数
共役事前分布
二項分布の尤度に対する共役事前分布は?
ベータ分布
ベータ分布の更新
事前 $\text{Beta}(a,b)$、成功 $x$ 回・失敗 $n-x$ 回のとき、事後分布は?
$\text{Beta}(a+x, b+n-x)$
事後平均
$\text{Beta}(\alpha, \beta)$ の平均は?
$$\frac{\alpha}{\alpha + \beta}$$
無情報事前分布
$0 ≦ p ≦ 1$ のパラメータの無情報事前分布として最も自然なものは?
一様分布 $U(0,1)$
または $\text{Beta}(1,1)$(同じもの)
信用区間の解釈
95%信用区間の正しい解釈は?
パラメータがその区間に含まれる確率が95%
(直接的な確率解釈が可能)
逐次更新
ベイズ更新において、前回の(?)が今回の事前分布となる。
事後分布
ベイズファクター
$BF_{10} = 5$ の意味を説明せよ。
データはモデル1をモデル0より5倍支持する。
中程度の証拠。
事後オッズ
事後オッズ = (?) × 事前オッズ を埋めよ。
ベイズファクター
MAP推定
MAP推定量とは何を最大化するか?
事後分布 $P(\theta|\text{データ})$
正規分布の共役
正規分布(分散既知)の尤度に対する共役事前分布は?
正規分布
周辺尤度
ベイズの定理で分母にある $P(\text{データ})$ の別名は?
周辺尤度(marginal likelihood)
または エビデンス(evidence)
ベイズの利点
ベイズ統計の主な利点を2つ挙げよ。
① 直感的な確率解釈が可能
② 事前情報を自然に統合できる
MCMC
MCMCが必要になるのはどんな場合?
事後分布が解析的に求まらない、
複雑なモデルの場合。
- ベイズ統計学の基本概念と頻度論統計学との違いを理解した
- ベイズの定理を用いた事後分布の計算ができるようになった
- 事前分布の種類(無情報、情報的、共役)を理解した
- ベータ-二項や正規-正規などの共役ペアを習得した
- ベイズ推定(点推定・区間推定)の方法を学んだ
- 逐次ベイズ更新とベイズファクターを理解した
学習メモ
統計検定準1級対策 - Step 12