Step 12:ベイズ統計学入門

Step 12: ベイズ統計学入門

事前分布と事後分布、ベイズの定理を理解し、ベイズ推定の基礎を習得します

📚 このステップで学ぶこと

このステップでは、ベイズ統計学の基本概念を学びます。頻度論統計学との違いを理解し、事前分布と事後分布の関係、ベイズの定理を用いた推定方法を習得します。

🎯 なぜベイズ統計学を学ぶのか?
  • 直感的な解釈:確率で直接語れる
  • 事前情報の活用:専門知識を統合できる
  • 小標本に強い:事前分布で補完
  • 柔軟性:複雑なモデルに対応可能

1. ベイズ統計学の基本概念

1.1 頻度論とベイズ主義の違い

📖 2つの統計学の立場

頻度論統計学(Frequentist)
・パラメータ $\theta$ は固定された未知の値
・確率は長期的な相対頻度
・データは確率変数
・信頼区間:データが変動

ベイズ統計学(Bayesian)
・パラメータ $\theta$ は確率変数
・確率は信念の度合い
・データは観測された固定値
・信用区間:パラメータが変動

例:コインの表が出る確率 $p$
頻度論:$p$ は0.5か0.6か…(固定値)
ベイズ:$p$ は確率分布に従う確率変数

1.2 ベイズの定理

⭐ ベイズの定理(Bayes’ Theorem)

条件付き確率の形:
$$P(A|B) = \frac{P(B|A) P(A)}{P(B)}$$
統計的推測の形:
$$P(\theta|\text{データ}) = \frac{P(\text{データ}|\theta) P(\theta)}{P(\text{データ})}$$
各項の名称:
・$P(\theta|\text{データ})$:事後分布(posterior)
・$P(\text{データ}|\theta)$:尤度(likelihood)
・$P(\theta)$:事前分布(prior)
・$P(\text{データ})$:周辺尤度(marginal likelihood)

比例形式(よく使う):
$$\text{事後分布} \propto \text{尤度} \times \text{事前分布}$$

例題1:ベイズの定理の基本

問題:ある病気の有病率は1%。検査の感度(病気のとき陽性)は95%、特異度(健康なとき陰性)は90%。検査が陽性だった人が実際に病気である確率は?

解答:

$A$:病気である、$B$:検査陽性とする

【与えられた情報】
$P(A) = 0.01$(事前確率)
$P(B|A) = 0.95$(感度)
$P(B|A^c) = 0.10$(1−特異度)

【ベイズの定理】
$$P(A|B) = \frac{P(B|A) P(A)}{P(B)}$$
【$P(B)$ を計算】
$$P(B) = P(B|A)P(A) + P(B|A^c)P(A^c)$$ $$= 0.95 \times 0.01 + 0.10 \times 0.99$$ $$= 0.0095 + 0.099 = 0.1085$$
【事後確率】
$$P(A|B) = \frac{0.95 \times 0.01}{0.1085} = \frac{0.0095}{0.1085} \approx 0.0876 = 8.76\%$$
陽性でも病気の確率は約9%程度!
有病率が低いため、偽陽性が多い

2. 事前分布と事後分布

2.1 事前分布の選択

📖 事前分布(Prior Distribution)

データを観測する前のパラメータに関する信念

① 情報的事前分布(Informative Prior)
・過去の研究や専門知識に基づく
・明確な信念を反映
・例:$N(100, 10^2)$ など具体的な分布

② 無情報事前分布(Non-informative Prior)
・事前情報がない、または中立的立場
・データに語らせる
・例:一様分布、Jeffreysの事前分布

③ 共役事前分布(Conjugate Prior)
・事後分布が事前分布と同じ分布族
・計算が簡単
・例:ベルヌーイ → ベータ分布

2.2 共役事前分布の例

⭐ 主な共役ペア

尤度 パラメータ 共役事前分布 事後分布
ベルヌーイ $p$ ベータ分布 ベータ分布
二項分布 $p$ ベータ分布 ベータ分布
ポアソン分布 $\lambda$ ガンマ分布 ガンマ分布
正規分布 $\mu$($\sigma^2$ 既知) 正規分布 正規分布
正規分布 $\sigma^2$($\mu$ 既知) 逆ガンマ分布 逆ガンマ分布
利点:解析的に事後分布が求まる

例題2:ベータ-二項共役

問題:コインを投げて10回中7回表。事前分布を $\text{Beta}(2,2)$ とする。事後分布のパラメータを求めよ。

解答:

【尤度】
二項分布 $\text{Bin}(10, p)$
データ:$x = 7$ 回表

【事前分布】
$p \sim \text{Beta}(\alpha_0, \beta_0) = \text{Beta}(2, 2)$

【共役性により事後分布】
$$p|\text{データ} \sim \text{Beta}(\alpha_0 + x, \beta_0 + n – x)$$ $$= \text{Beta}(2 + 7, 2 + 10 – 7) = \text{Beta}(9, 5)$$
【事後平均】
$$E[p|\text{データ}] = \frac{9}{9+5} = \frac{9}{14} \approx 0.643$$
【解釈】
事前:均等に近い($\alpha = \beta = 2$)
データ:$7/10 = 0.7$
事後:$0.643$(両者の妥協点)

3. ベイズ推定

3.1 点推定

📖 ベイズ推定量

① 事後平均(Posterior Mean)
$$\hat{\theta} = E[\theta|\text{データ}]$$ ・二乗損失下で最適
・最も一般的

② 事後中央値(Posterior Median)
$$P(\theta ≦ \hat{\theta}|\text{データ}) = 0.5$$ ・絶対損失下で最適
・外れ値に頑健

③ 事後最頻値(MAP: Maximum A Posteriori)
$$\hat{\theta} = \arg\max P(\theta|\text{データ})$$ ・0-1損失下で最適
・最尤推定の一般化

3.2 区間推定

⭐ 信用区間(Credible Interval)

パラメータがその区間に含まれる確率が95%

95%信用区間:
$$P(L ≦ \theta ≦ U|\text{データ}) = 0.95$$
頻度論の信頼区間との違い:
信頼区間:データが変動、$\theta$ は固定
信用区間:$\theta$ が変動、データは固定

解釈の違い:
信頼区間:「100回中95回は真値を含む」
信用区間:「$\theta$ がこの区間にある確率95%」

信用区間の方が直感的!

例題3:正規分布のベイズ推定

問題:$X \sim N(\mu, 1)$、$n=4$ のデータの平均 $\bar{x}=10$。事前分布 $\mu \sim N(8, 4)$ のとき、事後分布のパラメータを求めよ。

解答:

【事前分布】
$\mu \sim N(\mu_0, \tau_0^2) = N(8, 4)$
精度:$1/\tau_0^2 = 1/4$

【尤度】
$\bar{X} \sim N(\mu, \sigma^2/n) = N(\mu, 1/4)$
精度:$n/\sigma^2 = 4/1 = 4$

【事後分布(正規-正規共役)】
$\mu|\text{データ} \sim N(\mu_1, \tau_1^2)$

【事後精度】
$$\frac{1}{\tau_1^2} = \frac{1}{\tau_0^2} + \frac{n}{\sigma^2} = \frac{1}{4} + 4 = 0.25 + 4 = 4.25$$ $$\tau_1^2 = \frac{1}{4.25} \approx 0.235$$
【事後平均】
$$\mu_1 = \frac{\mu_0/\tau_0^2 + n\bar{x}/\sigma^2}{1/\tau_0^2 + n/\sigma^2}$$ $$= \frac{8 \times 0.25 + 4 \times 10}{4.25} = \frac{2 + 40}{4.25} = \frac{42}{4.25} \approx 9.88$$
【結果】
$\mu|\text{データ} \sim N(9.88, 0.235)$

事前(8)とデータ(10)の加重平均
データの精度が高いので、データに近い

4. ベイズ更新

4.1 逐次ベイズ更新

📐 逐次更新(Sequential Updating)

前回の事後分布を今回の事前分布とする

プロセス:
1回目:事前分布 → データ₁ → 事後分布₁
2回目:事後分布₁ → データ₂ → 事後分布₂
3回目:事後分布₂ → データ₃ → 事後分布₃


性質:
・データの順序に依存しない
・全データを一度に使うのと同じ結果
・オンライン学習に適している

利点:
・新しいデータが来たら更新するだけ
・過去のデータを保存不要
・計算効率が良い

例題4:逐次更新

問題:事前分布 $\text{Beta}(1,1)$。1回目:表、2回目:裏、3回目:表。各段階での事後分布を求めよ。

解答:

【初期】
$p \sim \text{Beta}(1, 1) =$ 一様分布

【1回目の更新(表)】
$p|\text{データ}_1 \sim \text{Beta}(1+1, 1+0) = \text{Beta}(2, 1)$
$E[p] = 2/3 \approx 0.667$

【2回目の更新(裏)】
$p|\text{データ}_{1,2} \sim \text{Beta}(2+0, 1+1) = \text{Beta}(2, 2)$
$E[p] = 2/4 = 0.5$

【3回目の更新(表)】
$p|\text{データ}_{1,2,3} \sim \text{Beta}(2+1, 2+0) = \text{Beta}(3, 2)$
$E[p] = 3/5 = 0.6$

【確認(一度に更新)】
表2回、裏1回
$\text{Beta}(1+2, 1+1) = \text{Beta}(3, 2)$ ✓

どちらの方法でも同じ結果!

5. ベイズファクター

5.1 モデル選択

⭐ ベイズファクター(Bayes Factor)

2つのモデルを比較する指標

定義:
$$BF_{10} = \frac{P(\text{データ}|M_1)}{P(\text{データ}|M_0)}$$
$M_1$:モデル1
$M_0$:モデル0(帰無仮説)

解釈:
$BF_{10} > 1$:データは $M_1$ を支持
$BF_{10} < 1$:データは $M_0$ を支持
$BF_{10} = 1$:両モデル同等

Jeffreysの基準:
$BF < 1$:証拠なし
$1 < BF < 3$:弱い証拠
$3 < BF < 10$:中程度の証拠
$10 < BF < 100$:強い証拠
$BF > 100$:決定的な証拠

5.2 事後オッズ

📖 事後オッズ

事前オッズ:
$$O_0 = \frac{P(M_1)}{P(M_0)}$$
事後オッズ:
$$O_1 = \frac{P(M_1|\text{データ})}{P(M_0|\text{データ})}$$
関係式:
$$O_1 = BF_{10} \times O_0$$
事後オッズ = ベイズファクター × 事前オッズ

解釈:
ベイズファクターはデータが提供する証拠
事前オッズと組み合わせて事後オッズを得る

例題5:ベイズファクター

問題:公正なコイン($p=0.5$)と偏ったコイン($p=0.7$)のどちらか。10回中7回表。事前オッズが1:1のとき、事後オッズを求めよ。

解答:

$M_0$:$p = 0.5$(公正)
$M_1$:$p = 0.7$(偏り)

【尤度】
$$P(\text{データ}|M_0) = \binom{10}{7} \times 0.5^{10} = 120 \times \frac{1}{1024} \approx 0.1172$$ $$P(\text{データ}|M_1) = \binom{10}{7} \times 0.7^7 \times 0.3^3 = 120 \times 0.0824 \times 0.027 \approx 0.2668$$
【ベイズファクター】
$$BF_{10} = \frac{0.2668}{0.1172} \approx 2.28$$
【事後オッズ】
$$O_1 = BF_{10} \times O_0 = 2.28 \times 1 = 2.28:1$$
【事後確率】
$$P(M_1|\text{データ}) = \frac{2.28}{1+2.28} \approx 0.695 = 69.5\%$$
偏ったコインである確率が約70%
弱〜中程度の証拠

6. 実践的なベイズ統計

6.1 ベイズ統計の利点と課題

📐 ベイズ統計の利点

直感的な解釈:確率で直接語れる
事前情報の活用:専門知識を統合
小標本に強い:事前分布で補完
逐次更新:データが増えるたび更新
柔軟性:複雑なモデルに対応

ベイズ統計の課題

事前分布の選択:主観的要素
計算コスト:複雑なモデルで高負荷
解釈の注意:事前分布の影響を考慮
通信:頻度論に慣れた人への説明

使い分け:
大標本・無情報:頻度論とほぼ同じ
小標本・事前情報あり:ベイズが有利

6.2 MCMC法の概要

⚠️ マルコフ連鎖モンテカルロ法(MCMC)

事後分布が解析的に求まらない場合の数値計算法

主な手法:
・Metropolis-Hastingsアルゴリズム
・Gibbsサンプリング
・Hamiltonianモンテカルロ

概念:
事後分布からランダムサンプルを生成
→ サンプルの統計量で事後分布を近似

注意点:
・収束診断が必要
・バーンイン期間の除外
・自己相関の確認

準1級では概念理解が中心
実装の詳細は不要

📝 練習問題(15問)

問題 1

ベイズの定理

事後分布 $\propto$ (?) × (?) を埋めよ。

解答:

事後分布 $\propto$ 尤度 × 事前分布
問題 2

確率の解釈

頻度論とベイズで、パラメータ $\theta$ の扱いの違いは?

解答:

頻度論:$\theta$ は固定された未知の値
ベイズ:$\theta$ は確率変数
問題 3

共役事前分布

二項分布の尤度に対する共役事前分布は?

解答:

ベータ分布
問題 4

ベータ分布の更新

事前 $\text{Beta}(a,b)$、成功 $x$ 回・失敗 $n-x$ 回のとき、事後分布は?

解答:

$\text{Beta}(a+x, b+n-x)$
問題 5

事後平均

$\text{Beta}(\alpha, \beta)$ の平均は?

解答:

$$\frac{\alpha}{\alpha + \beta}$$
問題 6

無情報事前分布

$0 ≦ p ≦ 1$ のパラメータの無情報事前分布として最も自然なものは?

解答:

一様分布 $U(0,1)$
または $\text{Beta}(1,1)$(同じもの)
問題 7

信用区間の解釈

95%信用区間の正しい解釈は?

解答:

パラメータがその区間に含まれる確率が95%
(直接的な確率解釈が可能)
問題 8

逐次更新

ベイズ更新において、前回の(?)が今回の事前分布となる。

解答:

事後分布
問題 9

ベイズファクター

$BF_{10} = 5$ の意味を説明せよ。

解答:

データはモデル1をモデル0より5倍支持する。
中程度の証拠。
問題 10

事後オッズ

事後オッズ = (?) × 事前オッズ を埋めよ。

解答:

ベイズファクター
問題 11

MAP推定

MAP推定量とは何を最大化するか?

解答:

事後分布 $P(\theta|\text{データ})$
問題 12

正規分布の共役

正規分布(分散既知)の尤度に対する共役事前分布は?

解答:

正規分布
問題 13

周辺尤度

ベイズの定理で分母にある $P(\text{データ})$ の別名は?

解答:

周辺尤度(marginal likelihood)
または エビデンス(evidence)
問題 14

ベイズの利点

ベイズ統計の主な利点を2つ挙げよ。

解答:

① 直感的な確率解釈が可能
② 事前情報を自然に統合できる
問題 15

MCMC

MCMCが必要になるのはどんな場合?

解答:

事後分布が解析的に求まらない、
複雑なモデルの場合。
📌 Step 12のまとめ
  • ベイズ統計学の基本概念と頻度論統計学との違いを理解した
  • ベイズの定理を用いた事後分布の計算ができるようになった
  • 事前分布の種類(無情報、情報的、共役)を理解した
  • ベータ-二項や正規-正規などの共役ペアを習得した
  • ベイズ推定(点推定・区間推定)の方法を学んだ
  • 逐次ベイズ更新とベイズファクターを理解した
次のStep 13では、多変量解析を学びます!
📝

学習メモ

統計検定準1級対策 - Step 12

📋 過去のメモ一覧
#artnasekai #学習メモ
LINE