Step 8:回帰分析の発展

Step 8: 回帰分析の発展

重回帰分析の理論、変数選択法、多重共線性の診断と対処を体系的に学びます

📚 このステップで学ぶこと

このステップでは、単回帰分析を多変量に拡張した重回帰分析を学びます。行列表現を用いた理論的な導出、変数選択の方法(AIC・BIC)、多重共線性の診断と対処法を習得し、実務で使える高度な回帰分析の技術を身につけます。

🎯 なぜこれらを学ぶのか?
  • 重回帰分析:複数の説明変数で目的変数を予測・説明する最も基本的な多変量解析
  • 行列表現:理論的な導出と一般化のために不可欠
  • 変数選択:最適なモデルを選ぶための客観的基準
  • 多重共線性:実務で頻出する問題への対処法

1. 重回帰分析の理論

1.1 重回帰モデルの定義

単回帰を複数の説明変数に拡張したモデルです。

📖 重回帰モデル

$$y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_p x_p + \varepsilon$$
ここで、
・$y$:目的変数(被説明変数)
・$x_1, x_2, \ldots, x_p$:説明変数($p$ 個)
・$\beta_0, \beta_1, \ldots, \beta_p$:回帰係数(母数)
・$\varepsilon$:誤差項 $\sim N(0, \sigma^2)$

仮定:
① 線形性:$E(y|x) = \beta_0 + \sum \beta_j x_j$
② 独立性:誤差が独立
③ 等分散性:$V(\varepsilon) = \sigma^2$(一定)
④ 正規性:$\varepsilon \sim N(0, \sigma^2)$

1.2 行列表現

重回帰モデルを行列形式で表現すると、理論的な導出が容易になります。

⭐ 行列形式の重回帰モデル

$$\mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon}$$
ここで、

$\mathbf{y} = \begin{pmatrix} y_1 \\ y_2 \\ \vdots \\ y_n \end{pmatrix}$($n \times 1$ ベクトル)

$\mathbf{X} = \begin{pmatrix} 1 & x_{11} & x_{12} & \cdots & x_{1p} \\ 1 & x_{21} & x_{22} & \cdots & x_{2p} \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ 1 & x_{n1} & x_{n2} & \cdots & x_{np} \end{pmatrix}$($n \times (p+1)$ 行列:計画行列)

$\boldsymbol{\beta} = \begin{pmatrix} \beta_0 \\ \beta_1 \\ \vdots \\ \beta_p \end{pmatrix}$($(p+1) \times 1$ ベクトル)

$\boldsymbol{\varepsilon} = \begin{pmatrix} \varepsilon_1 \\ \varepsilon_2 \\ \vdots \\ \varepsilon_n \end{pmatrix}$($n \times 1$ ベクトル)

仮定:$\boldsymbol{\varepsilon} \sim N(\mathbf{0}, \sigma^2 \mathbf{I})$

例題1:重回帰モデルの理解

問題:住宅価格 $y$ を、面積 $x_1$ と築年数 $x_2$ で説明するモデル $y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \varepsilon$ を考える。$n=3$ のデータで行列 $\mathbf{X}$ を書け。
データ:$(y, x_1, x_2) = (200, 50, 10), (180, 45, 15), (220, 60, 5)$

解答:

$$\mathbf{y} = \begin{pmatrix} 200 \\ 180 \\ 220 \end{pmatrix}$$
$$\mathbf{X} = \begin{pmatrix} 1 & 50 & 10 \\ 1 & 45 & 15 \\ 1 & 60 & 5 \end{pmatrix}$$
$$\boldsymbol{\beta} = \begin{pmatrix} \beta_0 \\ \beta_1 \\ \beta_2 \end{pmatrix}$$
モデル:$\mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon}$

2. 最小二乗推定量の導出

2.1 最小二乗法の原理

残差平方和を最小化することで、回帰係数を推定します。

📖 残差平方和の最小化

$$S(\boldsymbol{\beta}) = \sum_{i=1}^{n}(y_i – \hat{y}_i)^2 = (\mathbf{y} – \mathbf{X}\boldsymbol{\beta})^\top(\mathbf{y} – \mathbf{X}\boldsymbol{\beta})$$
これを最小にする $\boldsymbol{\beta}$ を求める。

正規方程式:
$$\frac{\partial S}{\partial \boldsymbol{\beta}} = -2\mathbf{X}^\top(\mathbf{y} – \mathbf{X}\boldsymbol{\beta}) = \mathbf{0}$$ $$\mathbf{X}^\top\mathbf{X}\boldsymbol{\beta} = \mathbf{X}^\top\mathbf{y}$$
最小二乗推定量:
$$\hat{\boldsymbol{\beta}} = (\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{X}^\top\mathbf{y}$$
($\mathbf{X}^\top\mathbf{X}$ が正則であることが必要)

例題2:最小二乗推定量の導出

問題:$y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \varepsilon$ のモデルで、正規方程式 $\mathbf{X}^\top\mathbf{X}\hat{\boldsymbol{\beta}} = \mathbf{X}^\top\mathbf{y}$ を具体的に書け。

解答:

【$\mathbf{X}^\top\mathbf{X}$ の計算】
$$\mathbf{X}^\top\mathbf{X} = \begin{pmatrix} n & \sum x_{1i} & \sum x_{2i} \\ \sum x_{1i} & \sum x_{1i}^2 & \sum x_{1i}x_{2i} \\ \sum x_{2i} & \sum x_{1i}x_{2i} & \sum x_{2i}^2 \end{pmatrix}$$
【$\mathbf{X}^\top\mathbf{y}$ の計算】
$$\mathbf{X}^\top\mathbf{y} = \begin{pmatrix} \sum y_i \\ \sum x_{1i}y_i \\ \sum x_{2i}y_i \end{pmatrix}$$
【正規方程式】
$$\begin{pmatrix} n & \sum x_{1i} & \sum x_{2i} \\ \sum x_{1i} & \sum x_{1i}^2 & \sum x_{1i}x_{2i} \\ \sum x_{2i} & \sum x_{1i}x_{2i} & \sum x_{2i}^2 \end{pmatrix} \begin{pmatrix} \hat{\beta}_0 \\ \hat{\beta}_1 \\ \hat{\beta}_2 \end{pmatrix} = \begin{pmatrix} \sum y_i \\ \sum x_{1i}y_i \\ \sum x_{2i}y_i \end{pmatrix}$$

2.2 最小二乗推定量の性質

📐 ガウス・マルコフの定理

仮定:
① $E(\boldsymbol{\varepsilon}) = \mathbf{0}$
② $V(\boldsymbol{\varepsilon}) = \sigma^2\mathbf{I}$(等分散、無相関)
③ $\mathbf{X}$ は確定的(非確率的)

このとき、$\hat{\boldsymbol{\beta}} = (\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{X}^\top\mathbf{y}$ は:

不偏性:$E(\hat{\boldsymbol{\beta}}) = \boldsymbol{\beta}$
BLUE:Best Linear Unbiased Estimator
 (線形不偏推定量の中で分散が最小)

分散共分散行列:
$$V(\hat{\boldsymbol{\beta}}) = \sigma^2(\mathbf{X}^\top\mathbf{X})^{-1}$$

例題3:不偏性の証明

問題:$\hat{\boldsymbol{\beta}} = (\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{X}^\top\mathbf{y}$ が $\boldsymbol{\beta}$ の不偏推定量であることを示せ。

証明:

$\mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon}$ より、

$$\hat{\boldsymbol{\beta}} = (\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{X}^\top\mathbf{y}$$ $$= (\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{X}^\top(\mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon})$$ $$= (\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{X}^\top\mathbf{X}\boldsymbol{\beta} + (\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{X}^\top\boldsymbol{\varepsilon}$$ $$= \boldsymbol{\beta} + (\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{X}^\top\boldsymbol{\varepsilon}$$
【期待値】
$$E(\hat{\boldsymbol{\beta}}) = E[\boldsymbol{\beta} + (\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{X}^\top\boldsymbol{\varepsilon}]$$ $$= \boldsymbol{\beta} + (\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{X}^\top E(\boldsymbol{\varepsilon})$$ $$= \boldsymbol{\beta} + (\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{X}^\top \cdot \mathbf{0} = \boldsymbol{\beta}$$
よって、$\hat{\boldsymbol{\beta}}$ は $\boldsymbol{\beta}$ の不偏推定量。■

3. 偏回帰係数の解釈と検定

3.1 偏回帰係数の意味

⭐ 偏回帰係数 $\beta_j$ の解釈

他の説明変数を固定したとき、$x_j$ が1単位増加すると、
 $y$ が平均的に $\beta_j$ だけ変化する」

例:$y = 100 + 5x_1 + 3x_2$
・$\beta_1 = 5$:$x_2$ を固定して $x_1$ が1増えると、$y$ は5増える
・$\beta_2 = 3$:$x_1$ を固定して $x_2$ が1増えると、$y$ は3増える

単回帰と違い、「他を固定」が重要!

3.2 個別の回帰係数の検定(t検定)

📖 $H_0: \beta_j = 0$ vs $H_1: \beta_j \neq 0$

検定統計量:
$$t = \frac{\hat{\beta}_j}{se(\hat{\beta}_j)} \sim t(n-p-1)$$
ここで、
$se(\hat{\beta}_j) = \sqrt{\hat{\sigma}^2 \cdot [(\mathbf{X}^\top\mathbf{X})^{-1}]_{jj}}$
$\hat{\sigma}^2 = RSS/(n-p-1)$(残差分散の推定値)
$RSS = \sum(y_i – \hat{y}_i)^2$(残差平方和)

判定:
$|t| > t_{n-p-1}(\alpha/2)$ なら $H_0$ を棄却

例題4:t検定の実施

問題:$n=30$, $p=2$ のモデルで、$\hat{\beta}_1 = 0.5$, $se(\hat{\beta}_1) = 0.2$ のとき、$H_0: \beta_1 = 0$ を $\alpha=0.05$ で検定せよ。($t_{27}(0.025) = 2.052$)

解答:

【検定統計量】
$$t = \frac{\hat{\beta}_1}{se(\hat{\beta}_1)} = \frac{0.5}{0.2} = 2.5$$
【自由度】
$df = n – p – 1 = 30 – 2 – 1 = 27$

【棄却域】
$|t| > t_{27}(0.025) = 2.052$

【判定】
$|2.5| = 2.5 > 2.052$
よって、$H_0$ を棄却。

結論:$\beta_1 \neq 0$($x_1$ は有意)

3.3 モデル全体の検定(F検定)

⭐ $H_0: \beta_1 = \beta_2 = \cdots = \beta_p = 0$ vs $H_1:$ 少なくとも1つは0でない

検定統計量:
$$F = \frac{ESS/p}{RSS/(n-p-1)} \sim F(p, n-p-1)$$
ここで、
$ESS = \sum(\hat{y}_i – \bar{y})^2$(回帰平方和)
$RSS = \sum(y_i – \hat{y}_i)^2$(残差平方和)
$TSS = \sum(y_i – \bar{y})^2$(総平方和)
$TSS = ESS + RSS$

決定係数との関係:
$R^2 = ESS/TSS = 1 – RSS/TSS$
$$F = \frac{R^2/p}{(1-R^2)/(n-p-1)}$$

例題5:分散分析表とF検定

問題:以下の分散分析表でF値を求め、検定せよ。($F_{2,17}(0.05) = 3.59$)

要因 平方和 自由度 平均平方 F値
回帰 800 2 ? ?
残差 200 17 ?
総和 1000 19
解答:

【平均平方の計算】
$MSR$(回帰)$= 800/2 = 400$
$MSE$(残差)$= 200/17 \approx 11.76$

【F値】
$$F = \frac{MSR}{MSE} = \frac{400}{11.76} \approx 34.01$$
【判定】
$F = 34.01 > F_{2,17}(0.05) = 3.59$
$p$ 値 $< 0.05$

結論:モデルは有意(少なくとも1つの係数は0でない)

4. 決定係数と自由度調整済み決定係数

4.1 決定係数 $R^2$

📖 決定係数(Coefficient of Determination)

$$R^2 = \frac{ESS}{TSS} = 1 – \frac{RSS}{TSS}$$
性質:
・$0 ≦ R^2 ≦ 1$
・「$y$ の変動のうち、説明変数で説明できる割合」
・説明変数を増やすと必ず増加(または不変)

問題点:
無意味な変数を追加しても $R^2$ は上がる!

4.2 自由度調整済み決定係数

📐 Adjusted $R^2$($\bar{R}^2$)

$$\bar{R}^2 = 1 – \frac{RSS/(n-p-1)}{TSS/(n-1)} = 1 – (1-R^2) \cdot \frac{n-1}{n-p-1}$$
性質:
・変数を増やしても必ずしも増加しない
・無意味な変数を追加すると減少する可能性
・$\bar{R}^2 ≦ R^2$(常に)
・モデル選択に有用

基準:$\bar{R}^2$ が大きいモデルを選ぶ

例題6:$R^2$ と $\bar{R}^2$ の計算

問題:$n=30$, $p=2$ で $ESS=80$, $TSS=100$ のとき、$R^2$ と $\bar{R}^2$ を求めよ。

解答:

【決定係数】
$$R^2 = \frac{ESS}{TSS} = \frac{80}{100} = 0.80$$
【自由度調整済み決定係数】
$$\bar{R}^2 = 1 – (1-R^2) \cdot \frac{n-1}{n-p-1}$$ $$= 1 – (1-0.80) \cdot \frac{29}{27}$$ $$= 1 – 0.20 \times 1.0741$$ $$= 1 – 0.2148 \approx 0.785$$
$\bar{R}^2 < R^2$ であることを確認

5. 変数選択法

5.1 変数選択の必要性

⭐ なぜ変数選択が必要か?

解釈の容易さ:少ない変数で説明
予測精度:過剰適合の回避
多重共線性:相関の高い変数を除外
コスト:データ収集コストの削減

目標:「必要最小限の変数で、最大の説明力」

5.2 AIC(赤池情報量規準)

📖 AIC(Akaike Information Criterion)

$$AIC = -2 \log L + 2k$$
重回帰の場合:
$$AIC = n \log(RSS/n) + 2(p+2)$$
ここで、
・$L$:最大尤度
・$k$:パラメータ数($p+2$:$\beta_0, \beta_1, \ldots, \beta_p, \sigma^2$)
・$n$:サンプルサイズ
・$RSS$:残差平方和

選択基準:AIC が最小のモデルを選ぶ

第1項:当てはまりの良さ(小さいほど良い)
第2項:モデルの複雑さへのペナルティ(大きいほど悪い)

5.3 BIC(ベイズ情報量規準)

📐 BIC(Bayesian Information Criterion)

$$BIC = -2 \log L + k \log n$$
重回帰の場合:
$$BIC = n \log(RSS/n) + (p+2) \log n$$
AIC との違い:
・ペナルティ項が $k \log n$(AIC は $2k$)
・$n > 7$ のとき、BIC のペナルティ $>$ AIC のペナルティ
・BIC の方がペナルティが強い(より倹約的)

選択基準:BIC が最小のモデルを選ぶ

例題7:AIC と BIC の計算

問題:$n=50$, $p=3$ で $RSS=100$ のモデルと、$p=5$ で $RSS=90$ のモデルを比較せよ。($\log 2 \approx 0.693$, $\log 50 \approx 3.912$)

解答:

【モデル1($p=3$, $RSS=100$)】
$$AIC_1 = 50 \log(100/50) + 2(3+2) = 50 \log 2 + 10 = 50 \times 0.693 + 10 = 44.65$$ $$BIC_1 = 50 \log(100/50) + (3+2) \log 50 = 34.65 + 5 \times 3.912 = 54.21$$
【モデル2($p=5$, $RSS=90$)】
$$AIC_2 = 50 \log(90/50) + 2(5+2) = 50 \log 1.8 + 14 = 50 \times 0.588 + 14 = 43.40$$ $$BIC_2 = 50 \log(90/50) + (5+2) \log 50 = 29.40 + 7 \times 3.912 = 56.78$$
【比較】
AIC:モデル2が小さい($43.40 < 44.65$)→ モデル2を選択
BIC:モデル1が小さい($54.21 < 56.78$)→ モデル1を選択

BIC は変数を増やすことにより厳しい!

5.4 ステップワイズ法

⭐ 変数選択のアルゴリズム

① 変数増加法(Forward Selection)
・変数なしから開始
・AIC/BIC が最も改善する変数を1つずつ追加
・改善がなくなったら終了

② 変数減少法(Backward Elimination)
・全変数から開始
・AIC/BIC が最も改善する変数を1つずつ削除
・改善がなくなったら終了

③ 変数増減法(Stepwise)
・変数増加と変数減少を繰り返す
・最も柔軟だが計算量が多い

6. 多重共線性

6.1 多重共線性とは

⚠️ 多重共線性(Multicollinearity)

説明変数間に強い相関があり、$\mathbf{X}^\top\mathbf{X}$ が特異に近い状態

問題点:
① $(\mathbf{X}^\top\mathbf{X})^{-1}$ が不安定 → $\hat{\boldsymbol{\beta}}$ の分散が大きくなる
② 回帰係数の推定値が不安定
③ 符号が理論と逆になることも
④ t検定で有意にならない
⑤ 予測自体は影響されない

原因:
・相関の高い変数を同時投入
・サンプルサイズが小さい

6.2 VIF(分散拡大要因)

📖 VIF(Variance Inflation Factor)

$x_j$ を他の説明変数で回帰したときの $R_j^2$ を用いて:
$$VIF_j = \frac{1}{1 – R_j^2}$$
判定基準:
・$VIF < 5$:問題なし
・$5 ≦ VIF < 10$:注意が必要
・$VIF ≧ 10$:深刻な多重共線性

意味:
「多重共線性により、$\hat{\beta}_j$ の分散が何倍に拡大しているか」

例題8:VIF の計算

問題:3つの説明変数 $x_1, x_2, x_3$ があり、$x_1$ を $x_2, x_3$ で回帰した結果 $R_1^2 = 0.90$ だった。$VIF_1$ を求め、多重共線性を判定せよ。

解答:

$$VIF_1 = \frac{1}{1 – R_1^2} = \frac{1}{1 – 0.90} = \frac{1}{0.10} = 10$$
【判定】
$VIF_1 = 10 ≧ 10$
深刻な多重共線性あり!

【解釈】
$x_1$ の回帰係数の分散が、多重共線性がない場合の10倍に拡大している。

6.3 多重共線性の対処法

📐 対処方法

変数の削除:相関の高い変数のうち1つを削除
変数の結合:相関の高い変数を合成
主成分分析:説明変数を主成分に変換
リッジ回帰:L2正則化を導入
サンプルサイズ増加:データを追加

実務的には:
・VIF が10以上の変数を削除
・理論的に重要な変数は残す
・AIC/BIC で最適なモデルを選択

📝 練習問題(20問)

問題 1

正規方程式の導出

$y = \beta_0 + \beta_1 x + \varepsilon$ のモデルで、$RSS = \sum(y_i – \beta_0 – \beta_1 x_i)^2$ を $\beta_0$, $\beta_1$ で偏微分し、正規方程式を導け。

解答:

$$\frac{\partial RSS}{\partial \beta_0} = -2\sum(y_i – \beta_0 – \beta_1 x_i) = 0$$ $$\frac{\partial RSS}{\partial \beta_1} = -2\sum x_i(y_i – \beta_0 – \beta_1 x_i) = 0$$
整理すると:
$$n\beta_0 + \beta_1\sum x_i = \sum y_i$$ $$\beta_0\sum x_i + \beta_1\sum x_i^2 = \sum x_i y_i$$
これが正規方程式。
問題 2

行列の計算

$\mathbf{X} = \begin{pmatrix} 1 & 2 \\ 1 & 3 \\ 1 & 4 \end{pmatrix}$ のとき、$\mathbf{X}^\top\mathbf{X}$ を計算せよ。

解答:

$$\mathbf{X}^\top = \begin{pmatrix} 1 & 1 & 1 \\ 2 & 3 & 4 \end{pmatrix}$$
$$\mathbf{X}^\top\mathbf{X} = \begin{pmatrix} 1 & 1 & 1 \\ 2 & 3 & 4 \end{pmatrix} \begin{pmatrix} 1 & 2 \\ 1 & 3 \\ 1 & 4 \end{pmatrix} = \begin{pmatrix} 3 & 9 \\ 9 & 29 \end{pmatrix}$$
問題 3

t検定の実施

$\hat{\beta}_2 = 1.8$, $se(\hat{\beta}_2) = 0.6$, $n=25$, $p=3$ のとき、$H_0: \beta_2 = 0$ を検定せよ。($t_{21}(0.025) = 2.080$)

解答:

$$t = \frac{\hat{\beta}_2}{se(\hat{\beta}_2)} = \frac{1.8}{0.6} = 3.0$$ $$df = n – p – 1 = 25 – 3 – 1 = 21$$
$|t| = 3.0 > t_{21}(0.025) = 2.080$
よって、$H_0$ を棄却。$\beta_2$ は有意。
問題 4

F検定

$ESS=150$, $RSS=50$, $n=30$, $p=2$ のとき、F値を求めよ。

解答:

$$F = \frac{ESS/p}{RSS/(n-p-1)} = \frac{150/2}{50/27} = \frac{75}{1.852} \approx 40.5$$
問題 5

決定係数

$TSS=500$, $RSS=100$ のとき、$R^2$ を求めよ。

解答:

$$R^2 = 1 – \frac{RSS}{TSS} = 1 – \frac{100}{500} = 1 – 0.2 = 0.8$$
問題 6

自由度調整済み $R^2$

$R^2=0.85$, $n=40$, $p=3$ のとき、$\bar{R}^2$ を求めよ。

解答:

$$\bar{R}^2 = 1 – (1-R^2) \cdot \frac{n-1}{n-p-1} = 1 – 0.15 \times \frac{39}{36} = 1 – 0.1625 = 0.8375$$
問題 7

AIC の比較

モデルA:$AIC=120$, モデルB:$AIC=125$。どちらが良いか?

解答:

AIC は小さい方が良い。
$120 < 125$ より、モデルA の方が良い。
問題 8

VIF の計算

$R_3^2 = 0.75$ のとき、$VIF_3$ を求めよ。

解答:

$$VIF_3 = \frac{1}{1 – R_3^2} = \frac{1}{1 – 0.75} = \frac{1}{0.25} = 4$$
$VIF < 5$ なので、多重共線性は問題なし。
問題 9

偏回帰係数の解釈

給与(万円)$= 200 + 5 \times$ 勤続年数 $+ 10 \times$ 役職ダミー。役職ありの場合、勤続10年の予測給与は?

解答:

勤続年数 $= 10$, 役職ダミー $= 1$ を代入:
$$\text{給与} = 200 + 5 \times 10 + 10 \times 1 = 200 + 50 + 10 = 260 \text{万円}$$
問題 10

不偏性の確認

$\hat{\sigma}^2 = RSS/n$ が $\sigma^2$ の不偏推定量でない理由を述べよ。

解答:

$E(RSS) = (n-p-1)\sigma^2$ であるため、
$$E(\hat{\sigma}^2) = E(RSS/n) = \frac{(n-p-1)\sigma^2}{n} < \sigma^2$$
よって、負のバイアスを持ち不偏でない。
正しい不偏推定量は $\hat{\sigma}^2 = RSS/(n-p-1)$
問題 11

平方和の分解

$TSS=200$, $ESS=160$ のとき、$RSS$ を求めよ。

解答:

$TSS = ESS + RSS$ より、
$$RSS = TSS – ESS = 200 – 160 = 40$$
問題 12

標準誤差の計算

$RSS=80$, $n=30$, $p=2$, $[(\mathbf{X}^\top\mathbf{X})^{-1}]_{11} = 0.04$ のとき、$se(\hat{\beta}_1)$ を求めよ。

解答:

$$\hat{\sigma}^2 = \frac{RSS}{n-p-1} = \frac{80}{27} \approx 2.963$$ $$se(\hat{\beta}_1) = \sqrt{\hat{\sigma}^2 \cdot [(\mathbf{X}^\top\mathbf{X})^{-1}]_{11}} = \sqrt{2.963 \times 0.04} = \sqrt{0.1185} \approx 0.344$$
問題 13

BIC の計算

$n=100$, $p=4$, $RSS=200$ のとき、BIC を求めよ。($\log 2 \approx 0.693$, $\log 100 \approx 4.605$)

解答:

$$BIC = n \log(RSS/n) + (p+2) \log n$$ $$= 100 \log(200/100) + 6 \log 100$$ $$= 100 \times 0.693 + 6 \times 4.605$$ $$= 69.3 + 27.63 = 96.93$$
問題 14

多重共線性の影響

多重共線性があるとき、どのような問題が起こるか3つ挙げよ。

解答:

① 回帰係数の推定値が不安定になる
② 標準誤差が大きくなり、t検定で有意にならない
③ 回帰係数の符号が理論と逆になることがある
問題 15

信頼区間の構成

$\hat{\beta}_1=0.5$, $se(\hat{\beta}_1)=0.1$, $df=20$, $t_{20}(0.025)=2.086$ のとき、$\beta_1$ の95%信頼区間を求めよ。

解答:

95%信頼区間:
$$\hat{\beta}_1 \pm t_{20}(0.025) \cdot se(\hat{\beta}_1)$$ $$= 0.5 \pm 2.086 \times 0.1$$ $$= 0.5 \pm 0.2086$$ $$= [0.2914, 0.7086]$$
問題 16

ダミー変数の解釈

$y = 50 + 3x + 10D$($D$:性別ダミー、男$=1$, 女$=0$)。男女の差はいくらか?

解答:

男性($D=1$):$y = 50 + 3x + 10$
女性($D=0$):$y = 50 + 3x$

差 $= 10$
男性の方が10だけ高い。
問題 17

交互作用項

$y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \beta_3 x_1 x_2 + \varepsilon$ で、$\beta_3$ が有意なとき、何がわかるか?

解答:

$x_1$ の効果が $x_2$ の値によって異なる
(または、$x_2$ の効果が $x_1$ の値によって異なる)

交互作用効果が存在する。
問題 18

予測値と残差

$y = 2 + 3x$ で $x=4$ のとき $\hat{y}$ は?実測値が $y=16$ なら残差は?

解答:

$$\hat{y} = 2 + 3 \times 4 = 14$$ $$\text{残差} = y – \hat{y} = 16 – 14 = 2$$
問題 19

モデルの比較

モデルA($p=2$):$R^2=0.75$, $\bar{R}^2=0.73$
モデルB($p=5$):$R^2=0.78$, $\bar{R}^2=0.72$
どちらを選ぶべきか?

解答:

$\bar{R}^2$ で比較:
モデルA:$0.73 >$ モデルB:$0.72$

モデルA を選ぶ。
(モデルB は変数が多い割に説明力の向上が小さい)
問題 20

残差の性質

最小二乗法で推定した回帰式では、$\sum e_i = 0$ が成り立つことを示せ。

解答:

正規方程式の第1式:
$$\sum(y_i – \hat{\beta}_0 – \hat{\beta}_1 x_i) = 0$$
$e_i = y_i – \hat{y}_i = y_i – \hat{\beta}_0 – \hat{\beta}_1 x_i$ より、
$$\sum e_i = 0$$
残差の和は必ず0になる。
📌 Step 8のまとめ
  • 重回帰分析の理論と行列表現を理解した
  • 最小二乗推定量の性質(不偏性・BLUE)を学んだ
  • 偏回帰係数の検定(t検定・F検定)ができるようになった
  • 決定係数と自由度調整済み決定係数の違いを理解した
  • AIC・BIC を用いた変数選択法を習得した
  • 多重共線性の診断(VIF)と対処法を学んだ
次のStep 9では、分散分析(ANOVA)を学びます!
📝

学習メモ

統計検定準1級対策 - Step 8

📋 過去のメモ一覧
#artnasekai #学習メモ
LINE