Step 17: 総合演習(応用問題)
実データを用いた総合的な統計解析に挑戦します
📚 このステップについて
このステップでは、統計学準1級レベルの応用問題に取り組みます。回帰分析、分散分析、実験計画法、多変量解析など、実際のデータ分析を想定した総合演習です。
データの読み取りと解釈に時間をかけましょう
Part 1: 回帰分析
広告費と売上の関係
ある企業が6か月間の広告費($x$, 万円)と売上($y$, 万円)を記録した。
以下のデータが得られている。
| 月 | 1 | 2 | 3 | 4 | 5 | 6 |
| 広告費($x$) | 10 | 15 | 12 | 20 | 18 | 25 |
| 売上($y$) | 35 | 42 | 38 | 50 | 48 | 60 |
$\sum x = 100$, $\sum y = 273$, $\sum x^2 = 1794$, $\sum y^2 = 13109$, $\sum xy = 4840$
(1) 回帰直線 $y = a + bx$ の係数 $a$, $b$ を求めよ。
(2) 決定係数 $R^2$ を求め、解釈せよ。
(3) 広告費が22万円のとき、売上の予測値を求めよ。
(4) 回帰係数 $b$ の95%信頼区間を求めよ。($t_4(0.025) = 2.776$)
基本統計量:
$n = 6$
$\bar{x} = 100/6 \approx 16.67$
$\bar{y} = 273/6 = 45.5$
(1) 回帰係数
$$S_{xx} = \sum x^2 – \frac{(\sum x)^2}{n} = 1794 – \frac{100^2}{6} = 1794 – 1666.67 = 127.33$$ $$S_{xy} = \sum xy – \frac{(\sum x)(\sum y)}{n} = 4840 – \frac{100 \times 273}{6} = 4840 – 4550 = 290$$ $$S_{yy} = \sum y^2 – \frac{(\sum y)^2}{n} = 13109 – \frac{273^2}{6} = 13109 – 12420.5 = 688.5$$
傾き: $$b = \frac{S_{xy}}{S_{xx}} = \frac{290}{127.33} \approx 2.278$$
切片: $$a = \bar{y} – b \cdot \bar{x} = 45.5 – 2.278 \times 16.67 = 45.5 – 37.98 \approx 7.52$$
回帰直線:$\hat{y} = 7.52 + 2.28x$
(2) 決定係数
$$R^2 = \frac{S_{xy}^2}{S_{xx} \cdot S_{yy}} = \frac{290^2}{127.33 \times 688.5} = \frac{84100}{87668.5} \approx 0.959$$
解釈:
売上の変動の約96%が広告費によって説明される。非常に強い正の線形関係がある。
(3) 予測値
$x = 22$ のとき: $$\hat{y} = 7.52 + 2.28 \times 22 = 7.52 + 50.16 = 57.68$$
予測売上:約57.7万円
(4) 信頼区間
残差分散: $$s^2 = \frac{S_{yy} – b \cdot S_{xy}}{n-2} = \frac{688.5 – 2.278 \times 290}{4} = \frac{27.9}{4} = 6.975$$ $$s = \sqrt{6.975} \approx 2.64$$
標準誤差: $$SE(b) = \frac{s}{\sqrt{S_{xx}}} = \frac{2.64}{\sqrt{127.33}} = \frac{2.64}{11.28} \approx 0.234$$
95%信頼区間: $$b \pm t_4(0.025) \times SE(b) = 2.278 \pm 2.776 \times 0.234 = 2.278 \pm 0.650 = (1.628, 2.928)$$
【答】
(1) $\hat{y} = 7.52 + 2.28x$
(2) $R^2 = 0.959$(96%説明)
(3) 予測売上:57.7万円
(4) 95%CI:$(1.63, 2.93)$
住宅価格の予測
住宅価格($y$, 百万円)を面積($x_1$, m²)と築年数($x_2$, 年)で予測するモデル:
$$\hat{y} = 5.2 + 0.08x_1 – 0.15x_2$$
$n = 50$, $R^2 = 0.72$, 残差標準偏差 $s = 2.5$
分散共分散行列の対角要素:$\text{Var}(\hat{\beta}_1) = 0.001$, $\text{Var}(\hat{\beta}_2) = 0.004$
(1) 修正済み決定係数を求めよ。
(2) $x_1$ の係数が0であるという仮説を検定せよ。($t_{47}(0.025) = 2.012$)
(3) 面積80m²、築年数10年の住宅の価格を95%信頼区間で予測せよ。
(予測値の標準誤差は0.8とする)
(1) 修正済み決定係数
$$\bar{R}^2 = 1 – (1 – R^2) \frac{n-1}{n-p-1}$$
$n = 50$, $p = 2$(説明変数の数)
$$\bar{R}^2 = 1 – (1 – 0.72) \times \frac{49}{47} = 1 – 0.28 \times 1.043 = 1 – 0.292 = 0.708$$
修正済み $R^2 = 0.71$
(2) 回帰係数の検定
$H_0: \beta_1 = 0$ vs $H_1: \beta_1 \neq 0$
検定統計量: $$t = \frac{\hat{\beta}_1}{SE(\hat{\beta}_1)} = \frac{0.08}{\sqrt{0.001}} = \frac{0.08}{0.0316} \approx 2.53$$
自由度 $n – p – 1 = 47$
臨界値:$t_{47}(0.025) = 2.012$
$|t| = 2.53 > 2.012$
判定:$H_0$ を棄却
面積の係数は有意に0と異なる($p < 0.05$)
(3) 予測区間
点予測: $$\hat{y} = 5.2 + 0.08 \times 80 – 0.15 \times 10 = 5.2 + 6.4 – 1.5 = 10.1 \text{百万円}$$
95%予測区間: $$\hat{y} \pm t_{47}(0.025) \times SE(\text{予測値}) = 10.1 \pm 2.012 \times 0.8 = 10.1 \pm 1.61 = (8.49, 11.71)$$
【答】
(1) 修正済み $R^2 = 0.71$
(2) $t = 2.53 > 2.012$ → 有意
(3) 予測価格:10.1百万円、95%予測区間:$(8.5, 11.7)$ 百万円
解釈:
・面積1m²増加で約8万円上昇
・築年数1年増加で約15万円下落
・モデルは価格変動の72%を説明
Part 2: 分散分析
3種類の肥料の効果
3種類の肥料A, B, Cの効果を比較するため、各肥料を4つの畑で試験した。収量(kg)のデータ:
| 肥料A | 肥料B | 肥料C |
| 62 | 55 | 58 |
| 58 | 52 | 61 |
| 65 | 58 | 57 |
| 63 | 51 | 60 |
$T_A = 248$, $T_B = 216$, $T_C = 236$, $T = 700$
$\sum\sum x_{ij}^2 = 41206$
(1) 分散分析表を完成させよ。
(2) 有意水準5%で肥料間に差があるか検定せよ。($F_{2,9}(0.05) = 4.26$)
(3) 多重比較(テューキー法)でAとBを比較せよ。($q_{3,9}(0.05) = 3.95$ とする)
基本情報:
$a = 3$(群数)、$n = 4$(各群のサイズ)、$N = 12$(総サンプルサイズ)
(1) 分散分析表
修正項: $$CF = \frac{T^2}{N} = \frac{700^2}{12} = 40833.33$$
総平方和: $$S_T = \sum\sum x_{ij}^2 – CF = 41206 – 40833.33 = 372.67$$
群間平方和: $$S_A = \left(\frac{T_A^2}{n} + \frac{T_B^2}{n} + \frac{T_C^2}{n}\right) – CF$$ $$= \frac{248^2 + 216^2 + 236^2}{4} – 40833.33 = \frac{40964}{4} – 40833.33 = 10241 – 40833.33 = 240.67$$
群内平方和: $$S_E = S_T – S_A = 372.67 – 240.67 = 132$$
分散分析表:
| 要因 | SS | df | MS | F |
| 群間 | 240.67 | 2 | 120.34 | 8.21 |
| 群内 | 132.00 | 9 | 14.67 | |
| 総和 | 372.67 | 11 |
(2) F検定
$H_0: \mu_A = \mu_B = \mu_C$
$F = 8.21 > F_{2,9}(0.05) = 4.26$
判定:$H_0$ を棄却
少なくとも1組の肥料間に有意差がある
(3) テューキー法による多重比較
群平均:
$\bar{X}_A = 248/4 = 62.0$
$\bar{X}_B = 216/4 = 54.0$
$\bar{X}_C = 236/4 = 59.0$
AとBの差: $$|\bar{X}_A – \bar{X}_B| = |62.0 – 54.0| = 8.0$$
テューキーの臨界値: $$HSD = q_{3,9}(0.05) \times \sqrt{\frac{MS_E}{n}} = 3.95 \times \sqrt{\frac{14.67}{4}} = 3.95 \times 1.915 = 7.56$$
$|\bar{X}_A – \bar{X}_B| = 8.0 > 7.56$
【答】
(1) 分散分析表は上記
(2) $F = 8.21 > 4.26$ → 有意差あり
(3) AとBの差は有意($8.0 > 7.56$)
結論:肥料Aは肥料Bより有意に収量が高い
温度と湿度の効果
製品の品質に対する温度(3水準)と湿度(2水準)の影響を調査。
各条件で2回ずつ測定した($n=12$)。分散分析表が与えられている:
| 要因 | SS | df | MS | F |
| 温度(A) | 180 | 2 | 90 | ? |
| 湿度(B) | 120 | 1 | 120 | ? |
| A×B | 60 | ? | ? | ? |
| 誤差 | 36 | ? | ? | |
| 総和 | 396 | 11 |
(1) ?の部分を埋めよ。
(2) 各効果を有意水準5%で検定せよ。
(3) 交互作用が有意な場合、どう解釈すべきか述べよ。
(1) 分散分析表の完成
自由度:
$\phi_A = 2$(3水準−1)
$\phi_B = 1$(2水準−1)
$\phi_{A \times B} = 2 \times 1 = 2$
$\phi_E = N – ab = 12 – 3 \times 2 = 6$
(または $\phi_E = \phi_T – \phi_A – \phi_B – \phi_{A \times B} = 11 – 2 – 1 – 2 = 6$)
平均平方:
$MS_{A \times B} = 60/2 = 30$
$MS_E = 36/6 = 6$
F統計量:
$F_A = 90/6 = 15.0$
$F_B = 120/6 = 20.0$
$F_{A \times B} = 30/6 = 5.0$
完成した表:
| 要因 | SS | df | MS | F |
| 温度(A) | 180 | 2 | 90 | 15.0 |
| 湿度(B) | 120 | 1 | 120 | 20.0 |
| A×B | 60 | 2 | 30 | 5.0 |
| 誤差 | 36 | 6 | 6 | |
| 総和 | 396 | 11 |
(2) 検定
温度の主効果:
$F_A = 15.0 > F_{2,6}(0.05) = 5.14$ → 有意
湿度の主効果:
$F_B = 20.0 > F_{1,6}(0.05) = 5.99$ → 有意
交互作用:
$F_{A \times B} = 5.0 < F_{2,6}(0.05) = 5.14$ → 非有意(ギリギリ)
(3) 交互作用の解釈
もし交互作用が有意であれば:
・温度の効果が湿度の水準によって異なる
・単純に主効果だけで解釈できない
・各温度×湿度の組み合わせごとに単純主効果を検定する必要がある
今回のケース:
交互作用は非有意なので、温度と湿度の効果は独立と考えられる。主効果で解釈可能。
【答】
(1) 上記の表
(2) 温度:有意、湿度:有意、交互作用:非有意
(3) 交互作用が非有意なので、温度と湿度は独立に品質に影響する
Part 3: カテゴリカルデータ分析
性別と製品選好
性別と製品の選好に関連があるか調査した。200人の回答者のデータ:
| 製品A | 製品B | 製品C | 計 | |
| 男性 | 40 | 35 | 25 | 100 |
| 女性 | 30 | 45 | 25 | 100 |
| 計 | 70 | 80 | 50 | 200 |
(1) 期待度数を計算せよ。
(2) $\chi^2$ 統計量を計算せよ。
(3) 有意水準5%で独立性を検定せよ。($\chi^2_2(0.05) = 5.991$)
(1) 期待度数
期待度数 $= \frac{\text{行合計} \times \text{列合計}}{\text{総計}}$
$E_{11} = 100 \times 70 / 200 = 35$
$E_{12} = 100 \times 80 / 200 = 40$
$E_{13} = 100 \times 50 / 200 = 25$
$E_{21} = 100 \times 70 / 200 = 35$
$E_{22} = 100 \times 80 / 200 = 40$
$E_{23} = 100 \times 50 / 200 = 25$
期待度数表:
| 製品A | 製品B | 製品C | |
| 男性 | 35 | 40 | 25 |
| 女性 | 35 | 40 | 25 |
(2) $\chi^2$ 統計量
$$\chi^2 = \sum \frac{(O – E)^2}{E}$$
各セルの寄与:
$(40-35)^2/35 = 25/35 = 0.714$
$(35-40)^2/40 = 25/40 = 0.625$
$(25-25)^2/25 = 0/25 = 0$
$(30-35)^2/35 = 25/35 = 0.714$
$(45-40)^2/40 = 25/40 = 0.625$
$(25-25)^2/25 = 0/25 = 0$
$$\chi^2 = 0.714 + 0.625 + 0 + 0.714 + 0.625 + 0 = 2.678$$
(3) 検定
$H_0$:性別と製品選好は独立
$H_1$:性別と製品選好は独立でない
自由度:$\phi = (r-1)(c-1) = (2-1)(3-1) = 2$
$\chi^2 = 2.678 < \chi^2_2(0.05) = 5.991$
【答】
(1) 期待度数は上記の表
(2) $\chi^2 = 2.678$
(3) $\chi^2 < 5.991$ → $H_0$ を棄却できない
結論:有意水準5%で、性別と製品選好の間に有意な関連は認められない。
合格予測モデル
試験の合格(1)・不合格(0)を勉強時間($x$, 時間)で予測するロジスティック回帰モデル:
$$\text{logit}(p) = -3.5 + 0.5x$$
係数の標準誤差:$SE(\beta_0) = 1.2$, $SE(\beta_1) = 0.15$
(1) 勉強時間10時間の人の合格確率を求めよ。
(2) 合格確率が0.5となる勉強時間は?
(3) 勉強時間の係数が有意か検定せよ。($z_{0.025} = 1.96$)
(4) 勉強時間が1時間増えると、オッズは何倍になるか?
(1) 合格確率
$x = 10$ のとき: $$\text{logit}(p) = -3.5 + 0.5 \times 10 = -3.5 + 5 = 1.5$$
確率: $$p = \frac{1}{1 + \exp(-\text{logit}(p))} = \frac{1}{1 + \exp(-1.5)} = \frac{1}{1 + 0.223} = \frac{1}{1.223} \approx 0.818$$
合格確率 $\approx$ 81.8%
(2) 50%となる勉強時間
$p = 0.5$ のとき $\text{logit}(0.5) = 0$
$$-3.5 + 0.5x = 0 \Rightarrow 0.5x = 3.5 \Rightarrow x = 7$$
7時間
(3) ワルド検定
$H_0: \beta_1 = 0$ vs $H_1: \beta_1 \neq 0$
検定統計量: $$z = \frac{\hat{\beta}_1}{SE(\hat{\beta}_1)} = \frac{0.5}{0.15} = 3.33$$
$|z| = 3.33 > 1.96$
判定:$H_0$ を棄却
勉強時間の効果は有意
(4) オッズ比
$$\text{オッズ比} = \exp(\beta_1) = \exp(0.5) \approx 1.649$$
【答】
(1) $p \approx 0.82$(約82%)
(2) 7時間
(3) $z = 3.33 > 1.96$ → 有意
(4) 約1.65倍
解釈:勉強時間が1時間増えると、合格のオッズが約65%増加する
Part 4: 総合問題
AR(1)モデルの推定
月次売上データ($n=50$)がAR(1)モデルに従うと仮定する。
データから以下が計算された:
標本ACF:$r(1) = 0.6$, $r(2) = 0.36$, $r(3) = 0.22$
標本平均:$\bar{x} = 100$, 標本標準偏差:$s = 15$
(1) AR(1)モデルの係数 $\phi$ を推定せよ。
(2) ノイズの分散 $\sigma^2$ を推定せよ。
(3) 次期($t=51$)の予測値と95%予測区間を求めよ。($x_{50} = 110$ とする)
(1) AR(1)係数の推定
AR(1):$X_t = \phi X_{t-1} + \varepsilon_t$
理論ACF:$\rho(h) = \phi^h$
標本ACF $r(1) = 0.6$ より: $$\hat{\phi} = r(1) = 0.6$$
確認:
$r(2) \approx \hat{\phi}^2 = 0.6^2 = 0.36$ ✓
$r(3) \approx \hat{\phi}^3 = 0.6^3 = 0.216 \approx 0.22$ ✓
(2) ノイズ分散の推定
AR(1)の分散: $$\text{Var}(X_t) = \frac{\sigma^2}{1 – \phi^2}$$
標本分散:$s^2 = 15^2 = 225$
$$\sigma^2 = \text{Var}(X_t) \times (1 – \phi^2) = 225 \times (1 – 0.6^2) = 225 \times 0.64 = 144$$ $$\hat{\sigma} = 12$$
(3) 予測
中心化されていないモデルでは: $$X_t – \mu = \phi(X_{t-1} – \mu) + \varepsilon_t$$
$\hat{\mu} = \bar{x} = 100$ より: $$\hat{X}_{51} = \hat{\mu} + \hat{\phi}(X_{50} – \hat{\mu}) = 100 + 0.6(110 – 100) = 100 + 6 = 106$$
予測誤差の標準偏差:$\sigma_{pred} = \hat{\sigma} = 12$
95%予測区間: $$106 \pm 1.96 \times 12 = 106 \pm 23.52 = (82.48, 129.52)$$
【答】
(1) $\hat{\phi} = 0.6$
(2) $\hat{\sigma}^2 = 144$
(3) 予測値:106、95%予測区間:$(82, 130)$
解釈:
・正の自己相関($\phi = 0.6$)がある
・現在の売上が高いと次期も高い傾向
・ただし平均(100)に回帰する性質あり
顧客データの次元削減
3つの変数(年齢、年収、購買額)の相関行列:
| 年齢 | 年収 | 購買額 | |
| 年齢 | 1.00 | 0.60 | 0.40 |
| 年収 | 0.60 | 1.00 | 0.80 |
| 購買額 | 0.40 | 0.80 | 1.00 |
第1主成分の固有ベクトル:$(0.52, 0.63, 0.58)^\top$
(1) 第1主成分の寄与率を求めよ。
(2) 累積寄与率は何%か?
(3) 第1主成分をどう解釈すべきか述べよ。
(4) 何個の主成分を採用すべきか?
(1) 第1主成分の寄与率
$$\text{寄与率} = \frac{\lambda_k}{\sum \lambda_i}$$
$\sum \lambda_i = 2.20 + 0.60 + 0.20 = 3.00$
第1主成分: $$\text{寄与率}_1 = \frac{2.20}{3.00} = 0.733 = 73.3\%$$
(2) 累積寄与率
第1〜2主成分: $$\frac{2.20 + 0.60}{3.00} = \frac{2.80}{3.00} = 0.933 = 93.3\%$$
(3) 第1主成分の解釈
固有ベクトル:$(0.52, 0.63, 0.58)$
$$Z_1 = 0.52 \times \text{年齢} + 0.63 \times \text{年収} + 0.58 \times \text{購買額}$$
解釈:
・すべての係数が正でほぼ同じ大きさ
・年収の寄与が最も大きい
・「総合的な顧客の経済力」を表す
・年齢が高く、年収が高く、購買額が多い顧客ほど $Z_1$ が大きい
(4) 主成分数の決定
基準1:固有値 > 1
$\lambda_1 = 2.20 > 1$ ✓
$\lambda_2 = 0.60 < 1$
→ 1個
基準2:累積寄与率 > 80%
第1主成分:73.3% < 80%
第1〜2主成分:93.3% > 80% ✓
→ 2個
推奨:
・固有値基準:1個
・寄与率基準:2個
・第1主成分だけで73%説明可能
・用途による判断が必要
【答】
(1) 73.3%
(2) 93.3%
(3) 総合的な経済力を表す
(4) 1〜2個が適切
補足:第2主成分は年齢と年収・購買額の対比を表す可能性がある
- 回帰分析の実践的な適用と解釈ができるようになった
- 分散分析表の作成と多重比較を習得した
- 二元配置分散分析と交互作用の解釈を理解した
- カテゴリカルデータの独立性検定ができるようになった
- ロジスティック回帰の実践的な適用を習得した
- 時系列データの分析と予測ができるようになった
- 主成分分析の実践的な適用と解釈を習得した
学習メモ
統計検定準1級対策 - Step 17