Step 17:総合演習(応用問題)

Step 17: 総合演習(応用問題)

実データを用いた総合的な統計解析に挑戦します

📚 このステップについて

このステップでは、統計学準1級レベルの応用問題に取り組みます。回帰分析、分散分析、実験計画法、多変量解析など、実際のデータ分析を想定した総合演習です。

⏱️ 推奨時間配分:各問題 15-20分
データの読み取りと解釈に時間をかけましょう

Part 1: 回帰分析

問題 1
★★☆ 標準 単回帰分析

広告費と売上の関係

ある企業が6か月間の広告費($x$, 万円)と売上($y$, 万円)を記録した。
以下のデータが得られている。

1 2 3 4 5 6
広告費($x$)101512201825
売上($y$)354238504860
計算済みの統計量:
$\sum x = 100$, $\sum y = 273$, $\sum x^2 = 1794$, $\sum y^2 = 13109$, $\sum xy = 4840$

(1) 回帰直線 $y = a + bx$ の係数 $a$, $b$ を求めよ。
(2) 決定係数 $R^2$ を求め、解釈せよ。
(3) 広告費が22万円のとき、売上の予測値を求めよ。
(4) 回帰係数 $b$ の95%信頼区間を求めよ。($t_4(0.025) = 2.776$)

【解答】

基本統計量:
$n = 6$
$\bar{x} = 100/6 \approx 16.67$
$\bar{y} = 273/6 = 45.5$

(1) 回帰係数
$$S_{xx} = \sum x^2 – \frac{(\sum x)^2}{n} = 1794 – \frac{100^2}{6} = 1794 – 1666.67 = 127.33$$ $$S_{xy} = \sum xy – \frac{(\sum x)(\sum y)}{n} = 4840 – \frac{100 \times 273}{6} = 4840 – 4550 = 290$$ $$S_{yy} = \sum y^2 – \frac{(\sum y)^2}{n} = 13109 – \frac{273^2}{6} = 13109 – 12420.5 = 688.5$$
傾き: $$b = \frac{S_{xy}}{S_{xx}} = \frac{290}{127.33} \approx 2.278$$
切片: $$a = \bar{y} – b \cdot \bar{x} = 45.5 – 2.278 \times 16.67 = 45.5 – 37.98 \approx 7.52$$
回帰直線:$\hat{y} = 7.52 + 2.28x$

(2) 決定係数
$$R^2 = \frac{S_{xy}^2}{S_{xx} \cdot S_{yy}} = \frac{290^2}{127.33 \times 688.5} = \frac{84100}{87668.5} \approx 0.959$$
解釈:
売上の変動の約96%が広告費によって説明される。非常に強い正の線形関係がある。

(3) 予測値
$x = 22$ のとき: $$\hat{y} = 7.52 + 2.28 \times 22 = 7.52 + 50.16 = 57.68$$
予測売上:約57.7万円

(4) 信頼区間
残差分散: $$s^2 = \frac{S_{yy} – b \cdot S_{xy}}{n-2} = \frac{688.5 – 2.278 \times 290}{4} = \frac{27.9}{4} = 6.975$$ $$s = \sqrt{6.975} \approx 2.64$$
標準誤差: $$SE(b) = \frac{s}{\sqrt{S_{xx}}} = \frac{2.64}{\sqrt{127.33}} = \frac{2.64}{11.28} \approx 0.234$$
95%信頼区間: $$b \pm t_4(0.025) \times SE(b) = 2.278 \pm 2.776 \times 0.234 = 2.278 \pm 0.650 = (1.628, 2.928)$$
【答】
(1) $\hat{y} = 7.52 + 2.28x$
(2) $R^2 = 0.959$(96%説明)
(3) 予測売上:57.7万円
(4) 95%CI:$(1.63, 2.93)$
問題 2
★★★ 発展 重回帰分析

住宅価格の予測

住宅価格($y$, 百万円)を面積($x_1$, m²)と築年数($x_2$, 年)で予測するモデル:
$$\hat{y} = 5.2 + 0.08x_1 – 0.15x_2$$
$n = 50$, $R^2 = 0.72$, 残差標準偏差 $s = 2.5$
分散共分散行列の対角要素:$\text{Var}(\hat{\beta}_1) = 0.001$, $\text{Var}(\hat{\beta}_2) = 0.004$

(1) 修正済み決定係数を求めよ。
(2) $x_1$ の係数が0であるという仮説を検定せよ。($t_{47}(0.025) = 2.012$)
(3) 面積80m²、築年数10年の住宅の価格を95%信頼区間で予測せよ。
  (予測値の標準誤差は0.8とする)

【解答】

(1) 修正済み決定係数
$$\bar{R}^2 = 1 – (1 – R^2) \frac{n-1}{n-p-1}$$
$n = 50$, $p = 2$(説明変数の数)

$$\bar{R}^2 = 1 – (1 – 0.72) \times \frac{49}{47} = 1 – 0.28 \times 1.043 = 1 – 0.292 = 0.708$$
修正済み $R^2 = 0.71$

(2) 回帰係数の検定
$H_0: \beta_1 = 0$ vs $H_1: \beta_1 \neq 0$

検定統計量: $$t = \frac{\hat{\beta}_1}{SE(\hat{\beta}_1)} = \frac{0.08}{\sqrt{0.001}} = \frac{0.08}{0.0316} \approx 2.53$$
自由度 $n – p – 1 = 47$
臨界値:$t_{47}(0.025) = 2.012$

$|t| = 2.53 > 2.012$

判定:$H_0$ を棄却
面積の係数は有意に0と異なる($p < 0.05$)

(3) 予測区間
点予測: $$\hat{y} = 5.2 + 0.08 \times 80 – 0.15 \times 10 = 5.2 + 6.4 – 1.5 = 10.1 \text{百万円}$$
95%予測区間: $$\hat{y} \pm t_{47}(0.025) \times SE(\text{予測値}) = 10.1 \pm 2.012 \times 0.8 = 10.1 \pm 1.61 = (8.49, 11.71)$$
【答】
(1) 修正済み $R^2 = 0.71$
(2) $t = 2.53 > 2.012$ → 有意
(3) 予測価格:10.1百万円、95%予測区間:$(8.5, 11.7)$ 百万円

解釈:
・面積1m²増加で約8万円上昇
・築年数1年増加で約15万円下落
・モデルは価格変動の72%を説明

Part 2: 分散分析

問題 3
★★☆ 標準 一元配置分散分析

3種類の肥料の効果

3種類の肥料A, B, Cの効果を比較するため、各肥料を4つの畑で試験した。収量(kg)のデータ:

肥料A 肥料B 肥料C
625558
585261
655857
635160
計算済み:
$T_A = 248$, $T_B = 216$, $T_C = 236$, $T = 700$
$\sum\sum x_{ij}^2 = 41206$

(1) 分散分析表を完成させよ。
(2) 有意水準5%で肥料間に差があるか検定せよ。($F_{2,9}(0.05) = 4.26$)
(3) 多重比較(テューキー法)でAとBを比較せよ。($q_{3,9}(0.05) = 3.95$ とする)

【解答】

基本情報:
$a = 3$(群数)、$n = 4$(各群のサイズ)、$N = 12$(総サンプルサイズ)

(1) 分散分析表
修正項: $$CF = \frac{T^2}{N} = \frac{700^2}{12} = 40833.33$$
総平方和: $$S_T = \sum\sum x_{ij}^2 – CF = 41206 – 40833.33 = 372.67$$
群間平方和: $$S_A = \left(\frac{T_A^2}{n} + \frac{T_B^2}{n} + \frac{T_C^2}{n}\right) – CF$$ $$= \frac{248^2 + 216^2 + 236^2}{4} – 40833.33 = \frac{40964}{4} – 40833.33 = 10241 – 40833.33 = 240.67$$
群内平方和: $$S_E = S_T – S_A = 372.67 – 240.67 = 132$$
分散分析表:
要因 SS df MS F
群間 240.67 2 120.34 8.21
群内 132.00 9 14.67
総和 372.67 11
$F = 120.34 / 14.67 = 8.21$

(2) F検定
$H_0: \mu_A = \mu_B = \mu_C$

$F = 8.21 > F_{2,9}(0.05) = 4.26$

判定:$H_0$ を棄却
少なくとも1組の肥料間に有意差がある

(3) テューキー法による多重比較
群平均:
$\bar{X}_A = 248/4 = 62.0$
$\bar{X}_B = 216/4 = 54.0$
$\bar{X}_C = 236/4 = 59.0$

AとBの差: $$|\bar{X}_A – \bar{X}_B| = |62.0 – 54.0| = 8.0$$
テューキーの臨界値: $$HSD = q_{3,9}(0.05) \times \sqrt{\frac{MS_E}{n}} = 3.95 \times \sqrt{\frac{14.67}{4}} = 3.95 \times 1.915 = 7.56$$
$|\bar{X}_A – \bar{X}_B| = 8.0 > 7.56$

【答】
(1) 分散分析表は上記
(2) $F = 8.21 > 4.26$ → 有意差あり
(3) AとBの差は有意($8.0 > 7.56$)

結論:肥料Aは肥料Bより有意に収量が高い
問題 4
★★★ 発展 二元配置分散分析

温度と湿度の効果

製品の品質に対する温度(3水準)と湿度(2水準)の影響を調査。
各条件で2回ずつ測定した($n=12$)。分散分析表が与えられている:

要因 SS df MS F
温度(A)180290?
湿度(B)1201120?
A×B60???
誤差36??
総和39611
$F_{2,6}(0.05) = 5.14$, $F_{1,6}(0.05) = 5.99$

(1) ?の部分を埋めよ。
(2) 各効果を有意水準5%で検定せよ。
(3) 交互作用が有意な場合、どう解釈すべきか述べよ。

【解答】

(1) 分散分析表の完成
自由度:
$\phi_A = 2$(3水準−1)
$\phi_B = 1$(2水準−1)
$\phi_{A \times B} = 2 \times 1 = 2$
$\phi_E = N – ab = 12 – 3 \times 2 = 6$
(または $\phi_E = \phi_T – \phi_A – \phi_B – \phi_{A \times B} = 11 – 2 – 1 – 2 = 6$)

平均平方:
$MS_{A \times B} = 60/2 = 30$
$MS_E = 36/6 = 6$

F統計量:
$F_A = 90/6 = 15.0$
$F_B = 120/6 = 20.0$
$F_{A \times B} = 30/6 = 5.0$

完成した表:
要因 SS df MS F
温度(A) 180 2 90 15.0
湿度(B) 120 1 120 20.0
A×B 60 2 30 5.0
誤差 36 6 6
総和 396 11

(2) 検定
温度の主効果:
$F_A = 15.0 > F_{2,6}(0.05) = 5.14$ → 有意

湿度の主効果:
$F_B = 20.0 > F_{1,6}(0.05) = 5.99$ → 有意

交互作用:
$F_{A \times B} = 5.0 < F_{2,6}(0.05) = 5.14$ → 非有意(ギリギリ)

(3) 交互作用の解釈
もし交互作用が有意であれば:
・温度の効果が湿度の水準によって異なる
・単純に主効果だけで解釈できない
・各温度×湿度の組み合わせごとに単純主効果を検定する必要がある

今回のケース:
交互作用は非有意なので、温度と湿度の効果は独立と考えられる。主効果で解釈可能。

【答】
(1) 上記の表
(2) 温度:有意、湿度:有意、交互作用:非有意
(3) 交互作用が非有意なので、温度と湿度は独立に品質に影響する

Part 3: カテゴリカルデータ分析

問題 5
★★☆ 標準 独立性の検定

性別と製品選好

性別と製品の選好に関連があるか調査した。200人の回答者のデータ:

製品A 製品B 製品C
男性403525100
女性304525100
708050200

(1) 期待度数を計算せよ。
(2) $\chi^2$ 統計量を計算せよ。
(3) 有意水準5%で独立性を検定せよ。($\chi^2_2(0.05) = 5.991$)

【解答】

(1) 期待度数
期待度数 $= \frac{\text{行合計} \times \text{列合計}}{\text{総計}}$

$E_{11} = 100 \times 70 / 200 = 35$
$E_{12} = 100 \times 80 / 200 = 40$
$E_{13} = 100 \times 50 / 200 = 25$
$E_{21} = 100 \times 70 / 200 = 35$
$E_{22} = 100 \times 80 / 200 = 40$
$E_{23} = 100 \times 50 / 200 = 25$

期待度数表:
製品A 製品B 製品C
男性 35 40 25
女性 35 40 25

(2) $\chi^2$ 統計量
$$\chi^2 = \sum \frac{(O – E)^2}{E}$$
各セルの寄与:
$(40-35)^2/35 = 25/35 = 0.714$
$(35-40)^2/40 = 25/40 = 0.625$
$(25-25)^2/25 = 0/25 = 0$
$(30-35)^2/35 = 25/35 = 0.714$
$(45-40)^2/40 = 25/40 = 0.625$
$(25-25)^2/25 = 0/25 = 0$

$$\chi^2 = 0.714 + 0.625 + 0 + 0.714 + 0.625 + 0 = 2.678$$
(3) 検定
$H_0$:性別と製品選好は独立
$H_1$:性別と製品選好は独立でない

自由度:$\phi = (r-1)(c-1) = (2-1)(3-1) = 2$

$\chi^2 = 2.678 < \chi^2_2(0.05) = 5.991$

【答】
(1) 期待度数は上記の表
(2) $\chi^2 = 2.678$
(3) $\chi^2 < 5.991$ → $H_0$ を棄却できない

結論:有意水準5%で、性別と製品選好の間に有意な関連は認められない。
問題 6
★★☆ 標準 ロジスティック回帰

合格予測モデル

試験の合格(1)・不合格(0)を勉強時間($x$, 時間)で予測するロジスティック回帰モデル:

$$\text{logit}(p) = -3.5 + 0.5x$$
係数の標準誤差:$SE(\beta_0) = 1.2$, $SE(\beta_1) = 0.15$

(1) 勉強時間10時間の人の合格確率を求めよ。
(2) 合格確率が0.5となる勉強時間は?
(3) 勉強時間の係数が有意か検定せよ。($z_{0.025} = 1.96$)
(4) 勉強時間が1時間増えると、オッズは何倍になるか?

【解答】

(1) 合格確率
$x = 10$ のとき: $$\text{logit}(p) = -3.5 + 0.5 \times 10 = -3.5 + 5 = 1.5$$
確率: $$p = \frac{1}{1 + \exp(-\text{logit}(p))} = \frac{1}{1 + \exp(-1.5)} = \frac{1}{1 + 0.223} = \frac{1}{1.223} \approx 0.818$$
合格確率 $\approx$ 81.8%

(2) 50%となる勉強時間
$p = 0.5$ のとき $\text{logit}(0.5) = 0$

$$-3.5 + 0.5x = 0 \Rightarrow 0.5x = 3.5 \Rightarrow x = 7$$
7時間

(3) ワルド検定
$H_0: \beta_1 = 0$ vs $H_1: \beta_1 \neq 0$

検定統計量: $$z = \frac{\hat{\beta}_1}{SE(\hat{\beta}_1)} = \frac{0.5}{0.15} = 3.33$$
$|z| = 3.33 > 1.96$

判定:$H_0$ を棄却
勉強時間の効果は有意

(4) オッズ比
$$\text{オッズ比} = \exp(\beta_1) = \exp(0.5) \approx 1.649$$
【答】
(1) $p \approx 0.82$(約82%)
(2) 7時間
(3) $z = 3.33 > 1.96$ → 有意
(4) 約1.65倍

解釈:勉強時間が1時間増えると、合格のオッズが約65%増加する

Part 4: 総合問題

問題 7
★★★ 発展 時系列解析

AR(1)モデルの推定

月次売上データ($n=50$)がAR(1)モデルに従うと仮定する。
データから以下が計算された:

標本ACF:$r(1) = 0.6$, $r(2) = 0.36$, $r(3) = 0.22$
標本平均:$\bar{x} = 100$, 標本標準偏差:$s = 15$

(1) AR(1)モデルの係数 $\phi$ を推定せよ。
(2) ノイズの分散 $\sigma^2$ を推定せよ。
(3) 次期($t=51$)の予測値と95%予測区間を求めよ。($x_{50} = 110$ とする)

【解答】

(1) AR(1)係数の推定
AR(1):$X_t = \phi X_{t-1} + \varepsilon_t$

理論ACF:$\rho(h) = \phi^h$

標本ACF $r(1) = 0.6$ より: $$\hat{\phi} = r(1) = 0.6$$
確認:
$r(2) \approx \hat{\phi}^2 = 0.6^2 = 0.36$ ✓
$r(3) \approx \hat{\phi}^3 = 0.6^3 = 0.216 \approx 0.22$ ✓

(2) ノイズ分散の推定
AR(1)の分散: $$\text{Var}(X_t) = \frac{\sigma^2}{1 – \phi^2}$$
標本分散:$s^2 = 15^2 = 225$

$$\sigma^2 = \text{Var}(X_t) \times (1 – \phi^2) = 225 \times (1 – 0.6^2) = 225 \times 0.64 = 144$$ $$\hat{\sigma} = 12$$
(3) 予測
中心化されていないモデルでは: $$X_t – \mu = \phi(X_{t-1} – \mu) + \varepsilon_t$$
$\hat{\mu} = \bar{x} = 100$ より: $$\hat{X}_{51} = \hat{\mu} + \hat{\phi}(X_{50} – \hat{\mu}) = 100 + 0.6(110 – 100) = 100 + 6 = 106$$
予測誤差の標準偏差:$\sigma_{pred} = \hat{\sigma} = 12$

95%予測区間: $$106 \pm 1.96 \times 12 = 106 \pm 23.52 = (82.48, 129.52)$$
【答】
(1) $\hat{\phi} = 0.6$
(2) $\hat{\sigma}^2 = 144$
(3) 予測値:106、95%予測区間:$(82, 130)$

解釈:
・正の自己相関($\phi = 0.6$)がある
・現在の売上が高いと次期も高い傾向
・ただし平均(100)に回帰する性質あり
問題 8
★★★ 発展 主成分分析

顧客データの次元削減

3つの変数(年齢、年収、購買額)の相関行列:

年齢 年収 購買額
年齢1.000.600.40
年収0.601.000.80
購買額0.400.801.00
固有値:$\lambda_1 = 2.20$, $\lambda_2 = 0.60$, $\lambda_3 = 0.20$
第1主成分の固有ベクトル:$(0.52, 0.63, 0.58)^\top$

(1) 第1主成分の寄与率を求めよ。
(2) 累積寄与率は何%か?
(3) 第1主成分をどう解釈すべきか述べよ。
(4) 何個の主成分を採用すべきか?

【解答】

(1) 第1主成分の寄与率
$$\text{寄与率} = \frac{\lambda_k}{\sum \lambda_i}$$
$\sum \lambda_i = 2.20 + 0.60 + 0.20 = 3.00$

第1主成分: $$\text{寄与率}_1 = \frac{2.20}{3.00} = 0.733 = 73.3\%$$
(2) 累積寄与率
第1〜2主成分: $$\frac{2.20 + 0.60}{3.00} = \frac{2.80}{3.00} = 0.933 = 93.3\%$$
(3) 第1主成分の解釈
固有ベクトル:$(0.52, 0.63, 0.58)$

$$Z_1 = 0.52 \times \text{年齢} + 0.63 \times \text{年収} + 0.58 \times \text{購買額}$$
解釈:
・すべての係数が正でほぼ同じ大きさ
・年収の寄与が最も大きい
・「総合的な顧客の経済力」を表す
・年齢が高く、年収が高く、購買額が多い顧客ほど $Z_1$ が大きい

(4) 主成分数の決定
基準1:固有値 > 1
$\lambda_1 = 2.20 > 1$ ✓
$\lambda_2 = 0.60 < 1$
→ 1個

基準2:累積寄与率 > 80%
第1主成分:73.3% < 80%
第1〜2主成分:93.3% > 80% ✓
→ 2個

推奨:
・固有値基準:1個
・寄与率基準:2個
・第1主成分だけで73%説明可能
・用途による判断が必要

【答】
(1) 73.3%
(2) 93.3%
(3) 総合的な経済力を表す
(4) 1〜2個が適切

補足:第2主成分は年齢と年収・購買額の対比を表す可能性がある
📌 Step 17のまとめ
  • 回帰分析の実践的な適用と解釈ができるようになった
  • 分散分析表の作成と多重比較を習得した
  • 二元配置分散分析と交互作用の解釈を理解した
  • カテゴリカルデータの独立性検定ができるようになった
  • ロジスティック回帰の実践的な適用を習得した
  • 時系列データの分析と予測ができるようになった
  • 主成分分析の実践的な適用と解釈を習得した
応用問題の総合演習を完了しました!次は過去問対策に進みましょう。
📝

学習メモ

統計検定準1級対策 - Step 17

📋 過去のメモ一覧
#artnasekai #学習メモ
LINE