Step 1:2級内容の完全マスター

Step 1: 2級内容の完全マスター

統計学2級レベルの全範囲を理論的に深く理解し、準1級学習の確固たる土台を築きます

📚 このステップの目的

2級の内容を理論的に深く掘り下げます。このステップでは、2級で学んだ内容を「なぜその公式が成り立つのか」「なぜその検定手法を使うのか」という理論的背景まで含めて理解し直します。単なる復習ではなく、理論的な理解を深めることが目標です。

🎯 このステップで身につける力
  • 公式の導出力:「なぜその公式が成り立つのか」を説明できる
  • 手法の選択力:「なぜその検定を使うのか」を理解している
  • 理論と実践の接続:数学的な理論が実務でどう活きるかを把握

1. 確率分布の理論的理解

1.1 離散型確率分布の復習と深化

二項分布 $B(n, p)$

【どんな場面で使う?】
「成功か失敗か」の試行を $n$ 回繰り返したとき、成功回数の分布
例:コインを10回投げて表が出る回数、製品100個中の不良品数

【確率関数】 $$P(X = k) = {}_n C_k \cdot p^k \cdot (1-p)^{n-k}$$

読み方:「$n$ 回中 $k$ 回成功する確率は、組合せ数 × 成功確率の $k$ 乗 × 失敗確率の $(n-k)$ 乗」

【期待値と分散】 $$E(X) = np, \quad V(X) = np(1-p)$$ 【公式の意味】
・$n$ 回の独立試行で成功が $k$ 回起こる組合せが ${}_n C_k$ 通り
・各パターンの確率が $p^k(1-p)^{n-k}$
・これらを掛け合わせたもの

例題1:二項分布の期待値の導出

問題:二項分布 $B(n, p)$ の期待値が $np$ であることを、定義から導出せよ。

解答:

【方針】
期待値の定義 $E(X) = \sum k \cdot P(X=k)$ に従って計算します。

【ステップ1:期待値の定義を書く】 $$E(X) = \sum_{k=0}^{n} k \cdot P(X = k) = \sum_{k=0}^{n} k \cdot {}_n C_k \cdot p^k (1-p)^{n-k}$$ 【ステップ2:$k=0$ の項は0なので省略】 $$= \sum_{k=1}^{n} k \cdot \frac{n!}{k!(n-k)!} \cdot p^k (1-p)^{n-k}$$ 【ステップ3:$k$ と $k!$ を約分】
$k \cdot \frac{1}{k!} = \frac{1}{(k-1)!}$ なので、 $$= \sum_{k=1}^{n} \frac{n!}{(k-1)!(n-k)!} \cdot p^k (1-p)^{n-k}$$ 【ステップ4:$np$ を前に出す】
$n! = n \cdot (n-1)!$ と $p^k = p \cdot p^{k-1}$ を使って、 $$= np \sum_{k=1}^{n} \frac{(n-1)!}{(k-1)!(n-k)!} \cdot p^{k-1} (1-p)^{n-k}$$ 【ステップ5:$j = k-1$ と置換】
$k=1$ のとき $j=0$、$k=n$ のとき $j=n-1$ なので、 $$= np \sum_{j=0}^{n-1} {}_{n-1} C_j \cdot p^j (1-p)^{(n-1)-j}$$ 【ステップ6:二項定理を使う】
$\sum_{j=0}^{n-1} {}_{n-1} C_j \cdot p^j (1-p)^{(n-1)-j} = (p + (1-p))^{n-1} = 1^{n-1} = 1$ $$\therefore E(X) = np \times 1 = np$$ 【直感的理解】
1回の試行で成功確率が $p$ なら、$n$ 回やれば平均 $np$ 回成功するのは自然!
ポアソン分布 $\text{Po}(\lambda)$

【どんな場面で使う?】
「稀な事象が一定期間に何回起こるか」をモデル化
例:1時間に来店する客数、1ページあたりの誤字数、1日の交通事故件数

【確率関数】 $$P(X = k) = \frac{\lambda^k}{k!} e^{-\lambda}$$

読み方:「平均 $\lambda$ 回起こる事象が、ちょうど $k$ 回起こる確率」

【期待値と分散】 $$E(X) = \lambda, \quad V(X) = \lambda$$ 【重要な性質】
・期待値と分散が等しい($E(X) = V(X) = \lambda$)
・二項分布で $n \to \infty$、$p \to 0$、$np = \lambda$ のときの極限分布
・「稀な事象」の回数を扱うときに使う

1.2 連続型確率分布の深い理解

正規分布 $N(\mu, \sigma^2)$

【なぜ正規分布が重要か?】
・多くの自然現象が正規分布に従う(身長、体重、測定誤差など)
中心極限定理により、標本平均は正規分布に近づく
・統計的推測(推定・検定)の基礎となる

【確率密度関数】 $$f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left\{-\frac{(x-\mu)^2}{2\sigma^2}\right\}$$

読み方:「釣鐘型の曲線で、$\mu$ を中心に左右対称、$\sigma$ が大きいほど広がる」

【パラメータの意味】
・$\mu$:平均(分布の中心)
・$\sigma^2$:分散(分布の広がり)
・$\sigma$:標準偏差

例題2:標準化の理論

問題:$X \sim N(\mu, \sigma^2)$ のとき、$Z = \frac{X – \mu}{\sigma}$ が標準正規分布 $N(0, 1)$ に従うことを説明せよ。

解答:

【標準化とは?】
どんな正規分布も、「平均を引いて、標準偏差で割る」と標準正規分布になる。

【ステップ1:$Z$ の期待値を計算】 $$E(Z) = E\left(\frac{X – \mu}{\sigma}\right) = \frac{1}{\sigma}\{E(X) – \mu\} = \frac{\mu – \mu}{\sigma} = 0$$ 【ステップ2:$Z$ の分散を計算】 $$V(Z) = V\left(\frac{X – \mu}{\sigma}\right) = \frac{1}{\sigma^2} V(X) = \frac{\sigma^2}{\sigma^2} = 1$$ 【ステップ3:分布の形を確認】
正規分布の線形変換は正規分布に従う(正規分布の再生性)。
$Z$ は $X$ の線形変換なので、$Z$ も正規分布に従う。

【結論】
$E(Z) = 0$、$V(Z) = 1$、かつ正規分布なので、 $$Z = \frac{X – \mu}{\sigma} \sim N(0, 1)$$ 【なぜ標準化が便利か?】
どんな正規分布も、標準正規分布表1つで確率が計算できる!
⭐ t分布の理論的背景

【t分布が必要な理由】
母分散 $\sigma^2$ が未知のとき、標本標準偏差 $S$ で代用する必要がある。
このとき、統計量の分布は正規分布ではなくt分布になる。

【統計量の分布】 $$T = \frac{\bar{X} – \mu}{S/\sqrt{n}} \sim t(n-1)$$

読み方:「標本平均から母平均を引き、標本標準誤差で割ったものは、自由度 $n-1$ のt分布に従う」

【t分布の特徴】
特徴 説明
裾が厚い 正規分布より外れ値が出やすい
自由度で形が変わる $n-1$ が小さいほど裾が厚い
$n \to \infty$ で正規分布 大標本なら正規分布で近似OK

2. 標本分布の理論

2.1 標本平均の分布

標本平均 $\bar{X}$ の性質

【設定】
母集団が正規分布 $N(\mu, \sigma^2)$ に従うとき、
標本 $X_1, X_2, \ldots, X_n$ を取り、標本平均 $\bar{X} = \frac{1}{n}\sum_{i=1}^n X_i$ を計算する。

【標本平均の分布】 $$\bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right)$$

読み方:「標本平均は、母平均 $\mu$ を中心に、分散 $\sigma^2/n$ で散らばる正規分布」

【なぜこうなるか?】

期待値の導出: $$E(\bar{X}) = E\left(\frac{1}{n}\sum_{i=1}^n X_i\right) = \frac{1}{n} \sum_{i=1}^n E(X_i) = \frac{1}{n} \cdot n\mu = \mu$$ 分散の導出:(独立なので分散は足せる) $$V(\bar{X}) = V\left(\frac{1}{n}\sum_{i=1}^n X_i\right) = \frac{1}{n^2} \sum_{i=1}^n V(X_i) = \frac{1}{n^2} \cdot n\sigma^2 = \frac{\sigma^2}{n}$$ 【重要なポイント】
標本サイズ $n$ が大きいほど、$V(\bar{X}) = \sigma^2/n$ は小さくなる
→ 推定精度が上がる(ばらつきが減る)

2.2 中心極限定理の意味

⭐ 中心極限定理(Central Limit Theorem)

【定理の主張】
母集団分布が何であっても、標本サイズ $n$ が十分大きければ、 $$\bar{X} \approx N\left(\mu, \frac{\sigma^2}{n}\right)$$ または、標準化すると $$\frac{\bar{X} – \mu}{\sigma/\sqrt{n}} \xrightarrow{d} N(0, 1)$$ 【なぜすごいのか?】
母集団が何でも
二項分布、ポアソン分布、
指数分布、一様分布…
標本平均は正規分布に近づく
これが正規分布が
最も重要と言われる理由!
【「$n$ が十分大きい」とは?】
・一般的には $n \geq 30$ が目安
・母集団が正規分布に近いほど、小さい $n$ でもOK
・母集団が歪んでいるほど、大きい $n$ が必要

例題3:中心極限定理の応用

問題:サイコロを100回投げたとき、出た目の合計が320以上になる確率を求めよ。

解答:

【ステップ1:1回の試行の期待値と分散を求める】
サイコロの出目 $X_i$ は 1, 2, 3, 4, 5, 6 が各確率 1/6 で出る。 $$E(X_i) = \frac{1+2+3+4+5+6}{6} = \frac{21}{6} = 3.5$$ $$E(X_i^2) = \frac{1+4+9+16+25+36}{6} = \frac{91}{6}$$ $$V(X_i) = E(X_i^2) – \{E(X_i)\}^2 = \frac{91}{6} – (3.5)^2 = \frac{91}{6} – \frac{49}{4} = \frac{35}{12} \approx 2.917$$ 【ステップ2:合計の期待値と分散を求める】
合計 $S = X_1 + X_2 + \cdots + X_{100}$ とすると、 $$E(S) = 100 \times E(X_i) = 100 \times 3.5 = 350$$ $$V(S) = 100 \times V(X_i) = 100 \times \frac{35}{12} = \frac{3500}{12} \approx 291.7$$ $$\sigma_S = \sqrt{291.7} \approx 17.08$$ 【ステップ3:中心極限定理を適用】
$n = 100$ は十分大きいので、中心極限定理より $$S \approx N(350, 291.7)$$ 【ステップ4:確率を計算】 $$P(S \geq 320) = P\left(\frac{S – 350}{17.08} \geq \frac{320 – 350}{17.08}\right) = P(Z \geq -1.76)$$ $$= 1 – P(Z < -1.76) = 1 - 0.0392 = 0.9608$$ 【答え】 約 96.1% 【ポイント】
サイコロは離散分布(正規分布ではない)だが、100回の合計は正規分布で近似できる!

2.3 標本分散の分布

カイ二乗分布と標本分散

【標本分散の定義】 $$S^2 = \frac{1}{n-1}\sum_{i=1}^n (X_i – \bar{X})^2$$ 【なぜ $n-1$ で割るのか?】
$n$ で割った場合
$E\left(\frac{\sum(X_i-\bar{X})^2}{n}\right) = \frac{n-1}{n}\sigma^2$
→ 母分散より小さくなる(偏り)
$n-1$ で割った場合
$E(S^2) = \sigma^2$
不偏推定量になる!
【標本分散とカイ二乗分布】
母集団が $N(\mu, \sigma^2)$ に従うとき、 $$\frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)$$

読み方:「標本分散を $\sigma^2/(n-1)$ で割ったものは、自由度 $n-1$ のカイ二乗分布に従う」

3. 推定理論の深化

3.1 点推定の理論

良い推定量の3つの条件

条件 数学的定義 直感的意味
不偏性 $E(\hat{\theta}) = \theta$ 平均的には正しい値を推定
一致性 $\hat{\theta} \xrightarrow{p} \theta$ ($n \to \infty$) データを増やせば真の値に近づく
有効性 $V(\hat{\theta})$ が最小 ばらつきが小さい(精度が高い)

例題4:不偏推定量の確認

問題:標本分散 $S^2 = \frac{1}{n-1}\sum(X_i – \bar{X})^2$ が母分散 $\sigma^2$ の不偏推定量であることを示せ。

解答:

【示すこと】
$E(S^2) = \sigma^2$ を示す。

【ステップ1:便利な恒等式を使う】
以下の式が成り立つ: $$\sum_{i=1}^n (X_i – \bar{X})^2 = \sum_{i=1}^n (X_i – \mu)^2 – n(\bar{X} – \mu)^2$$ (証明は $(X_i – \bar{X}) = (X_i – \mu) – (\bar{X} – \mu)$ を展開すればできる)

【ステップ2:両辺の期待値を取る】 $$E\left[\sum_{i=1}^n (X_i – \bar{X})^2\right] = E\left[\sum_{i=1}^n (X_i – \mu)^2\right] – E\left[n(\bar{X} – \mu)^2\right]$$ 【ステップ3:各項を計算】
第1項:$E[(X_i – \mu)^2] = V(X_i) = \sigma^2$ なので、 $$E\left[\sum_{i=1}^n (X_i – \mu)^2\right] = n\sigma^2$$ 第2項:$E[(\bar{X} – \mu)^2] = V(\bar{X}) = \sigma^2/n$ なので、 $$E\left[n(\bar{X} – \mu)^2\right] = n \cdot \frac{\sigma^2}{n} = \sigma^2$$ 【ステップ4:結果を代入】 $$E\left[\sum_{i=1}^n (X_i – \bar{X})^2\right] = n\sigma^2 – \sigma^2 = (n-1)\sigma^2$$ 【ステップ5:$S^2$ の期待値を計算】 $$E(S^2) = E\left[\frac{1}{n-1}\sum_{i=1}^n (X_i – \bar{X})^2\right] = \frac{(n-1)\sigma^2}{n-1} = \sigma^2$$ 【結論】
$E(S^2) = \sigma^2$ なので、$S^2$ は $\sigma^2$ の不偏推定量である。

3.2 区間推定の理論

⭐ 信頼区間の正しい解釈

【よくある誤解】
❌「95%信頼区間 $(a, b)$ には、真の母数が95%の確率で含まれる」

【正しい解釈】
✅「この方法で100回信頼区間を作ったら、約95回は真の母数を含む」

【イメージ】
100回サンプリング → 100個の信頼区間

約95個は真の母数を含む
約5個は真の母数を含まない

真の母数は「固定された未知の値」であり、区間が「当たりかハズレか」を決めるのは標本の取り方です。

例題5:信頼区間の計算(母分散既知)

問題:正規母集団 $N(\mu, 100)$ から標本サイズ $n=25$ の標本を取り、標本平均が52だった。母平均 $\mu$ の95%信頼区間を求めよ。

解答:

【ステップ1:与えられた情報を整理】
・母分散 $\sigma^2 = 100$ → $\sigma = 10$
・標本サイズ $n = 25$
・標本平均 $\bar{X} = 52$
・信頼係数 $1 – \alpha = 0.95$

【ステップ2:標準誤差を計算】 $$SE = \frac{\sigma}{\sqrt{n}} = \frac{10}{\sqrt{25}} = \frac{10}{5} = 2$$ 【ステップ3:信頼区間の公式を適用】
母分散既知の場合、95%信頼区間は $$\bar{X} \pm z_{0.025} \times SE = \bar{X} \pm 1.96 \times SE$$ 【ステップ4:数値を代入】 $$52 \pm 1.96 \times 2 = 52 \pm 3.92$$ 【答え】 $(48.08, 55.92)$ 【解釈】
この方法で100回信頼区間を作ったら、約95回は真の母平均 $\mu$ を含む。

3.3 母分散未知の場合

t分布を使う信頼区間

【なぜt分布を使うのか?】
母分散 $\sigma^2$ が未知のとき、標本標準偏差 $S$ で代用する。
この追加の不確実性を反映するため、正規分布より裾が厚いt分布を使う。

【信頼区間の公式】 $$\bar{X} \pm t_{n-1, \alpha/2} \times \frac{S}{\sqrt{n}}$$ 【比較】
$\sigma$ 既知 $\sigma$ 未知
使う分布 正規分布 $N(0,1)$ t分布 $t(n-1)$
95%の係数 $z_{0.025} = 1.96$ $t_{n-1, 0.025}$($n$による)
信頼区間の幅 狭い 広い(不確実性が大きい)

4. 仮説検定の理論

4.1 検定の基本原理

⭐ 仮説検定の流れ(5ステップ)

Step 1 仮説を設定
帰無仮説 $H_0$ と対立仮説 $H_1$ を決める
Step 2 有意水準 $\alpha$ を設定(通常5%)
Step 3 検定統計量を計算
Step 4 p値を求める or 棄却域と比較
Step 5 判定:p値 < $\alpha$ なら $H_0$ を棄却

【考え方の本質】
「$H_0$ が正しい」と仮定して、観測データがどれだけ極端かを評価。
「あまりに極端」なら、$H_0$ が間違っている可能性が高い → 棄却

4.2 第一種の誤りと第二種の誤り

2つの誤りと検出力

$H_0$ を棄却 $H_0$ を棄却しない
$H_0$ が真 第一種の誤り
確率 = $\alpha$
正しい判断
確率 = $1-\alpha$
$H_1$ が真 正しい判断
確率 = $1-\beta$(検出力)
第二種の誤り
確率 = $\beta$

【トレードオフ】
$\alpha$ を小さくする → $\beta$ が大きくなる(検出力が下がる)
$\alpha$ を大きくする → $\beta$ が小さくなる(検出力が上がる)

例題6:母平均の検定(両側検定)

問題:ある製品の重量は平均500gであることが期待されている。25個のサンプルを取ったところ、標本平均498g、標本標準偏差5gだった。有意水準5%で、母平均が500gと言えるか検定せよ。

解答:

【Step 1:仮説を設定】 $$H_0: \mu = 500, \quad H_1: \mu \neq 500 \quad \text{(両側検定)}$$ 【Step 2:有意水準】
$\alpha = 0.05$

【Step 3:検定統計量を計算】
母分散未知なので、t検定を使う。 $$t = \frac{\bar{X} – \mu_0}{S/\sqrt{n}} = \frac{498 – 500}{5/\sqrt{25}} = \frac{-2}{5/5} = \frac{-2}{1} = -2.0$$ 【Step 4:棄却域と比較】
自由度 $n-1 = 24$、両側検定 $\alpha = 0.05$ の臨界値:
$t_{24, 0.025} = \pm 2.064$

【Step 5:判定】
$|t| = 2.0 < 2.064$ なので、棄却域に入らない。
→ $H_0$ を棄却できない

【結論】
有意水準5%で、母平均が500gであるという仮説は棄却できない。

【注意】
「棄却できない」≠「$H_0$ が正しい」
「差がないとは言い切れないが、有意な差は検出されなかった」という意味。

4.3 片側検定と両側検定の使い分け

片側検定 vs 両側検定

両側検定 片側検定
対立仮説 $H_1: \mu \neq \mu_0$ $H_1: \mu > \mu_0$ or $H_1: \mu < \mu_0$
使う場面 「違うか」を知りたい 「大きい(小さい)か」を知りたい
棄却域 両端(左右 $\alpha/2$ ずつ) 片端($\alpha$ 全体)
検出力 低め 高め(方向が決まっている)

【片側検定を使う条件】
・理論的に一方向しかありえない場合
・事前に「大きくなる」「小さくなる」と予想している場合
・データを見てから決めるのはNG(p-hacking)

5. 回帰分析の理論

5.1 単回帰分析の理論

最小二乗法の原理

【モデル】 $$y_i = \alpha + \beta x_i + \varepsilon_i$$ 回帰直線:$\hat{y} = a + bx$

【目的】
残差平方和 $Q = \sum(y_i – \hat{y}_i)^2$ を最小にする $a$, $b$ を求める。

【解】 $$b = \frac{S_{xy}}{S_{xx}} = \frac{\sum(x_i – \bar{x})(y_i – \bar{y})}{\sum(x_i – \bar{x})^2}$$ $$a = \bar{y} – b\bar{x}$$ 【導出方法】
$Q$ を $a$, $b$ でそれぞれ偏微分して0とおく: $$\frac{\partial Q}{\partial a} = 0, \quad \frac{\partial Q}{\partial b} = 0$$ この連立方程式を解くと、上の公式が得られる。

5.2 決定係数 $R^2$ の意味

決定係数(寄与率)

$$R^2 = 1 – \frac{\text{残差平方和}}{\text{総平方和}} = \frac{S_R}{S_T}$$ 【分解の意味】 $$\underbrace{\sum(y_i – \bar{y})^2}_{S_T:\text{総変動}} = \underbrace{\sum(\hat{y}_i – \bar{y})^2}_{S_R:\text{回帰による変動}} + \underbrace{\sum(y_i – \hat{y}_i)^2}_{S_E:\text{残差変動}}$$ 【解釈】
$R^2 = 0$ $x$ は $y$ を全く説明しない
$R^2 = 0.5$ $y$ の変動の50%が $x$ で説明できる
$R^2 = 1$ $x$ は $y$ を完全に説明する(全点が直線上)

【注意】
$R^2$ が高くても因果関係があるとは限らない
相関関係 ≠ 因果関係

例題7:回帰分析の計算

問題:以下のデータから回帰直線 $\hat{y} = a + bx$ を求めよ。

$x$: 1, 2, 3, 4, 5

$y$: 2, 4, 5, 4, 5

解答:

【ステップ1:平均を計算】 $$\bar{x} = \frac{1+2+3+4+5}{5} = 3$$ $$\bar{y} = \frac{2+4+5+4+5}{5} = 4$$ 【ステップ2:$S_{xx}$ を計算】 $$S_{xx} = \sum(x_i – \bar{x})^2 = (1-3)^2 + (2-3)^2 + (3-3)^2 + (4-3)^2 + (5-3)^2$$ $$= 4 + 1 + 0 + 1 + 4 = 10$$ 【ステップ3:$S_{xy}$ を計算】 $$S_{xy} = \sum(x_i – \bar{x})(y_i – \bar{y})$$ $$= (1-3)(2-4) + (2-3)(4-4) + (3-3)(5-4) + (4-3)(4-4) + (5-3)(5-4)$$ $$= (-2)(-2) + (-1)(0) + (0)(1) + (1)(0) + (2)(1)$$ $$= 4 + 0 + 0 + 0 + 2 = 6$$ 【ステップ4:傾き $b$ を計算】 $$b = \frac{S_{xy}}{S_{xx}} = \frac{6}{10} = 0.6$$ 【ステップ5:切片 $a$ を計算】 $$a = \bar{y} – b\bar{x} = 4 – 0.6 \times 3 = 4 – 1.8 = 2.2$$ 【答え】 $\hat{y} = 2.2 + 0.6x$ 【解釈】
$x$ が1増えると、$y$ は平均して0.6増える。

5.3 残差分析の重要性

⚠️ 回帰分析の4つの前提条件

前提 意味 確認方法
線形性 $x$ と $y$ の関係が直線的 散布図
独立性 残差が互いに独立 ダービン・ワトソン検定
等分散性 残差の分散が一定 残差プロット
正規性 残差が正規分布に従う Q-Qプロット

これらの前提が満たされない場合、回帰分析の結果は信頼できない!

📝 総合問題(40問)

問題 1

二項分布の性質

$X \sim B(10, 0.3)$ のとき、$P(X = 3)$ を求めよ。

解答:

【公式】 $$P(X = k) = {}_{n}C_k \cdot p^k \cdot (1-p)^{n-k}$$ 【代入】 $$P(X = 3) = {}_{10}C_3 \times 0.3^3 \times 0.7^7$$ $$= 120 \times 0.027 \times 0.0824$$ $$\approx 0.267$$
問題 2

二項分布の期待値と分散

$X \sim B(50, 0.4)$ のとき、$E(X)$ と $V(X)$ を求めよ。

解答:

$$E(X) = np = 50 \times 0.4 = 20$$ $$V(X) = np(1-p) = 50 \times 0.4 \times 0.6 = 12$$
問題 3

ポアソン分布

1時間に平均3件の電話がかかってくる。2時間で5件以上の電話がかかってくる確率を求めよ。

解答:

【ステップ1】 2時間での平均件数:$\lambda = 3 \times 2 = 6$

【ステップ2】 $$P(X \geq 5) = 1 – P(X \leq 4) = 1 – \sum_{k=0}^{4} \frac{6^k}{k!}e^{-6}$$ 【ステップ3】 各項を計算: $$= 1 – e^{-6}\left(1 + 6 + 18 + 36 + 54\right)$$ $$= 1 – e^{-6} \times 115$$ $$\approx 1 – 0.00248 \times 115 \approx 1 – 0.285 \approx 0.715$$
問題 4

正規分布の確率

$X \sim N(50, 100)$ のとき、$P(X \leq 60)$ を求めよ。

解答:

【標準化】 $$Z = \frac{X – \mu}{\sigma} = \frac{60 – 50}{\sqrt{100}} = \frac{10}{10} = 1$$ 【正規分布表より】 $$P(X \leq 60) = P(Z \leq 1) = 0.8413$$
問題 5

標準化

$X \sim N(100, 225)$ のとき、$P(85 \leq X \leq 115)$ を求めよ。

解答:

$\sigma = \sqrt{225} = 15$

【両端を標準化】 $$Z_1 = \frac{85 – 100}{15} = -1, \quad Z_2 = \frac{115 – 100}{15} = 1$$ 【確率を計算】 $$P(85 \leq X \leq 115) = P(-1 \leq Z \leq 1) = 0.6826$$
問題 6

標本平均の分布

母集団 $N(70, 64)$ から標本サイズ $n=16$ の標本を取る。標本平均 $\bar{X}$ の分布を答えよ。

解答:

$$\bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right) = N\left(70, \frac{64}{16}\right) = N(70, 4)$$ つまり、平均70、分散4(標準偏差2)の正規分布に従う。
問題 7

中心極限定理

平均50、標準偏差10の母集団から標本サイズ100の標本を取る。標本平均が52以上になる確率を求めよ。

解答:

中心極限定理より、 $$\bar{X} \sim N\left(50, \frac{100}{100}\right) = N(50, 1)$$ $$Z = \frac{52 – 50}{1} = 2$$ $$P(\bar{X} \geq 52) = P(Z \geq 2) = 1 – 0.9772 = 0.0228$$
問題 8

不偏分散

データ 2, 4, 6, 8, 10 の不偏分散を求めよ。

解答:

$$\bar{x} = \frac{2+4+6+8+10}{5} = 6$$ $$S^2 = \frac{\sum(x_i – \bar{x})^2}{n-1} = \frac{(2-6)^2 + (4-6)^2 + (6-6)^2 + (8-6)^2 + (10-6)^2}{4}$$ $$= \frac{16 + 4 + 0 + 4 + 16}{4} = \frac{40}{4} = 10$$
問題 9

信頼区間($\sigma$ 既知)

$N(\mu, 36)$ から $n=9$ の標本を取り、標本平均が50だった。母平均の95%信頼区間を求めよ。

解答:

$\sigma = 6$、標準誤差 $= \frac{6}{\sqrt{9}} = 2$

95%信頼区間: $$\bar{X} \pm 1.96 \times SE = 50 \pm 1.96 \times 2 = 50 \pm 3.92$$ $$= (46.08, 53.92)$$
問題 10

信頼区間($\sigma$ 未知)

標本サイズ25、標本平均100、標本標準偏差10のデータから、母平均の95%信頼区間を求めよ。

解答:

自由度24の $t_{0.025} = 2.064$
標準誤差 $= \frac{10}{\sqrt{25}} = 2$

95%信頼区間: $$100 \pm 2.064 \times 2 = 100 \pm 4.128 = (95.87, 104.13)$$
問題 11

母比率の信頼区間

200人中80人が賛成した。母比率の95%信頼区間を求めよ。

解答:

$$\hat{p} = \frac{80}{200} = 0.4$$ $$SE = \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} = \sqrt{\frac{0.4 \times 0.6}{200}} = \sqrt{0.0012} \approx 0.0346$$ 95%信頼区間: $$0.4 \pm 1.96 \times 0.0346 = 0.4 \pm 0.068 = (0.332, 0.468)$$
問題 12

母平均の検定(z検定)

母集団 $N(\mu, 100)$ から標本サイズ25を取り、標本平均が48だった。$\mu=50$ の検定を有意水準5%で行え。

解答:

$H_0: \mu = 50$, $H_1: \mu \neq 50$

$$z = \frac{48 – 50}{10/\sqrt{25}} = \frac{-2}{2} = -1.0$$ 臨界値:$\pm 1.96$
$|z| = 1.0 < 1.96$ より、$H_0$ を棄却できない。
問題 13

母平均の検定(t検定)

標本サイズ16、標本平均52、標本標準偏差4のデータで、$\mu=50$ の検定を有意水準5%で行え。

解答:

$H_0: \mu = 50$, $H_1: \mu \neq 50$

$$t = \frac{52 – 50}{4/\sqrt{16}} = \frac{2}{1} = 2.0$$ 自由度15、両側5%の臨界値:$\pm 2.131$
$|t| = 2.0 < 2.131$ より、$H_0$ を棄却できない。
問題 14

母比率の検定

過去の支持率は40%だった。200人の調査で90人が支持。支持率が変化したか、有意水準5%で検定せよ。

解答:

$H_0: p = 0.4$, $H_1: p \neq 0.4$
$\hat{p} = 90/200 = 0.45$

$$z = \frac{0.45 – 0.4}{\sqrt{0.4 \times 0.6 / 200}} = \frac{0.05}{\sqrt{0.0012}} = \frac{0.05}{0.0346} \approx 1.45$$ 臨界値:$\pm 1.96$
$|z| = 1.45 < 1.96$ より、$H_0$ を棄却できない。
問題 15

2標本t検定

A群($n=10$, $\bar{x}=50$, $s=5$)とB群($n=12$, $\bar{x}=48$, $s=4$)の平均に差があるか検定せよ(等分散を仮定、$\alpha=0.05$)。

解答:

プールした分散: $$s_p^2 = \frac{(n_1-1)s_1^2 + (n_2-1)s_2^2}{n_1+n_2-2} = \frac{9 \times 25 + 11 \times 16}{20} = \frac{401}{20} = 20.05$$ $$t = \frac{50 – 48}{\sqrt{20.05 \times (1/10 + 1/12)}} = \frac{2}{\sqrt{20.05 \times 0.183}} = \frac{2}{1.91} \approx 1.05$$ 自由度20、両側5%の臨界値:$\pm 2.086$
$|t| = 1.05 < 2.086$ より、$H_0$ を棄却できない。
問題 16

対応のあるt検定

ダイエット前後の体重データ:
前:70, 65, 68, 72, 75
後:68, 64, 66, 70, 73
体重が減少したか検定せよ($\alpha=0.05$、片側検定)。

解答:

差 $d_i$:2, 1, 2, 2, 2
$\bar{d} = 1.8$
$s_d = \sqrt{\frac{\sum(d_i – \bar{d})^2}{n-1}} = \sqrt{\frac{0.8}{4}} = \sqrt{0.2} \approx 0.447$

$$t = \frac{\bar{d}}{s_d/\sqrt{n}} = \frac{1.8}{0.447/\sqrt{5}} = \frac{1.8}{0.2} = 9.0$$ 自由度4、片側5%の臨界値:$2.132$
$t = 9.0 > 2.132$ より、$H_0$ を棄却。

結論:体重が有意に減少した。
問題 17

等分散性の検定(F検定)

A群($n=10$, $s^2=25$)とB群($n=15$, $s^2=16$)の母分散が等しいか検定せよ($\alpha=0.05$)。

解答:

$$F = \frac{s_1^2}{s_2^2} = \frac{25}{16} = 1.5625$$ 自由度 $(9, 14)$ のF分布、両側5%の臨界値:$F_{0.025} \approx 3.21$
$F = 1.5625 < 3.21$ より、$H_0$ を棄却できない。

結論:母分散が等しいという仮説は棄却できない。
問題 18

カイ二乗検定(適合度)

サイコロを60回振って、1が8回、2が9回、3が11回、4が12回、5が10回、6が10回出た。公正か検定せよ($\alpha=0.05$)。

解答:

期待度数:各10回
$$\chi^2 = \sum \frac{(O_i – E_i)^2}{E_i} = \frac{(8-10)^2 + (9-10)^2 + (11-10)^2 + (12-10)^2 + 0 + 0}{10}$$ $$= \frac{4 + 1 + 1 + 4 + 0 + 0}{10} = 1.0$$ 自由度5、$\alpha=0.05$ の臨界値:$11.07$
$\chi^2 = 1.0 < 11.07$ より、$H_0$ を棄却できない。
問題 19

カイ二乗検定(独立性)

性別と商品購入の関連を調べる:
   購入 非購入
男性 30 20
女性 20 30
独立か検定せよ($\alpha=0.05$)。

解答:

期待度数:各25
$$\chi^2 = \frac{(30-25)^2 + (20-25)^2 + (20-25)^2 + (30-25)^2}{25} = \frac{25+25+25+25}{25} = 4.0$$ 自由度1、$\alpha=0.05$ の臨界値:$3.841$
$\chi^2 = 4.0 > 3.841$ より、$H_0$ を棄却。

結論:性別と購入は独立ではない(関連がある)。
問題 20

単回帰分析(傾きの計算)

データ $(x, y)$:$(1, 2), (2, 3), (3, 5), (4, 4), (5, 6)$
回帰直線の傾き $b$ を求めよ。

解答:

$\bar{x} = 3$、$\bar{y} = 4$
$S_{xx} = 10$
$S_{xy} = (-2)(-2) + (-1)(-1) + 0 \times 1 + 1 \times 0 + 2 \times 2 = 4+1+0+0+4 = 9$

$$b = \frac{S_{xy}}{S_{xx}} = \frac{9}{10} = 0.9$$
問題 21-40

残り20問は省略表示

問題21〜40は、回帰分析、理論問題、応用問題が含まれます。

問題21:回帰直線の方程式($a$ の計算)
問題22:決定係数 $R^2$ の計算
問題23:相関係数の計算
問題24:回帰による予測
問題25:期待値の線形性
問題26:独立な確率変数の分散
問題27:共分散の公式の導出
問題28:チェビシェフの不等式
問題29:標本サイズの決定
問題30:p値の解釈
問題31:検出力の計算
問題32:標本分布の理論
問題33:分散分析の概念
問題34:交絡因子
問題35:無作為化の重要性
問題36:対照群の必要性
問題37:二重盲検法
問題38:標準誤差の意味
問題39:正規性の確認方法
問題40:統計的有意と実質的有意
📌 Step 1のまとめ
  • 2級の全範囲を理論的背景まで含めて理解した
  • 「なぜその公式が成り立つのか」を数学的に導出できるようになった
  • 統計的推測の理論的基礎(推定・検定)を固めた
  • 実務での注意点(交絡因子、バイアス、実質的有意性)を理解した
  • 準1級で必要な理論的思考力の土台ができた

この土台の上に、準1級の高度な理論を積み上げていきます!

📝

学習メモ

統計検定準1級対策 - Step 1

📋 過去のメモ一覧
#artnasekai #学習メモ
LINE