STEP 7:推定の発展(母比率の推定)

📊 STEP 7: 推定の発展(母比率の推定)

母比率の信頼区間と標本サイズの決定をマスターしよう

📖 このステップで学ぶこと

母比率の推定を学びます。世論調査や品質管理で頻繁に使われる重要な手法です。

📝 練習問題: 15問
🎯 到達目標: 母比率の信頼区間が計算できる、必要な標本サイズが計算できる、標本サイズと精度の関係を理解する

1️⃣ 母比率の信頼区間の計算

母比率とは

母比率(population proportion)
母集団において、ある特性を持つ要素の割合

記号: p

例:
• 不良品率
• 支持率
• 賛成率
• 有病率

標本比率

標本比率(sample proportion)
標本における比率

記号: p(ピーハット、p-hat と読む)
※ pの上に「^」がついた記号。推定値を表す。

計算: p = X / n
X: ある特性を持つ標本の個数
n: 標本サイズ

性質:
E(p) = p(不偏推定量)
V(p) = p(1-p)/n

母比率の信頼区間

母比率pの信頼区間

nが十分大きいとき(np≥5, n(1-p)≥5)、
標本比率pは近似的に正規分布に従う

信頼区間:
p – z(α/2)×√[p(1-p)/n] ≤ p ≤ p + z(α/2)×√[p(1-p)/n]

または

p ± z(α/2)×√[p(1-p)/n]
例題1: 400人の有権者を調査したら、160人が賛成だった。
母比率pの95%信頼区間を求めなさい。
解答: [0.352, 0.448](約35.2%〜44.8%)



【ステップ1: 与えられた情報を整理】
・調査対象: n = 400人
・賛成者数: X = 160人
・信頼係数: 95%(α = 0.05)
・求めるもの: 母比率pの信頼区間



【ステップ2: 標本比率を計算】

p-hat = X / n
= 160 / 400
= 0.4(40%)



【ステップ3: 正規近似の条件を確認】

np-hat = 400 × 0.4 = 160 ≥ 5 ✓
n(1-p-hat) = 400 × 0.6 = 240 ≥ 5 ✓

両方満たすので正規近似が使える!



【ステップ4: 使う公式を確認】

p-hat ± z(α/2) × √[p-hat(1-p-hat)/n]



【ステップ5: z値を確認】

95%信頼区間なので:
α = 0.05, α/2 = 0.025
z(0.025) = 1.96



【ステップ6: 標準誤差を計算】

SE = √[p-hat(1-p-hat)/n]

まず p-hat(1-p-hat) を計算:
= 0.4 × 0.6 = 0.24

次に n で割る:
= 0.24 / 400 = 0.0006

最後に平方根:
SE = √0.0006 = 0.0245



【ステップ7: 誤差(margin of error)を計算】

E = z × SE
= 1.96 × 0.0245
= 0.048(約4.8%)



【ステップ8: 信頼区間を計算】

下側信頼限界:
p-hat – E = 0.4 – 0.048 = 0.352

上側信頼限界:
p-hat + E = 0.4 + 0.048 = 0.448



【答え】
95%信頼区間: [0.352, 0.448]
または [35.2%, 44.8%]



【結果の解釈】
「同じ方法で100回調査すれば、
約95回は真の賛成率がこの区間
[35.2%, 44.8%]に含まれる」

※「賛成率が35〜45%の間」という
 ニュースの報道でよく見る表現!



【計算のまとめ】
標本比率: p-hat = 160/400 = 0.4
標準誤差: SE = √[0.4×0.6/400] = 0.0245
誤差: E = 1.96 × 0.0245 = 0.048
信頼区間: 0.4 ± 0.048 = [0.352, 0.448]
💡 母比率の信頼区間のポイント
正規近似: nが大きいときpは正規分布に
条件: np≥5 かつ n(1-p)≥5
標準誤差: √[p(1-p)/n]
母比率を含む: pを使って推定

2️⃣ 標本サイズの決定方法

誤差の許容範囲

誤差(margin of error)
E = z(α/2)×√[p(1-p)/n]

これを指定した値E以下にするには?

必要な標本サイズの計算

標本サイズの決定

E = z(α/2)×√[p(1-p)/n] から

n = [z(α/2)]² × p(1-p) / E²

pが未知の場合:
p = 0.5 を使う(最も保守的な推定)

n = [z(α/2)]² × 0.25 / E²

p(1-p)はp=0.5のとき最大(0.25)
例題2: 支持率の調査で、95%信頼区間の誤差を±3%以内にしたい。
必要な標本サイズは?
解答: 1068人



【ステップ1: 与えられた情報を整理】
・許容誤差: E = ±3% = 0.03
・信頼係数: 95%(α = 0.05)
・母比率の事前情報: なし → p-hat = 0.5を使用
・求めるもの: 必要な標本サイズn



【ステップ2: 使う公式を確認】

n = z² × p-hat(1-p-hat) / E²

事前情報がないので p-hat = 0.5 を使用

n = z² × 0.25 / E²



【ステップ3: z値を確認】

95%信頼区間なので:
z(0.025) = 1.96



【ステップ4: 各値を代入して計算】

z²を計算:
z² = (1.96)² = 3.8416

E²を計算:
E² = (0.03)² = 0.0009

nを計算:
n = 3.8416 × 0.25 / 0.0009
= 0.9604 / 0.0009
= 1067.1…



【ステップ5: 切り上げる】

標本サイズは整数なので切り上げ:
n = 1068人

【なぜ切り上げ?】
切り捨てると誤差が指定値を超える可能性があるため



【答え】
必要な標本サイズ: 1068人



【実務での示唆】
世論調査で「誤差±3%」と報道されるとき、
約1000人程度の調査が行われている!

よく見る調査規模の目安:
・誤差±5% → 約400人
・誤差±3% → 約1100人
・誤差±2% → 約2400人
・誤差±1% → 約9600人



【検算】
n = 1068で実際の誤差を確認:
E = 1.96 × √(0.25/1068)
= 1.96 × √0.000234
= 1.96 × 0.0153
= 0.030 = 3.0% ✓
⚡ なぜp=0.5を使うのか?

p(1-p)は p=0.5 のとき最大値 0.25

これを使うと、最も保守的(安全側)な推定になる
実際のpがいくつでも、誤差は指定値以下になる!
p(1-p)の値の変化】

p-hat = 0.1 → 0.1×0.9 = 0.09
p-hat = 0.2 → 0.2×0.8 = 0.16
p-hat = 0.3 → 0.3×0.7 = 0.21
p-hat = 0.4 → 0.4×0.6 = 0.24
p-hat = 0.5 → 0.5×0.5 = 0.25 ← 最大!
p-hat = 0.6 → 0.6×0.4 = 0.24
p-hat = 0.7 → 0.7×0.3 = 0.21
        
p = 0.5のとき最大なので、
これを使えば「最悪のケース」に備えられる
例題3: 不良品率が約10%と予想される。
95%信頼区間の誤差を±2%以内にするには?
解答: 865個



【ステップ1: 与えられた情報を整理】
・許容誤差: E = ±2% = 0.02
・信頼係数: 95%(α = 0.05)
・事前情報: p-hat ≈ 0.1(10%と予想)
・求めるもの: 必要な標本サイズn



【ステップ2: 事前情報を使う利点】

p-hat = 0.5 を使う場合:
p-hat(1-p-hat) = 0.25

p-hat = 0.1 を使う場合:
p-hat(1-p-hat) = 0.1 × 0.9 = 0.09

0.09 < 0.25 なので、必要なnが少なくて済む!



【ステップ3: 公式に代入】

n = z² × p-hat(1-p-hat) / E²

z² = (1.96)² = 3.8416
p-hat(1-p-hat) = 0.1 × 0.9 = 0.09
E² = (0.02)² = 0.0004



【ステップ4: 計算】

n = 3.8416 × 0.09 / 0.0004
= 0.3457 / 0.0004
= 864.4…



【ステップ5: 切り上げる】

n = 865個



【答え】
必要な標本サイズ: 865個



【p-hat = 0.5を使った場合との比較】
事前情報なし(p-hat = 0.5)の場合:
n = 3.8416 × 0.25 / 0.0004 = 2401個

事前情報あり(p-hat = 0.1)の場合:
n = 865個

→ 事前情報を使うと、サンプルサイズが
  約1/3で済む!(コスト削減)



【注意点】
事前情報が外れた場合のリスク:
・予想10%だったが実際は40%だった場合、
  誤差が±2%を超える可能性あり
・安全を優先するなら p-hat = 0.5 を使う

3️⃣ 標本サイズと信頼区間の幅の関係

サンプルサイズの効果

誤差 E ∝ 1/√n

• nを4倍にすると、誤差は1/2に
• nを9倍にすると、誤差は1/3に
• nを100倍にすると、誤差は1/10に

精度を上げるには大きなサンプルが必要!
例題4: 現在n=400で誤差が±5%。
誤差を±2.5%(半分)にするには、nをいくつにすればよいか?
解答: 1600



【ステップ1: 与えられた情報を整理】
・現在のサンプルサイズ: n = 400
・現在の誤差: E = ±5%
・目標の誤差: E' = ±2.5%(現在の1/2)
・求めるもの: 必要なサンプルサイズn'



【ステップ2: 誤差とサンプルサイズの関係を確認】

E ∝ 1/√n

つまり:
E × √n = 定数



【ステップ3: 関係式を立てる】

現在: E × √n = k(定数)
目標: E’ × √n’ = k

両方とも同じ定数kなので:
E × √n = E’ × √n’



【ステップ4: n’を求める】

E’ = E/2 なので:

E × √400 = (E/2) × √n’
E × 20 = (E/2) × √n’
20 = (1/2) × √n’
√n’ = 40
n’ = 1600



【答え】
必要なサンプルサイズ: 1600



【別解: 倍率で考える】
誤差を 1/k 倍にするには、nを k² 倍

誤差を 1/2 倍(半分)にしたい
→ nを 2² = 4倍
→ n' = 400 × 4 = 1600



【一般的な関係】
誤差を 1/2 にする → n を 4倍
誤差を 1/3 にする → n を 9倍
誤差を 1/4 にする → n を 16倍
誤差を 1/10 にする → n を 100倍

※精度を上げるのはコストがかかる!



【検算】
n = 400 のとき: E = z × √(p-hat(1-p-hat)/400)
n = 1600 のとき: E' = z × √(p-hat(1-p-hat)/1600)

E'/E = √(400/1600) = √(1/4) = 1/2 ✓
💡 実務での活用
• 精度とコストのトレードオフを理解する
• 「誤差を半分にしたい」→ 4倍のサンプルが必要
• 予算に応じて達成可能な精度を逆算する

📝 練習問題(15問)

このステップの理解度を確認しましょう。12問以上正解できれば次のステップへ進めます。

問題 1

標本比率

n=200でXの個数が60個のとき、標本比率p-hatは?

解答: 0.3(30%)

【解き方】
p-hat = X/n = 60/200 = 0.3
問題 2

標本比率の期待値

標本比率p-hatの期待値E(p-hat)は?

解答: p(母比率)

【解き方】
E(p-hat) = p なので不偏推定量
(期待値が母数に等しい)
問題 3

正規近似の条件

標本比率を正規近似するための条件は?

解答: np-hat≥5 かつ n(1-p-hat)≥5

【解き方】
両方の条件を満たす必要がある
(成功・失敗の回数がともに5以上)
問題 4

標準誤差の計算

n=100, p-hat=0.4 のとき、標本比率の標準誤差は?

解答: 0.049

【解き方】
SE = √[p-hat(1-p-hat)/n]
= √[0.4×0.6/100]
= √[0.24/100]
= √0.0024 = 0.049
問題 5

信頼区間の計算

n=500, p-hat=0.3 のとき、母比率pの95%信頼区間は?

解答: [0.260, 0.340]

【解き方】
SE = √[0.3×0.7/500] = √0.00042 = 0.0205
E = 1.96×0.0205 = 0.040
0.3 ± 0.040 = [0.260, 0.340]
問題 6

標本サイズの決定

95%信頼区間で誤差を±4%以内にするとき、必要なnは?(p-hat未知)

解答: 601人

【解き方】
n = z²×p-hat(1-p-hat)/E²
= (1.96)²×0.25/(0.04)²
= 3.8416×0.25/0.0016
= 600.25 → 切り上げて601人
問題 7

保守的推定

事前情報がないとき、標本サイズ計算でp-hatに何を使うか?

解答: 0.5

【解き方】
p-hat(1-p-hat)が最大になり、最も保守的
0.5×0.5 = 0.25(最大値)
問題 8

誤差の最大値

p-hat(1-p-hat)が最大となるp-hatの値は?

解答: 0.5

【解き方】
p-hat=0.5のとき、p-hat(1-p-hat)=0.25で最大
(2次関数の頂点)
問題 9

サンプルサイズと誤差

誤差を1/3にするには、サンプルサイズを何倍にすればよいか?

解答: 9倍

【解き方】
E ∝ 1/√n より
誤差を1/k倍 → nをk²倍
1/3倍 → 3² = 9倍
問題 10

世論調査

1000人調査でp-hat=0.52。95%信頼区間の誤差(片側)は?

解答: 約0.031(3.1%)

【解き方】
SE = √[0.52×0.48/1000]
= √0.0002496 = 0.0158
E = 1.96×0.0158 ≈ 0.031
問題 11

99%信頼区間

99%信頼区間でE=0.05、p-hat=0.5のとき、必要なnは?

解答: 666人

【解き方】
z = 2.58(99%信頼区間)
n = (2.58)²×0.25/(0.05)²
= 6.6564×0.25/0.0025
= 665.64 → 切り上げて666人
問題 12

不良品率

n=200で不良品8個。不良品率の95%信頼区間は?

解答: [0.013, 0.067]

【解き方】
p-hat = 8/200 = 0.04
SE = √[0.04×0.96/200] = 0.0138
E = 1.96×0.0138 = 0.027
0.04 ± 0.027 = [0.013, 0.067]
問題 13

標本サイズと精度

n=400から n=1600に増やすと、誤差は何倍になるか?

解答: 1/2倍

【解き方】
E ∝ 1/√n より
√400 = 20, √1600 = 40
比率: 20/40 = 1/2
誤差は1/2になる
問題 14

事前情報の利用

p-hat≈0.2が予想されるとき、p-hat=0.5と比べてサンプルサイズは?

解答: 少なくて済む

【解き方】
0.2×0.8 = 0.16
0.5×0.5 = 0.25
0.16 < 0.25 なので
より小さいnで同じ精度が得られる
問題 15

総合問題

n=900, X=270。母比率pの90%信頼区間は?(z=1.645)

解答: [0.275, 0.325]

【解き方】
p-hat = 270/900 = 0.3
SE = √[0.3×0.7/900] = √0.000233 = 0.0153
E = 1.645×0.0153 = 0.025
0.3 ± 0.025 = [0.275, 0.325]

⚠️ よくあるつまずきポイントと対策

標本比率と母比率を混同

対策: 記号を覚えましょう。

  • p: 母比率(推定したい真の値)
  • p-hat: 標本比率(データから計算する値)
  • p-hat(pハット)は「推定値」を表す

正規近似の条件を忘れる

対策: 計算前に必ず確認しましょう。

  • np-hat ≥ 5 かつ n(1-p-hat) ≥ 5
  • この条件を満たさないと正規近似は不正確
  • 小さいnでは別の方法(正確法など)を使う

標本サイズを切り捨ててしまう

対策: 必ず切り上げましょう。

  • n = 1067.1 → 1068(切り上げ)
  • 切り捨てると誤差が指定値を超える可能性
  • 安全側に倒す

誤差とサンプルサイズの関係を間違える

対策: E ∝ 1/√n を覚えましょう。

  • 誤差を1/2にする → nを4倍
  • 誤差を1/k倍にする → nをk²倍
  • 精度向上にはコストがかかる!

📚 このステップのまとめ

🎯 学習したこと

  • 標本比率: p-hat = X/n、E(p-hat) = p
  • 母比率の信頼区間: p-hat ± z×√[p-hat(1-p-hat)/n]
  • 正規近似の条件: np-hat≥5 かつ n(1-p-hat)≥5
  • 標本サイズ決定: n = z²×p-hat(1-p-hat)/E²
  • 保守的推定: p-hat未知なら0.5を使用
  • 誤差と精度: E ∝ 1/√n
💡 次のステップへ進む前に
練習問題で12問以上(80%以上)正解できたら、STEP 8に進みましょう!

母比率の推定は世論調査や品質管理で頻繁に使います。
標本サイズの決定方法は実務で特に重要です!
📝

学習メモ

統計検定2級対策 - Step 7

📋 過去のメモ一覧
#artnasekai #学習メモ
LINE