🔍 STEP 8: 統計的推測の入門
母集団と標本の違いを理解し、データから全体を推測する方法を学ぼう
📖 このステップで学ぶこと
このステップでは、統計的推測の基礎を学びます。母集団と標本の違い、全数調査と標本調査、無作為抽出の重要性、標本平均の意味など、データから全体を推測するために必要な概念を理解します。
🎯 到達目標: 母集団と標本の違いを説明でき、無作為抽出の重要性を理解し、標本平均の意味を説明できる
1️⃣ 母集団と標本の違い
統計学では、調べたい対象全体と実際に調査する一部を区別します。
母集団(population)
調査対象全体、知りたい対象すべて
例:
• 日本全国の20歳以上の成人全員
• ある工場で作られた製品すべて
• ○○高校の全生徒
• 東京都内の全レストラン
母集団は通常、非常に大きく、すべてを調べるのは困難です。
標本(sample)
母集団から抜き出した一部、実際に調査するデータ
例:
• 日本全国から選ばれた1000人
• 工場の製品から無作為に選んだ100個
• ○○高校から選ばれた1クラス
• 東京都内から選ばれた50店舗
標本を調べて、母集団全体の性質を推測します。
「ある中学校の1年生全員(300人)の身長を知りたいが、
時間がないので1組(30人)だけ測定した」
母集団: 1年生全員(300人)
標本: 1組の生徒(30人)
【判断のポイント】
ステップ1: 「知りたい対象」は何か?
→ 「1年生全員の身長を知りたい」
→ 知りたい対象全体 = 1年生全員(300人)
→ これが母集団
ステップ2: 「実際に調べた対象」は何か?
→ 「1組だけ測定した」
→ 実際に調べた一部 = 1組(30人)
→ これが標本
【図で表すと】
┌─────────────────────┐
│ 1年生全員(300人) │ ← 母集団
│ ┌───────┐ │
│ │1組(30人)│ │ ← 標本
│ └───────┘ │
└─────────────────────┘
【なぜ標本を調べるのか?】
300人全員を測定する時間がないため、
30人の結果から300人全体を推測します。
この場合の母集団と標本は?
母集団: 日本の有権者全員
標本: 選ばれた2000人
【判断のポイント】
ステップ1: 「知りたい対象」は何か?
→ 「日本の有権者の意見を知りたい」
→ 日本の有権者全員(数千万人)が母集団
ステップ2: 「実際に調べた対象」は何か?
→ 「2000人を選んで調査した」
→ 選ばれた2000人が標本
【規模感の比較】
• 母集団: 約1億人(有権者数)
• 標本: 2000人
• 割合: 約0.002%
【ポイント】
たった0.002%の人を調べるだけで、
全体の傾向をかなり正確に推測できます。
これが統計学の力です!
母集団パラメータと標本統計量
母集団全体の特性値(真の値)
• 母平均: μ(ミュー)
• 母分散: σ²(シグマの2乗)
• 母標準偏差: σ(シグマ)
標本統計量
標本から計算される値(推定値)
• 標本平均: x(エックスバー)
• 標本分散: s²
• 標本標準偏差: s
関係:
標本統計量を使って、母集団パラメータを推定します
• 母集団: 調べたい対象全体(大きい)
• 標本: 実際に調査する一部(小さい)
• 標本を調べて母集団を推測する
• 良い標本 = 母集団をよく代表している標本
2️⃣ 全数調査と標本調査
データを集める方法には、全数調査と標本調査の2種類があります。
全数調査(census)
母集団のすべてを調べる調査
例:
• 国勢調査(全国民を対象)
• 学校のテスト(全員受験)
• 製品の全数検査
メリット:
✓ 正確な値がわかる(誤差がない)
✓ 母集団の真の値が得られる
デメリット:
✗ 時間がかかる
✗ 費用が高い
✗ 母集団が大きいと実施不可能
✗ 破壊検査(製品を壊して調べる)の場合は不可能
標本調査(sampling survey)
母集団の一部(標本)だけを調べて、全体を推測する調査
例:
• 視聴率調査(一部の世帯のみ)
• 世論調査(数千人だけ)
• 製品の抜き取り検査
メリット:
✓ 時間が短い
✓ 費用が安い
✓ 大きな母集団でも実施可能
✓ 破壊検査でも実施可能
デメリット:
✗ 推測に誤差が生じる
✗ 標本の選び方で結果が変わる
(1) ある工場で作った電池の寿命を調べるため、100個を取り出して調べた
(2) クラス全員の数学のテストの平均点を出すため、全員のテストを採点した
(1) 標本調査
(2) 全数調査
【(1) 電池の寿命調査】
判断のポイント:
• 工場で作った電池「すべて」を調べた? → いいえ
• 「100個を取り出して」= 一部だけ調べた
答え: 標本調査
なぜ全数調査をしないのか?
• 電池の寿命を調べる = 電池を使い切る = 破壊検査
• 全部調べたら、売る電池がなくなってしまう!
• 破壊検査では標本調査が必須
—
【(2) クラスのテスト採点】
判断のポイント:
• クラス「全員」のテストを採点した? → はい
• 母集団(クラス全員)をすべて調べている
答え: 全数調査
なぜ全数調査ができるのか?
• 母集団が小さい(クラスは数十人程度)
• 採点しても破壊されない
• 正確な平均点を出す必要がある
(1) 薬の副作用を調べる
(2) 選挙の投票結果を集計する
(1) 標本調査
(2) 全数調査
【(1) 薬の副作用調査】
答え: 標本調査が適している
理由:
• まだ安全性が確認されていない薬を全員に投与するのは危険
• まず一部の人(治験参加者)で試す必要がある
• 副作用が見つかった場合、全員に投与していたら大惨事
実際の流れ:
少人数で試験 → 問題なければ人数を増やす → 最終的に承認
—
【(2) 選挙の投票結果】
答え: 全数調査が適している(必須)
理由:
• 選挙は国民全員の意思を反映する必要がある
• 「一部の人の投票だけで決める」は民主主義に反する
• 1票の差で結果が変わることもある
• 正確さが最優先される場面
補足:
ただし「出口調査」(当選予測)は標本調査です。
最終結果は必ず全数調査(全投票の集計)で決まります。
どちらを選ぶべきか?
• 母集団が小さい
• 正確な値が必要
• 誤差が許されない
• 法律で義務付けられている
標本調査を選ぶべき場合:
• 母集団が非常に大きい
• 時間や予算に制約がある
• 破壊検査(調べると壊れる)
• おおよその推測で十分
• 全数調査: すべて調べる → 正確だが時間・費用がかかる
• 標本調査: 一部だけ調べる → 速く安いが誤差がある
• 状況に応じて適切な方法を選ぶ
3️⃣ 無作為抽出の重要性
標本調査で正しい推測をするには、標本の選び方が非常に重要です。
無作為抽出(random sampling)
母集団から偏りなく、ランダムに標本を選ぶ方法
ポイント:
• すべての個体が等しい確率で選ばれる
• 選ぶ人の意思や好みが入らない
• くじ引きや乱数表を使う
例:
• クラスから5人選ぶとき、くじ引きで選ぶ
• 製品から100個選ぶとき、コンピュータで乱数を使って選ぶ
• 電話番号をランダムに選んで調査する
バイアス(偏り)
標本が母集団を正しく代表していない状態
悪い例(偏った抽出):
✗ 駅前だけで調査する → 通勤・通学する人に偏る
✗ 昼間だけ調査する → 仕事をしていない人に偏る
✗ インターネットだけで調査 → ネット利用者に偏る
✗ 自分の友達だけに聞く → 似た考えの人に偏る
結果:
偏った標本から得た結果は、母集団全体を正しく反映しない
(1) クラスの出席番号が1〜5番の人を選ぶ
(2) クラス全員の名前を書いた紙をよく混ぜて、5枚引く
(1) 無作為抽出ではない ✗
(2) 無作為抽出である ○
【(1) 出席番号1〜5番を選ぶ】
判断: 無作為抽出ではない ✗
理由:
• 出席番号が若い人「だけ」が選ばれる
• 6番以降の人は絶対に選ばれない
• 全員に等しい確率で選ばれるチャンスがない
具体的な問題:
• 出席番号が五十音順の場合 → 「あ」行の人だけになる
• 名前と性格・能力に関係があるわけではないが、偏りがある
—
【(2) 名前を書いた紙をよく混ぜて引く】
判断: 無作為抽出である ○
理由:
• 全員の名前が紙に書かれている
• よく混ぜることで、どの紙が引かれるかはランダム
• 誰が選ばれるかは完全に偶然で決まる
• すべての人が等しい確率(5/全員)で選ばれる
ポイント:
「よく混ぜる」が重要!混ぜ方が不十分だと偏りが生じます。
この調査方法の問題点は?
【問題点を分析】
問題点1: 場所の偏り
• 昼休みに図書室にいる生徒「だけ」が対象
• 校庭で遊んでいる生徒は含まれない
• 教室で友達とおしゃべりしている生徒も含まれない
問題点2: 給食との関係で偏る可能性
• 給食を食べずに弁当を持ってきた人が図書室にいるかも
• 給食が嫌いで早く食べ終わって図書室に来た人がいるかも
• 給食を楽しんでいる人は食堂にいる時間が長いかも
問題点3: 図書室利用者の特性
• 読書が好きな人に偏る
• 静かな場所を好む人に偏る
【結論】
この調査結果は「図書室にいる生徒の意見」であり、
「学校全体の生徒の意見」とは言えません。
【改善策】
• 全校生徒の中からランダムに選ぶ(くじ引きなど)
• 各クラスから無作為に数人ずつ選ぶ
• 全員にアンケート用紙を配る(回収率に注意)
層別抽出(stratified sampling)
母集団をいくつかのグループ(層)に分けてから、
各層から無作為に抽出する方法
例:
• 学年ごとに分けて、各学年から無作為に選ぶ
• 地域ごとに分けて、各地域から無作為に選ぶ
• 年齢層ごとに分けて、各年齢層から無作為に選ぶ
メリット:
• 各層の特徴を反映できる
• より正確な推測が可能
各学年から10人ずつ選ぶ方法と、全校から無作為に30人選ぶ方法、どちらが良いですか?
【2つの方法を比較】
方法A: 全校から無作為に30人選ぶ
• 各学年が選ばれる確率:
- 1年生: 300/700 = 約43%
- 2年生: 200/700 = 約29%
- 3年生: 200/700 = 約29%
• 問題点:
- 30人中、1年生が15人、3年生が5人になる可能性もある
- 学年によって意見が違う場合、偏りが生じる
- 極端な例: 全員1年生になってしまう可能性もゼロではない
—
方法B: 各学年から10人ずつ選ぶ(層別抽出)
• 必ず各学年10人ずつ含まれる
• 学年ごとの意見がバランスよく反映される
【結論】
学年によって意見が異なる可能性を考慮すると、
方法B(層別抽出)の方が良い調査ができます。
【さらに良い方法】
人数比を反映させたい場合:
• 1年生: 30人 × (300/700) ≒ 13人
• 2年生: 30人 × (200/700) ≒ 9人
• 3年生: 30人 × (200/700) ≒ 8人
このように調整することも可能です。
• 無作為抽出: すべての個体が等確率で選ばれる
• バイアス: 偏った抽出は正しい推測ができない
• くじ引きや乱数を使う
• 特定の場所・時間・方法だけに頼らない
• 必要に応じて層別抽出を使う
4️⃣ 標本平均の意味
標本から計算した平均(標本平均)には、重要な性質があります。
標本平均(sample mean)
標本のデータの平均値
記号: x(エックスバー)
計算式:
x = (x₁ + x₂ + … + xₙ) ÷ n
n: 標本サイズ(標本の個数)
x₁, x₂, …, xₙ: 各データの値
152cm、158cm、165cm、160cm、155cm でした。
標本平均を求めなさい。
【計算の手順】
ステップ1: データを確認する
• x₁ = 152cm
• x₂ = 158cm
• x₃ = 165cm
• x₄ = 160cm
• x₅ = 155cm
• n = 5(標本サイズ)
ステップ2: すべてのデータを足す
152 + 158 + 165 + 160 + 155 = 790
ステップ3: 標本サイズで割る
x = 790 ÷ 5 = 158cm
【この結果の意味】
• この5人の平均身長は158cm
• 1年生全員(母集団)の平均身長は不明だが、158cm前後と推測できる
• ただし、別の5人を選べば違う値になる可能性がある
標本平均の性質
1. 不偏性(unbiasedness)
無作為抽出で得た標本平均の平均は、母平均に等しい
E(x) = μ
→ 何度も標本を取って平均を計算すると、母平均μに近づく
2. 標本サイズと精度
• 標本サイズ(n)が大きいほど、標本平均は母平均に近くなる
• nが大きいほど、推測の精度が上がる
3. 標本ごとに変わる
• 標本が変われば、標本平均も変わる
• これを「標本誤差」または「サンプリング誤差」という
100個の製品を無作為に選んで測ったところ、標本平均は498gでした。
この結果について正しい説明を選びなさい。
(1) 工場の製品は軽すぎるので、改善が必要だ
(2) 標本誤差によるもので、問題ない可能性がある
【なぜ(1)は正しくないのか?】
標本誤差について理解する:
• 標本平均は、選んだ標本によって変わる
• 今回選んだ100個がたまたま少し軽かっただけかもしれない
• 別の100個を選べば、502gになるかもしれない
数値で考える:
• 母平均: 500g
• 標本平均: 498g
• 差: 2g(0.4%の差)
この程度の差は標本誤差の範囲内と考えられます。
【どういう場合に問題があると言えるか?】
• 何度測っても常に498g以下の場合
• 差が大きい場合(例: 490g)
• 統計的検定を行って「有意に異なる」と判定された場合
【結論】
1回の標本調査で2gの差があっただけでは、
「製品に問題がある」とは断言できません。
標本サイズと標本平均
記号: n
標本サイズが大きいと:
✓ 標本平均が母平均に近くなる
✓ 推測の精度が高くなる
✓ 信頼性が上がる
標本サイズが小さいと:
✗ 標本平均がばらつきやすい
✗ 推測の精度が低い
✗ たまたま偏った標本を選ぶ可能性がある
例:
• n = 10 より n = 100 の方が信頼できる
• n = 100 より n = 1000 の方がさらに信頼できる
(1) 仲の良い友達3人の身長を測る
(2) くじ引きで選んだ10人の身長を測る
【2つの方法を比較】
方法(1): 仲の良い友達3人
問題点①: バイアス(偏り)がある
• 仲の良い友達 = 似た属性の可能性が高い
• 同じ部活(バスケ部なら背が高い人が多い)
• 似た趣味を持つグループ
問題点②: 標本サイズが小さい
• たった3人では、たまたまの偏りが大きい
• 1人の値が極端だと、平均が大きくずれる
—
方法(2): くじ引きで選んだ10人
良い点①: 無作為抽出
• くじ引き = 全員に等しいチャンスがある
• 偏りなく選べる
良い点②: 標本サイズが大きい
• 3人より10人の方が信頼性が高い
• 極端な値の影響を受けにくい
【結論】
「無作為抽出」かつ「十分な標本サイズ」の方法(2)が良いです。
【さらに良くするには】
• 10人より20人以上の方がより信頼できる
• できればクラス全員を測る(全数調査)のが最も正確
• 標本平均xで母平均μを推測する
• 無作為抽出なら、標本平均の平均 = 母平均
• 標本サイズnが大きいほど精度が高い
• 標本が変われば標本平均も変わる(標本誤差)
📝 練習問題(10問)
このステップの理解度を確認しましょう。
母集団と標本の判別
「日本の高校生全員の平均睡眠時間を知りたいため、1000人を選んで調査した」
この場合の母集団と標本をそれぞれ答えなさい。
母集団: 日本の高校生全員
標本: 選ばれた1000人
解説:
「知りたい対象全体」= 日本の高校生全員 → 母集団
「実際に調べた一部」= 選ばれた1000人 → 標本
母集団パラメータと標本統計量
母平均を表す記号と、標本平均を表す記号をそれぞれ答えなさい。
母平均: μ(ミュー)
標本平均: x(エックスバー)
解説:
母集団の真の値はギリシャ文字(μ, σなど)で表し、
標本から計算した値はアルファベット(x, sなど)で表します。
母集団と標本の関係
標本を調べる目的は何ですか?簡潔に答えなさい。
解説:
母集団全体を調べることは困難なことが多いため、
標本を調べて、母集団の特性(母平均など)を推測します。
調査方法の判別
「工場で作られた電球の寿命を調べるため、100個を点灯させて何時間で切れるか調べた」
これは全数調査と標本調査のどちらですか?
解説:
工場で作られた電球すべてではなく、一部(100個)だけを調べています。
また、寿命を調べると電球が切れてしまうため、全数調査は不可能です(破壊検査)。
全数調査のメリット
全数調査の最大のメリットは何ですか?
解説:
全数調査では推測ではなく、母集団の真の値が得られます。
誤差がなく、確実な結果が得られるのが最大のメリットです。
標本調査が適している場合
次のうち、標本調査が適している場合はどれですか?
(1) 学校のクラス全員のテスト結果
(2) 食品の味見調査
(3) 選挙の投票結果
解説:
(1) クラス全員なら人数が少ないので全数調査が可能
(2) すべての食品を食べることはできない(破壊検査)→ 標本調査
(3) 選挙は全員の意思を正確に反映する必要がある → 全数調査
無作為抽出の判定
次のうち、無作為抽出といえるのはどれですか?
(1) 駅前で通行人に声をかける
(2) 電話番号を乱数で選んで電話する
(3) 自分の友達に聞く
解説:
(1) 駅前の通行人 → 特定の場所・時間帯に偏る
(2) 乱数で選ぶ → 全員に等しい確率で選ばれる = 無作為抽出
(3) 友達 → 似た考えや属性の人に偏る
バイアスの理解
「昼間に商店街で調査した」という方法の問題点は何ですか?
解説:
• 昼間に外出できる人に偏る(主婦、高齢者、パート勤務者など)
• 会社員や学生などは含まれない可能性が高い
• 特定の地域(商店街)に偏る
改善策: 時間帯や場所を変えて調査する、または無作為抽出を使う
標本平均の計算
5人の生徒の数学の点数が、80点、75点、90点、85点、70点でした。
標本平均を求めなさい。
解説:
x = (80 + 75 + 90 + 85 + 70) ÷ 5
= 400 ÷ 5
= 80点
標本サイズと精度
標本サイズが大きいほど、推測の精度はどうなりますか?
解説:
標本サイズnが大きいほど、標本平均は母平均に近くなります。
例: n=10より n=100の方が、n=100より n=1000の方が、
より信頼できる推測ができます。
📚 このステップのまとめ
🎯 学習したこと
- 母集団と標本: 調べたい対象全体と、実際に調査する一部
- 全数調査: すべてを調べる(正確だが時間・費用がかかる)
- 標本調査: 一部だけ調べて推測(速く安いが誤差がある)
- 無作為抽出: 偏りなくランダムに選ぶことが重要
- バイアス: 偏った抽出は正しい推測ができない
- 標本平均: 標本から計算した平均で母平均を推測
- 標本サイズ: 大きいほど推測の精度が高い
練習問題で8問以上正解できたら、STEP 9に進みましょう!
統計的推測の基本概念(母集団・標本・無作為抽出)は、統計学の核心です。
特に「標本から母集団を推測する」という考え方をしっかり理解してください。
学習メモ
統計検定3級対策 - Step 8