📐 STEP 4: データのばらつきを測る
データがどれくらい散らばっているかを数値で表現しよう
📖 このステップで学ぶこと
このステップでは、データの散らばり具合を数値で表す方法を学びます。偏差、分散、標準偏差、変動係数、データの標準化など、統計学で最も重要な概念の1つを理解します。
🎯 到達目標: 分散と標準偏差の意味を理解し計算でき、データの標準化ができる
1️⃣ 偏差の概念(データ − 平均)
偏差は、各データが平均からどれだけ離れているかを表す値です。
偏差 = データの値 − 平均値
• 正の偏差 → 平均より大きい
• 負の偏差 → 平均より小さい
• 偏差が0 → 平均と同じ
データ: 60, 70, 80, 90, 100
【ステップ1】平均値を求める
まず、5つのデータの平均を計算します。
(60 + 70 + 80 + 90 + 100) ÷ 5
= 400 ÷ 5
= 80点
【ステップ2】各データの偏差を計算する
偏差 = データの値 − 平均値(80点)
• 60点の偏差 = 60 − 80 = −20(平均より20点低い)
• 70点の偏差 = 70 − 80 = −10(平均より10点低い)
• 80点の偏差 = 80 − 80 = 0(平均と同じ)
• 90点の偏差 = 90 − 80 = +10(平均より10点高い)
• 100点の偏差 = 100 − 80 = +20(平均より20点高い)
【確認】偏差の合計を計算する
(−20) + (−10) + 0 + (+10) + (+20) = 0
偏差の合計は必ず0になります。これは「平均からの上への離れ」と「下への離れ」が打ち消し合うためです。
すべての偏差を足すと必ず0になります。
これは、平均からの「上への離れ」と「下への離れ」が打ち消し合うためです。
そのため、偏差をそのまま使ってもばらつきは測れません。
→ 次のステップで「偏差の2乗」を使います!
偏差 = データと平均の「距離」
• 偏差が大きい → 平均から遠い(ばらついている)
• 偏差が小さい → 平均に近い(集まっている)
2️⃣ 分散と標準偏差の意味と計算
分散(variance)
分散は、「偏差の2乗の平均」です。データのばらつきを表す最も基本的な指標です。
分散 = Σ(偏差²) ÷ データ数
または
分散 = Σ(x − 平均)² ÷ n
計算手順:
1. 平均値を求める
2. 各データの偏差を求める
3. 偏差を2乗する
4. 2乗した偏差の平均を求める
データ: 2, 4, 6, 8, 10
【ステップ1】平均値を求める
(2 + 4 + 6 + 8 + 10) ÷ 5
= 30 ÷ 5
= 6
【ステップ2】各データの偏差を求める
偏差 = データ − 平均(6)
• 2 − 6 = −4
• 4 − 6 = −2
• 6 − 6 = 0
• 8 − 6 = +2
• 10 − 6 = +4
【ステップ3】偏差を2乗する
なぜ2乗するのか?
→ 偏差をそのまま足すと0になってしまうため、2乗して全て正の数にします。
• (−4)² = 16
• (−2)² = 4
• 0² = 0
• (+2)² = 4
• (+4)² = 16
【ステップ4】偏差の2乗の平均を求める(これが分散)
分散 = (16 + 4 + 0 + 4 + 16) ÷ 5
= 40 ÷ 5
= 8
答え: 分散 = 8
標準偏差(standard deviation)
標準偏差は、分散の平方根(√分散)です。元のデータと同じ単位で表されるため、より直感的です。
標準偏差 = √分散
記号: σ(シグマ)またはSD
【計算】
標準偏差 = √分散
= √8
【√8を計算する】
√8 = √(4 × 2)
= √4 × √2
= 2 × √2
= 2 × 1.414…
≒ 2.83
答え: 標準偏差 ≒ 2.83
【標準偏差の意味】
このデータは、平均(6)から平均して約2.83離れているということを表しています。
分散と標準偏差の意味
→ データが平均から大きく離れている(ばらつきが大きい)
分散・標準偏差が小さい
→ データが平均の近くに集まっている(ばらつきが小さい)
分散と標準偏差の違い
• 分散: 偏差を2乗しているため、元のデータより単位が大きい
• 標準偏差: 元のデータと同じ単位で、より直感的に理解しやすい
分散の計算は「偏差の2乗の平均」という手順を段階的に実行しましょう。
1. 平均を求める
2. 偏差を求める
3. 偏差を2乗する
4. 2乗の平均を求める
標準偏差は分散の平方根(√)であることを忘れずに!
3️⃣ 変動係数とは
変動係数は、標準偏差を平均値で割った値です。異なる単位のデータや、平均が大きく異なるデータのばらつきを比較するときに使います。
変動係数(CV) = 標準偏差 ÷ 平均値
または
CV = (標準偏差 ÷ 平均値) × 100 (%で表す場合)
記号: CV (Coefficient of Variation)
クラスA: 平均 = 70点、標準偏差 = 10点
クラスB: 平均 = 50点、標準偏差 = 8点
どちらのクラスの方が「ばらつきの程度」が大きいですか?
【なぜ標準偏差だけでは比較できないのか?】
標準偏差だけを見ると:
• クラスA: 10点
• クラスB: 8点
クラスAの方が大きいように見えます。
しかし、平均点が違うため、単純に比較できません。
「平均70点で10点のばらつき」と「平均50点で8点のばらつき」では、相対的な意味が違います。
【ステップ1】クラスAの変動係数を計算
CV = 標準偏差 ÷ 平均
= 10 ÷ 70
≒ 0.143(14.3%)
【ステップ2】クラスBの変動係数を計算
CV = 標準偏差 ÷ 平均
= 8 ÷ 50
= 0.16(16%)
【ステップ3】比較する
• クラスA: 14.3%
• クラスB: 16%
クラスBの変動係数の方が大きいため、クラスBの方が相対的にばらつきが大きいと言えます。
【解釈】
• クラスA: 平均の約14%の幅でばらついている
• クラスB: 平均の約16%の幅でばらついている
1. 単位が違うデータの比較
例: 身長(cm)と体重(kg)のばらつきを比較
2. 平均が大きく違うデータの比較
例: 小学生と大学生の身長のばらつきを比較
3. 相対的なばらつきを知りたいとき
例: 売上が100万円の会社と1億円の会社のばらつき比較
変動係数 = 0.1(10%)の意味:
「平均の10%くらいの幅でデータがばらついている」
変動係数が大きい → 平均に対してばらつきが大きい
変動係数が小さい → 平均に対してばらつきが小さい
4️⃣ データの標準化の基礎
データの標準化は、異なるデータを同じ基準で比較できるようにする方法です。
標準化得点(z得点) = (データ − 平均) ÷ 標準偏差
記号: z = (x − μ) ÷ σ
標準化すると:
• 平均 = 0
• 標準偏差 = 1
になります
データ: 60点(平均 = 50点、標準偏差 = 10点)
【計算】
z得点 = (データ − 平均) ÷ 標準偏差
= (60 − 50) ÷ 10
= 10 ÷ 10
= 1
答え: z = 1
【z = 1の意味】
この60点は、平均(50点)より標準偏差1つ分(1σ = 10点)高い位置にあるということです。
図で表すと:
平均(50点) ← 1σ(10点) → 60点
↑
z = 0 z = 1
標準化の意味と使い方
• z = 0: 平均と同じ
• z = 1: 平均より標準偏差1つ分上
• z = −1: 平均より標準偏差1つ分下
• z = 2: 平均より標準偏差2つ分上
一般的に、z得点が−2〜+2の範囲に約95%のデータが入ります。
数学テスト:
太郎: 70点(平均 = 60点、標準偏差 = 5点)
英語テスト:
花子: 75点(平均 = 60点、標準偏差 = 10点)
どちらが相対的に良い成績ですか?
【なぜ点数だけでは比較できないのか?】
点数だけを見ると:
• 太郎: 70点
• 花子: 75点
花子さんの方が高いように見えます。
しかし、テストの難易度(平均や標準偏差)が違うため、単純に比較できません。
「そのテストの中でどれくらい良い成績か」を比較する必要があります。
【ステップ1】太郎くんの数学のz得点を計算
z = (データ − 平均) ÷ 標準偏差
= (70 − 60) ÷ 5
= 10 ÷ 5
= 2
【ステップ2】花子さんの英語のz得点を計算
z = (データ − 平均) ÷ 標準偏差
= (75 − 60) ÷ 10
= 15 ÷ 10
= 1.5
【ステップ3】比較する
• 太郎(数学): z = 2(平均より2σ上)
• 花子(英語): z = 1.5(平均より1.5σ上)
太郎くんのz得点の方が大きいため、太郎くんの数学の方が相対的に良い成績です。
【補足】
• z = 2は、上位約2.5%の成績(かなり優秀)
• z = 1.5は、上位約7%の成績(優秀)
• 異なるテストの点数を比較するとき
• 身長と体重など、単位が違うデータを比較するとき
• 「平均からどれくらい離れているか」を知りたいとき
📝 練習問題(15問)
このステップの理解度を確認しましょう。
偏差の計算
データ: 4, 6, 8, 10, 12 の平均は8です。10の偏差を求めなさい
解説:
偏差 = データ − 平均
= 10 − 8
= +2
10は平均の8より2大きいので、偏差は+2です。
偏差の性質
5つのデータの偏差が −3, −1, 0, 2, □ です。□に入る数を求めなさい
解説:
偏差の合計は必ず0になるという性質を使います。
(−3) + (−1) + 0 + 2 + □ = 0
−4 + 2 + □ = 0
−2 + □ = 0
□ = 2
偏差の2乗
偏差が−4のとき、偏差の2乗はいくつですか?
解説:
(−4)² = (−4) × (−4) = 16
負の数を2乗すると正になります。
これにより、偏差の大きさだけを評価できます。
分散の計算
データ: 2, 4, 6(平均 = 4)の分散を求めなさい
解説:
1. 各偏差を求める
2 − 4 = −2
4 − 4 = 0
6 − 4 = +2
2. 偏差を2乗する
(−2)² = 4
0² = 0
(+2)² = 4
3. 2乗の平均を求める(分散)
(4 + 0 + 4) ÷ 3 = 8 ÷ 3 ≒ 2.67
標準偏差の計算
分散が9のとき、標準偏差を求めなさい
解説:
標準偏差 = √分散
= √9
= 3
分散の意味
2つのクラスの分散が、A組=4、B組=16です。どちらのクラスの方がばらつきが大きいですか?
解説:
分散が大きいほど、データのばらつきが大きくなります。
• A組の分散: 4
• B組の分散: 16
16 > 4 なので、B組の方がばらついています。
(参考: 標準偏差はA組が2、B組が4になります)
分散と標準偏差の関係
標準偏差が5のとき、分散はいくつですか?
解説:
標準偏差 = √分散 という関係があるので、
分散 = (標準偏差)²
= 5²
= 25
分散の計算(完全版)
データ: 1, 3, 5, 7, 9 の分散を求めなさい
解説:
1. 平均を求める
(1 + 3 + 5 + 7 + 9) ÷ 5 = 25 ÷ 5 = 5
2. 各偏差を求める
1 − 5 = −4
3 − 5 = −2
5 − 5 = 0
7 − 5 = +2
9 − 5 = +4
3. 偏差を2乗する
16, 4, 0, 4, 16
4. 分散を求める
(16 + 4 + 0 + 4 + 16) ÷ 5 = 40 ÷ 5 = 8
変動係数の計算
平均 = 50、標準偏差 = 10 のとき、変動係数を求めなさい
解説:
変動係数 = 標準偏差 ÷ 平均
= 10 ÷ 50
= 0.2
パーセントで表すと 0.2 × 100 = 20% です。
変動係数の比較
A: 平均=100、標準偏差=20、B: 平均=50、標準偏差=15。どちらが相対的にばらつきが大きいですか?
解説:
それぞれの変動係数を計算します。
Aの変動係数 = 20 ÷ 100 = 0.2(20%)
Bの変動係数 = 15 ÷ 50 = 0.3(30%)
Bの変動係数の方が大きいので、Bの方が相対的にばらつきが大きいです。
変動係数の意味
変動係数が0.15(15%)の意味として正しいものは?
A) データが平均の15%の幅でばらついている
B) データの15%が平均より大きい
解説:
変動係数 = 標準偏差 ÷ 平均
変動係数0.15(15%)は、「標準偏差が平均の15%」という意味です。
つまり、平均の約15%の幅でデータがばらついているということです。
標準化得点の計算
データ: 80点(平均 = 70点、標準偏差 = 5点)のz得点を求めなさい
解説:
z = (データ − 平均) ÷ 標準偏差
= (80 − 70) ÷ 5
= 10 ÷ 5
= 2
80点は、平均より標準偏差2つ分(10点)上にあります。
z得点の意味
z = −1.5 の意味として正しいものは?
A) 平均より標準偏差1.5個分上
B) 平均より標準偏差1.5個分下
解説:
z得点の符号は、平均との位置関係を表します。
• 正のz得点(z > 0)→ 平均より上
• 負のz得点(z < 0)→ 平均より下
z = −1.5 は負なので、平均より標準偏差1.5個分下を意味します。
標準化の応用
平均60点、標準偏差10点のテストで、z = 1.5の人は何点取りましたか?
解説:
z得点の式を変形して、元の点数を求めます。
z = (x − 平均) ÷ 標準偏差
両辺に標準偏差を掛けて:
z × 標準偏差 = x − 平均
xについて解くと:
x = 平均 + z × 標準偏差
= 60 + 1.5 × 10
= 60 + 15
= 75点
総合問題
データ: 10, 20, 30, 40, 50 について、分散と標準偏差を求めなさい
解説:
1. 平均を求める
(10 + 20 + 30 + 40 + 50) ÷ 5 = 150 ÷ 5 = 30
2. 各偏差を求める
10 − 30 = −20
20 − 30 = −10
30 − 30 = 0
40 − 30 = +10
50 − 30 = +20
3. 偏差を2乗する
400, 100, 0, 100, 400
4. 分散を求める
(400 + 100 + 0 + 100 + 400) ÷ 5 = 1000 ÷ 5 = 200
5. 標準偏差を求める
√200 = √(100 × 2) = 10√2 ≒ 14.14
📚 このステップのまとめ
🎯 学習したこと
- 偏差: 各データが平均からどれだけ離れているかを表す値
- 分散: 偏差の2乗の平均。データのばらつきを表す基本的な指標
- 標準偏差: 分散の平方根。元のデータと同じ単位で直感的
- 変動係数: 標準偏差を平均で割った値。相対的なばらつきを表す
- 標準化: 異なるデータを同じ基準で比較できるようにする方法
練習問題で12問以上正解できたら、STEP 5に進みましょう!
分散と標準偏差は統計学の最重要概念です。電卓を使って実際に計算練習をしてください。
学習メモ
統計検定3級対策 - Step 4