📊 STEP 3: データの整理と要約
データの特徴を掴む方法を習得しよう
📖 このステップで学ぶこと
このステップでは、データを整理して特徴を掴む方法を学びます。データの種類、度数分布表、ヒストグラム、平均値・中央値・最頻値、箱ひげ図など、統計学の基礎となる重要な概念を理解します。
🎯 到達目標: データの種類を区別でき、度数分布表とヒストグラムが作成でき、代表値が計算できる
1️⃣ データの種類(量的データと質的データ)
データには大きく分けて2つの種類があります。適切な分析方法を選ぶために、データの種類を見分けることが重要です。
量的データ(量を表すデータ)
数値で表され、計算ができるデータです。
• 身長(160cm、175cm)
• 体重(50kg、70kg)
• テストの点数(80点、95点)
• 年齢(20歳、35歳)
• 気温(25℃、30℃)
質的データ(種類を表すデータ)
カテゴリーや種類を表すデータです。計算はできません。
• 性別(男性、女性)
• 血液型(A型、B型、O型、AB型)
• 居住地域(東京、大阪、福岡)
• 好きな色(赤、青、緑)
• 満足度(満足、普通、不満)
(1) 学年(1年、2年、3年)
(2) 月収(25万円、30万円)
(3) 好きなスポーツ(野球、サッカー、テニス)
(4) 走った距離(5km、10km)
(1) 学年 → 質的データ
「1年」「2年」「3年」は一見数字ですが、「1年 + 2年 = 3年」という計算は意味がありません。これはカテゴリー(分類)を表しているため、質的データです。
(2) 月収 → 量的データ
「25万円 + 5万円 = 30万円」のように計算ができます。金額は数値として意味があるため、量的データです。
(3) 好きなスポーツ → 質的データ
「野球」「サッカー」「テニス」は種類・カテゴリーを表しています。計算はできないため、質的データです。
(4) 走った距離 → 量的データ
「5km + 5km = 10km」のように計算ができます。距離は数値として意味があるため、量的データです。
• 足し算や引き算ができる → 量的データ
• 足し算や引き算ができない → 質的データ
例: 「1年 + 2年 = 3年」は意味がない → 質的データ
2️⃣ 度数分布表とヒストグラムの作成
度数分布表は、データを区間(階級)に分けて整理した表です。ヒストグラムは、それをグラフにしたものです。
度数分布表の作り方
• 階級: データを分ける区間(例: 0〜10点、10〜20点)
• 階級値: 階級の中央の値(例: 0〜10点なら5点)
• 度数: その階級に入るデータの個数
• 相対度数: 度数 ÷ 全体の個数(割合)
データ: 35, 42, 58, 63, 48, 72, 55, 61, 45, 68
階級 | 度数
30〜40点 |
40〜50点 |
50〜60点 |
60〜70点 |
70〜80点 |
【ステップ1】各データがどの階級に入るか確認する
まず、10個のデータを1つずつ確認します。
• 35点 → 30〜40点の階級
• 42点 → 40〜50点の階級
• 58点 → 50〜60点の階級
• 63点 → 60〜70点の階級
• 48点 → 40〜50点の階級
• 72点 → 70〜80点の階級
• 55点 → 50〜60点の階級
• 61点 → 60〜70点の階級
• 45点 → 40〜50点の階級
• 68点 → 60〜70点の階級
【ステップ2】各階級の度数を数える
• 30〜40点: 35点 → 1人
• 40〜50点: 42点、48点、45点 → 3人
• 50〜60点: 58点、55点 → 2人
• 60〜70点: 63点、61点、68点 → 3人
• 70〜80点: 72点 → 1人
【ステップ3】相対度数を計算する
相対度数 = 度数 ÷ 全体の個数(10人)
【完成した度数分布表】
階級 | 度数 | 相対度数
30〜40点 | 1 | 0.1 (10%)
40〜50点 | 3 | 0.3 (30%)
50〜60点 | 2 | 0.2 (20%)
60〜70点 | 3 | 0.3 (30%)
70〜80点 | 1 | 0.1 (10%)
合計 | 10 | 1.0 (100%)
ヒストグラム(柱状グラフ)
ヒストグラムは、度数分布表を棒グラフにしたものです。データの分布の様子が一目でわかります。
• 横軸: 階級(データの範囲)
• 縦軸: 度数(データの個数)
• 棒と棒の間に隙間がない(連続したデータだから)
• 山の形からデータの分布がわかる
階級の境界に注意!「50〜60点」は50点を含み、60点は含みません。
• 50〜60点未満: 50, 51, 52…59(60は含まない)
• 60〜70点未満: 60, 61, 62…69(70は含まない)
3️⃣ 代表値(平均値・中央値・最頻値)
代表値は、データ全体の特徴を1つの数値で表したものです。3つの代表値を使い分けることが大切です。
平均値(mean、平均)
すべてのデータを足して、データの個数で割った値です。
平均値 = (データの合計)÷(データの個数)
または
平均値 = Σx ÷ n
データ: 4, 6, 7, 8, 10
【ステップ1】データの個数を確認する
4, 6, 7, 8, 10 → 5個のデータがあります。
【ステップ2】すべてのデータを足す
4 + 6 + 7 + 8 + 10 = 35
【ステップ3】データの個数で割る
35 ÷ 5 = 7
答え: 平均値は 7
中央値(median、メジアン)
データを小さい順に並べたときの真ん中の値です。
1. データを小さい順に並べる
2. 真ん中の値を見つける
• データが奇数個 → 真ん中の1つ
• データが偶数個 → 真ん中の2つの平均
(1) データ: 3, 7, 5, 9, 6(5個)
(2) データ: 2, 8, 4, 10, 6, 12(6個)
【(1) データが奇数個(5個)の場合】
ステップ1: データを小さい順に並べる
元のデータ: 3, 7, 5, 9, 6
並べ替え後: 3, 5, 6, 7, 9
ステップ2: 真ん中の位置を確認する
5個のデータなので、真ん中は3番目です。
(左に2個、右に2個)
ステップ3: 真ん中の値を見つける
3, 5, 6, 7, 9
↑ 3番目
答え: 中央値は 6
—
【(2) データが偶数個(6個)の場合】
ステップ1: データを小さい順に並べる
元のデータ: 2, 8, 4, 10, 6, 12
並べ替え後: 2, 4, 6, 8, 10, 12
ステップ2: 真ん中の2つを見つける
6個のデータなので、真ん中は3番目と4番目です。
2, 4, 6, 8, 10, 12
↑ ↑ 3番目と4番目
ステップ3: 2つの平均を計算する
(6 + 8) ÷ 2 = 14 ÷ 2 = 7
答え: 中央値は 7
最頻値(mode、モード)
最も多く出現する値です。
データ: 5, 3, 7, 5, 8, 5, 6, 7
【ステップ1】各値の出現回数を数える
• 3 → 1回
• 5 → 3回
• 6 → 1回
• 7 → 2回
• 8 → 1回
【ステップ2】最も多い値を見つける
5が3回で最も多く出現しています。
答え: 最頻値は 5
【補足】
もし複数の値が同じ回数で最多の場合、最頻値は複数存在することになります。
3つの代表値の使い分け
• 平均値: 一般的な「平均」。すべてのデータを考慮
• 中央値: 極端な値(外れ値)の影響を受けにくい
• 最頻値: 最も多いパターンを知りたいとき
例: 年収のデータ
極端に高い年収がある場合、平均値は実態より高くなる
→ 中央値を使う方が適切
中央値を求めるときは、必ずデータを並び替えてから真ん中を見つけましょう!
並び替えを忘れると間違えます。
4️⃣ 範囲と四分位数
範囲(range、レンジ)
最大値と最小値の差です。データの散らばり具合を表します。
範囲 = 最大値 − 最小値
データ: 12, 18, 15, 22, 9, 20
【ステップ1】最大値を見つける
データ: 12, 18, 15, 22, 9, 20
最大値 = 22
【ステップ2】最小値を見つける
最小値 = 9
【ステップ3】範囲を計算する
範囲 = 最大値 − 最小値
範囲 = 22 − 9 = 13
答え: 範囲は 13
四分位数(quartile、クォータイル)
データを4等分する値です。
• 第1四分位数(Q1): 下から25%の位置
• 第2四分位数(Q2): 中央値(50%の位置)
• 第3四分位数(Q3): 下から75%の位置
四分位範囲(IQR): Q3 − Q1(データの中央50%の範囲)
データ: 2, 4, 6, 8, 10, 12, 14, 16, 18
【ステップ1】データを並べる(すでに並んでいる)
2, 4, 6, 8, 10, 12, 14, 16, 18(9個)
【ステップ2】中央値(Q2)を求める
9個のデータの真ん中は5番目です。
2, 4, 6, 8, 10, 12, 14, 16, 18
↑ 5番目
Q2 = 10
【ステップ3】下半分からQ1を求める
中央値より下のデータ: 2, 4, 6, 8(4個)
4個なので真ん中の2つ(2番目と3番目)の平均
2, 4, 6, 8
Q1 = (4 + 6) ÷ 2 = 5
【ステップ4】上半分からQ3を求める
中央値より上のデータ: 12, 14, 16, 18(4個)
4個なので真ん中の2つ(2番目と3番目)の平均
12, 14, 16, 18
Q3 = (14 + 16) ÷ 2 = 15
【ステップ5】四分位範囲を計算する
四分位範囲 = Q3 − Q1 = 15 − 5 = 10
答え: Q1 = 5、Q2 = 10、Q3 = 15、四分位範囲 = 10
四分位数を求めるときは、データを4等分することを意識しましょう。
全体を4つに分けて、それぞれの境界の値が四分位数です。
5️⃣ 箱ひげ図の読み方
箱ひげ図(box plot)は、データの分布を5つの数値で表したグラフです。
1. 最小値
2. 第1四分位数(Q1)
3. 中央値(Q2)
4. 第3四分位数(Q3)
5. 最大値
箱の部分: Q1からQ3まで(データの中央50%)
ひげの部分: 最小値〜Q1、Q3〜最大値
• データの中心(中央値)
• データの散らばり具合(箱の幅、ひげの長さ)
• データの偏り(箱が左右どちらに偏っているか)
• 外れ値の有無
データA: 最小値=10、Q1=20、Q2=30、Q3=35、最大値=50
データB: 最小値=15、Q1=25、Q2=30、Q3=32、最大値=45
(1) どちらのデータの方が散らばりが大きいですか?
(2) データAの四分位範囲は?
【(1) 散らばりの比較】
方法1: 範囲で比較する
• データA: 範囲 = 最大値 − 最小値 = 50 − 10 = 40
• データB: 範囲 = 最大値 − 最小値 = 45 − 15 = 30
方法2: 四分位範囲で比較する
• データA: 四分位範囲 = Q3 − Q1 = 35 − 20 = 15
• データB: 四分位範囲 = Q3 − Q1 = 32 − 25 = 7
どちらの指標でも、データAの方が値が大きいです。
答え: データAの方が散らばりが大きい
—
【(2) データAの四分位範囲】
四分位範囲 = Q3 − Q1
= 35 − 20
= 15
答え: 15
• 箱が大きい → データが散らばっている
• 箱が小さい → データが集まっている
• 中央値が箱の真ん中にない → データが偏っている
📝 練習問題(15問)
このステップの理解度を確認しましょう。
データの種類
「好きな季節(春、夏、秋、冬)」は量的データですか、質的データですか?
解説:
「春」「夏」「秋」「冬」はカテゴリー(種類)を表しています。
「春 + 夏」のような計算は意味がないため、質的データです。
データの種類
「通勤時間(30分、45分、60分)」は量的データですか、質的データですか?
解説:
時間は数値で表され、「30分 + 30分 = 60分」のように計算ができます。
したがって量的データです。
度数分布表
20人のテストの点数で、60〜70点未満の階級の度数が5人でした。この階級の相対度数は?
解説:
相対度数 = 度数 ÷ 全体の人数
= 5 ÷ 20
= 0.25
パーセントで表すと 0.25 × 100 = 25% です。
平均値の計算
データ: 3, 5, 7, 9, 11 の平均値を求めなさい
解説:
1. データの合計を計算
3 + 5 + 7 + 9 + 11 = 35
2. データの個数で割る
35 ÷ 5 = 7
中央値の計算
データ: 8, 3, 6, 10, 5 の中央値を求めなさい
解説:
1. データを小さい順に並べる
3, 5, 6, 8, 10
2. 5個のデータなので、真ん中は3番目
3, 5, 6, 8, 10
中央値は 6 です。
中央値の計算(偶数個)
データ: 4, 7, 2, 9, 5, 8 の中央値を求めなさい
解説:
1. データを小さい順に並べる
2, 4, 5, 7, 8, 9
2. 6個のデータなので、真ん中は3番目と4番目
2, 4, 5, 7, 8, 9
3. 2つの平均を計算
(5 + 7) ÷ 2 = 6
最頻値
データ: 2, 5, 3, 5, 7, 5, 8, 3 の最頻値を求めなさい
解説:
各値の出現回数を数えます。
• 2 → 1回
• 3 → 2回
• 5 → 3回(最多)
• 7 → 1回
• 8 → 1回
5が3回で最も多いため、最頻値は 5 です。
範囲の計算
データ: 15, 22, 18, 30, 12 の範囲を求めなさい
解説:
1. 最大値を見つける → 30
2. 最小値を見つける → 12
3. 範囲 = 最大値 − 最小値
= 30 − 12 = 18
四分位数
データ: 2, 4, 6, 8, 10, 12, 14 の中央値(Q2)を求めなさい
解説:
7個のデータの真ん中は4番目です。
2, 4, 6, 8, 10, 12, 14
↑ 4番目
中央値(Q2)は 8 です。
四分位範囲
Q1 = 20、Q3 = 35 のとき、四分位範囲を求めなさい
解説:
四分位範囲(IQR)= Q3 − Q1
= 35 − 20
= 15
箱ひげ図の読み取り
箱ひげ図で、箱の左端がQ1、右端がQ3を表します。箱の幅が大きいとき、データはどうなっていますか?
解説:
箱の幅 = Q3 − Q1 = 四分位範囲
四分位範囲が大きいということは、データの中央50%が広い範囲に分布しているということです。
つまり、データが散らばっています。
代表値の比較
データ: 5, 10, 10, 10, 60 について、平均値と中央値のどちらが実態を表していますか?
解説:
まず両方を計算します。
平均値:
(5 + 10 + 10 + 10 + 60) ÷ 5 = 95 ÷ 5 = 19
中央値:
並べ替え: 5, 10, 10, 10, 60
真ん中(3番目)= 10
60という極端な値(外れ値)があるため、平均値は19と高くなっています。
実際のデータは10付近に集中しているため、中央値の10の方が実態を表しています。
度数分布表の読み取り
50人のクラスで、相対度数が0.2の階級には何人いますか?
解説:
相対度数 = 度数 ÷ 全体 なので
度数 = 相対度数 × 全体
= 0.2 × 50
= 10人
階級値の計算
階級「30〜40kg」の階級値はいくつですか?
解説:
階級値は階級の中央の値です。
階級値 = (階級の下限 + 階級の上限) ÷ 2
= (30 + 40) ÷ 2
= 70 ÷ 2
= 35kg
総合問題
テストの点数データ: 60, 70, 80, 80, 90 について、平均値、中央値、最頻値を求めなさい
平均値 = 76点、中央値 = 80点、最頻値 = 80点
解説:
【平均値】
(60 + 70 + 80 + 80 + 90) ÷ 5
= 380 ÷ 5
= 76点
【中央値】
データは既に並んでいる: 60, 70, 80, 80, 90
5個なので真ん中(3番目)= 80点
【最頻値】
各値の出現回数:
• 60点 → 1回
• 70点 → 1回
• 80点 → 2回(最多)
• 90点 → 1回
最頻値 = 80点
📚 このステップのまとめ
🎯 学習したこと
- データの種類: 量的データと質的データを区別できる
- 度数分布表: データを階級に分けて整理できる
- ヒストグラム: 度数分布表をグラフで表現できる
- 代表値: 平均値、中央値、最頻値を計算し、使い分けられる
- 範囲と四分位数: データの散らばりを数値で表現できる
- 箱ひげ図: データの分布を5つの数値で視覚化して読み取れる
練習問題で12問以上正解できたら、STEP 4に進みましょう!
データの整理と要約は統計学の基礎です。しっかり理解してから次に進んでください。
学習メモ
統計検定3級対策 - Step 3