STEP 3:データの整理と要約

📊 STEP 3: データの整理と要約

データの特徴を掴む方法を習得しよう

📖 このステップで学ぶこと

このステップでは、データを整理して特徴を掴む方法を学びます。データの種類、度数分布表、ヒストグラム、平均値・中央値・最頻値、箱ひげ図など、統計学の基礎となる重要な概念を理解します。

📝 練習問題: 15問
🎯 到達目標: データの種類を区別でき、度数分布表とヒストグラムが作成でき、代表値が計算できる

1️⃣ データの種類(量的データと質的データ)

データには大きく分けて2つの種類があります。適切な分析方法を選ぶために、データの種類を見分けることが重要です。

量的データ(量を表すデータ)

数値で表され、計算ができるデータです。

量的データの例
• 身長(160cm、175cm)
• 体重(50kg、70kg)
• テストの点数(80点、95点)
• 年齢(20歳、35歳)
• 気温(25℃、30℃)

質的データ(種類を表すデータ)

カテゴリーや種類を表すデータです。計算はできません。

質的データの例
• 性別(男性、女性)
• 血液型(A型、B型、O型、AB型)
• 居住地域(東京、大阪、福岡)
• 好きな色(赤、青、緑)
• 満足度(満足、普通、不満)
例題1: 次のデータは量的データか質的データか答えなさい
(1) 学年(1年、2年、3年)
(2) 月収(25万円、30万円)
(3) 好きなスポーツ(野球、サッカー、テニス)
(4) 走った距離(5km、10km)
解答:

(1) 学年 → 質的データ
「1年」「2年」「3年」は一見数字ですが、「1年 + 2年 = 3年」という計算は意味がありません。これはカテゴリー(分類)を表しているため、質的データです。

(2) 月収 → 量的データ
「25万円 + 5万円 = 30万円」のように計算ができます。金額は数値として意味があるため、量的データです。

(3) 好きなスポーツ → 質的データ
「野球」「サッカー」「テニス」は種類・カテゴリーを表しています。計算はできないため、質的データです。

(4) 走った距離 → 量的データ
「5km + 5km = 10km」のように計算ができます。距離は数値として意味があるため、量的データです。
💡 見分けるポイント
• 足し算や引き算ができる → 量的データ
• 足し算や引き算ができない → 質的データ
例: 「1年 + 2年 = 3年」は意味がない → 質的データ

2️⃣ 度数分布表とヒストグラムの作成

度数分布表は、データを区間(階級)に分けて整理した表です。ヒストグラムは、それをグラフにしたものです。

度数分布表の作り方

度数分布表の用語
階級: データを分ける区間(例: 0〜10点、10〜20点)
階級値: 階級の中央の値(例: 0〜10点なら5点)
度数: その階級に入るデータの個数
相対度数: 度数 ÷ 全体の個数(割合)
例題2: 次の10人のテストの点数を、10点ごとの階級で度数分布表にまとめなさい
データ: 35, 42, 58, 63, 48, 72, 55, 61, 45, 68

階級    | 度数
30〜40点  |
40〜50点  |
50〜60点  |
60〜70点  |
70〜80点  |
解答:

【ステップ1】各データがどの階級に入るか確認する
まず、10個のデータを1つずつ確認します。
• 35点 → 30〜40点の階級
• 42点 → 40〜50点の階級
• 58点 → 50〜60点の階級
• 63点 → 60〜70点の階級
• 48点 → 40〜50点の階級
• 72点 → 70〜80点の階級
• 55点 → 50〜60点の階級
• 61点 → 60〜70点の階級
• 45点 → 40〜50点の階級
• 68点 → 60〜70点の階級

【ステップ2】各階級の度数を数える
• 30〜40点: 35点 → 1人
• 40〜50点: 42点、48点、45点 → 3人
• 50〜60点: 58点、55点 → 2人
• 60〜70点: 63点、61点、68点 → 3人
• 70〜80点: 72点 → 1人

【ステップ3】相対度数を計算する
相対度数 = 度数 ÷ 全体の個数(10人)

【完成した度数分布表】
階級    | 度数 | 相対度数
30〜40点  | 1  | 0.1 (10%)
40〜50点  | 3  | 0.3 (30%)
50〜60点  | 2  | 0.2 (20%)
60〜70点  | 3  | 0.3 (30%)
70〜80点  | 1  | 0.1 (10%)
合計    | 10  | 1.0 (100%)

ヒストグラム(柱状グラフ)

ヒストグラムは、度数分布表を棒グラフにしたものです。データの分布の様子が一目でわかります。

ヒストグラムの特徴
• 横軸: 階級(データの範囲)
• 縦軸: 度数(データの個数)
• 棒と棒の間に隙間がない(連続したデータだから)
• 山の形からデータの分布がわかる
💡 つまずきポイントと対策
階級の境界に注意!「50〜60点」は50点を含み、60点は含みません。
• 50〜60点未満: 50, 51, 52…59(60は含まない)
• 60〜70点未満: 60, 61, 62…69(70は含まない)

3️⃣ 代表値(平均値・中央値・最頻値)

代表値は、データ全体の特徴を1つの数値で表したものです。3つの代表値を使い分けることが大切です。

平均値(mean、平均)

すべてのデータを足して、データの個数で割った値です。

平均値の計算式
平均値 = (データの合計)÷(データの個数)
または
平均値 = Σx ÷ n
例題3: 次のデータの平均値を求めなさい
データ: 4, 6, 7, 8, 10
解答: 7

【ステップ1】データの個数を確認する
4, 6, 7, 8, 10 → 5個のデータがあります。

【ステップ2】すべてのデータを足す
4 + 6 + 7 + 8 + 10 = 35

【ステップ3】データの個数で割る
35 ÷ 5 = 7

答え: 平均値は 7

中央値(median、メジアン)

データを小さい順に並べたときの真ん中の値です。

中央値の求め方
1. データを小さい順に並べる
2. 真ん中の値を見つける
• データが奇数個 → 真ん中の1つ
• データが偶数個 → 真ん中の2つの平均
例題4: 次のデータの中央値を求めなさい
(1) データ: 3, 7, 5, 9, 6(5個)
(2) データ: 2, 8, 4, 10, 6, 12(6個)
解答:

【(1) データが奇数個(5個)の場合】

ステップ1: データを小さい順に並べる
元のデータ: 3, 7, 5, 9, 6
並べ替え後: 3, 5, 6, 7, 9

ステップ2: 真ん中の位置を確認する
5個のデータなので、真ん中は3番目です。
(左に2個、右に2個)

ステップ3: 真ん中の値を見つける
3, 5, 6, 7, 9
   ↑ 3番目

答え: 中央値は 6



【(2) データが偶数個(6個)の場合】

ステップ1: データを小さい順に並べる
元のデータ: 2, 8, 4, 10, 6, 12
並べ替え後: 2, 4, 6, 8, 10, 12

ステップ2: 真ん中の2つを見つける
6個のデータなので、真ん中は3番目と4番目です。
2, 4, 6, 8, 10, 12
   ↑ ↑ 3番目と4番目

ステップ3: 2つの平均を計算する
(6 + 8) ÷ 2 = 14 ÷ 2 = 7

答え: 中央値は 7

最頻値(mode、モード)

最も多く出現する値です。

例題5: 次のデータの最頻値を求めなさい
データ: 5, 3, 7, 5, 8, 5, 6, 7
解答: 5

【ステップ1】各値の出現回数を数える
• 3 → 1回
• 5 → 3回
• 6 → 1回
• 7 → 2回
• 8 → 1回

【ステップ2】最も多い値を見つける
5が3回で最も多く出現しています。

答え: 最頻値は 5

【補足】
もし複数の値が同じ回数で最多の場合、最頻値は複数存在することになります。

3つの代表値の使い分け

どの代表値を使うべき?
平均値: 一般的な「平均」。すべてのデータを考慮
中央値: 極端な値(外れ値)の影響を受けにくい
最頻値: 最も多いパターンを知りたいとき

例: 年収のデータ
極端に高い年収がある場合、平均値は実態より高くなる
→ 中央値を使う方が適切
💡 つまずきポイントと対策
中央値を求めるときは、必ずデータを並び替えてから真ん中を見つけましょう!
並び替えを忘れると間違えます。

4️⃣ 範囲と四分位数

範囲(range、レンジ)

最大値と最小値の差です。データの散らばり具合を表します。

範囲の計算式
範囲 = 最大値 − 最小値
例題6: 次のデータの範囲を求めなさい
データ: 12, 18, 15, 22, 9, 20
解答: 13

【ステップ1】最大値を見つける
データ: 12, 18, 15, 22, 9, 20
最大値 = 22

【ステップ2】最小値を見つける
最小値 = 9

【ステップ3】範囲を計算する
範囲 = 最大値 − 最小値
範囲 = 22 − 9 = 13

答え: 範囲は 13

四分位数(quartile、クォータイル)

データを4等分する値です。

四分位数の種類
第1四分位数(Q1): 下から25%の位置
第2四分位数(Q2): 中央値(50%の位置)
第3四分位数(Q3): 下から75%の位置

四分位範囲(IQR): Q3 − Q1(データの中央50%の範囲)
例題7: 次のデータの四分位数を求めなさい
データ: 2, 4, 6, 8, 10, 12, 14, 16, 18
解答: Q1 = 5、Q2 = 10、Q3 = 15

【ステップ1】データを並べる(すでに並んでいる)
2, 4, 6, 8, 10, 12, 14, 16, 18(9個)

【ステップ2】中央値(Q2)を求める
9個のデータの真ん中は5番目です。
2, 4, 6, 8, 10, 12, 14, 16, 18
      ↑ 5番目
Q2 = 10

【ステップ3】下半分からQ1を求める
中央値より下のデータ: 2, 4, 6, 8(4個)
4個なので真ん中の2つ(2番目と3番目)の平均
2, 4, 6, 8
Q1 = (4 + 6) ÷ 2 = 5

【ステップ4】上半分からQ3を求める
中央値より上のデータ: 12, 14, 16, 18(4個)
4個なので真ん中の2つ(2番目と3番目)の平均
12, 14, 16, 18
Q3 = (14 + 16) ÷ 2 = 15

【ステップ5】四分位範囲を計算する
四分位範囲 = Q3 − Q1 = 15 − 5 = 10

答え: Q1 = 5、Q2 = 10、Q3 = 15、四分位範囲 = 10
💡 つまずきポイントと対策
四分位数を求めるときは、データを4等分することを意識しましょう。
全体を4つに分けて、それぞれの境界の値が四分位数です。

5️⃣ 箱ひげ図の読み方

箱ひげ図(box plot)は、データの分布を5つの数値で表したグラフです。

箱ひげ図の5つの数値
1. 最小値
2. 第1四分位数(Q1)
3. 中央値(Q2)
4. 第3四分位数(Q3)
5. 最大値

箱の部分: Q1からQ3まで(データの中央50%)
ひげの部分: 最小値〜Q1、Q3〜最大値
箱ひげ図から読み取れること
• データの中心(中央値)
• データの散らばり具合(箱の幅、ひげの長さ)
• データの偏り(箱が左右どちらに偏っているか)
• 外れ値の有無
例題8: 次の箱ひげ図について答えなさい

データA: 最小値=10、Q1=20、Q2=30、Q3=35、最大値=50
データB: 最小値=15、Q1=25、Q2=30、Q3=32、最大値=45

(1) どちらのデータの方が散らばりが大きいですか?
(2) データAの四分位範囲は?
解答:

【(1) 散らばりの比較】

方法1: 範囲で比較する
• データA: 範囲 = 最大値 − 最小値 = 50 − 10 = 40
• データB: 範囲 = 最大値 − 最小値 = 45 − 15 = 30

方法2: 四分位範囲で比較する
• データA: 四分位範囲 = Q3 − Q1 = 35 − 20 = 15
• データB: 四分位範囲 = Q3 − Q1 = 32 − 25 = 7

どちらの指標でも、データAの方が値が大きいです。

答え: データAの方が散らばりが大きい



【(2) データAの四分位範囲】

四分位範囲 = Q3 − Q1
= 35 − 20
= 15

答え: 15
💡 箱ひげ図を見るコツ
• 箱が大きい → データが散らばっている
• 箱が小さい → データが集まっている
• 中央値が箱の真ん中にない → データが偏っている

📝 練習問題(15問)

このステップの理解度を確認しましょう。

問題 1

データの種類

「好きな季節(春、夏、秋、冬)」は量的データですか、質的データですか?

解答: 質的データ

解説:
「春」「夏」「秋」「冬」はカテゴリー(種類)を表しています。
「春 + 夏」のような計算は意味がないため、質的データです。
問題 2

データの種類

「通勤時間(30分、45分、60分)」は量的データですか、質的データですか?

解答: 量的データ

解説:
時間は数値で表され、「30分 + 30分 = 60分」のように計算ができます。
したがって量的データです。
問題 3

度数分布表

20人のテストの点数で、60〜70点未満の階級の度数が5人でした。この階級の相対度数は?

解答: 0.25(25%)

解説:
相対度数 = 度数 ÷ 全体の人数
= 5 ÷ 20
= 0.25

パーセントで表すと 0.25 × 100 = 25% です。
問題 4

平均値の計算

データ: 3, 5, 7, 9, 11 の平均値を求めなさい

解答: 7

解説:
1. データの合計を計算
  3 + 5 + 7 + 9 + 11 = 35

2. データの個数で割る
  35 ÷ 5 = 7
問題 5

中央値の計算

データ: 8, 3, 6, 10, 5 の中央値を求めなさい

解答: 6

解説:
1. データを小さい順に並べる
  3, 5, 6, 8, 10

2. 5個のデータなので、真ん中は3番目
  3, 5, 6, 8, 10

中央値は 6 です。
問題 6

中央値の計算(偶数個)

データ: 4, 7, 2, 9, 5, 8 の中央値を求めなさい

解答: 6

解説:
1. データを小さい順に並べる
  2, 4, 5, 7, 8, 9

2. 6個のデータなので、真ん中は3番目と4番目
  2, 4, 5, 7, 8, 9

3. 2つの平均を計算
  (5 + 7) ÷ 2 = 6
問題 7

最頻値

データ: 2, 5, 3, 5, 7, 5, 8, 3 の最頻値を求めなさい

解答: 5

解説:
各値の出現回数を数えます。
• 2 → 1回
• 3 → 2回
• 5 → 3回(最多)
• 7 → 1回
• 8 → 1回

5が3回で最も多いため、最頻値は 5 です。
問題 8

範囲の計算

データ: 15, 22, 18, 30, 12 の範囲を求めなさい

解答: 18

解説:
1. 最大値を見つける → 30
2. 最小値を見つける → 12
3. 範囲 = 最大値 − 最小値
  = 30 − 12 = 18
問題 9

四分位数

データ: 2, 4, 6, 8, 10, 12, 14 の中央値(Q2)を求めなさい

解答: 8

解説:
7個のデータの真ん中は4番目です。
2, 4, 6, 8, 10, 12, 14
     ↑ 4番目

中央値(Q2)は 8 です。
問題 10

四分位範囲

Q1 = 20、Q3 = 35 のとき、四分位範囲を求めなさい

解答: 15

解説:
四分位範囲(IQR)= Q3 − Q1
= 35 − 20
= 15
問題 11

箱ひげ図の読み取り

箱ひげ図で、箱の左端がQ1、右端がQ3を表します。箱の幅が大きいとき、データはどうなっていますか?

解答: 散らばっている

解説:
箱の幅 = Q3 − Q1 = 四分位範囲

四分位範囲が大きいということは、データの中央50%が広い範囲に分布しているということです。
つまり、データが散らばっています。
問題 12

代表値の比較

データ: 5, 10, 10, 10, 60 について、平均値と中央値のどちらが実態を表していますか?

解答: 中央値

解説:
まず両方を計算します。

平均値:
(5 + 10 + 10 + 10 + 60) ÷ 5 = 95 ÷ 5 = 19

中央値:
並べ替え: 5, 10, 10, 10, 60
真ん中(3番目)= 10

60という極端な値(外れ値)があるため、平均値は19と高くなっています。
実際のデータは10付近に集中しているため、中央値の10の方が実態を表しています。
問題 13

度数分布表の読み取り

50人のクラスで、相対度数が0.2の階級には何人いますか?

解答: 10人

解説:
相対度数 = 度数 ÷ 全体 なので
度数 = 相対度数 × 全体
= 0.2 × 50
= 10人
問題 14

階級値の計算

階級「30〜40kg」の階級値はいくつですか?

解答: 35kg

解説:
階級値は階級の中央の値です。

階級値 = (階級の下限 + 階級の上限) ÷ 2
= (30 + 40) ÷ 2
= 70 ÷ 2
= 35kg
問題 15

総合問題

テストの点数データ: 60, 70, 80, 80, 90 について、平均値、中央値、最頻値を求めなさい

解答:
平均値 = 76点、中央値 = 80点、最頻値 = 80点

解説:

【平均値】
(60 + 70 + 80 + 80 + 90) ÷ 5
= 380 ÷ 5
= 76点

【中央値】
データは既に並んでいる: 60, 70, 80, 80, 90
5個なので真ん中(3番目)= 80点

【最頻値】
各値の出現回数:
• 60点 → 1回
• 70点 → 1回
• 80点 → 2回(最多)
• 90点 → 1回
最頻値 = 80点

📚 このステップのまとめ

🎯 学習したこと

  • データの種類: 量的データと質的データを区別できる
  • 度数分布表: データを階級に分けて整理できる
  • ヒストグラム: 度数分布表をグラフで表現できる
  • 代表値: 平均値、中央値、最頻値を計算し、使い分けられる
  • 範囲と四分位数: データの散らばりを数値で表現できる
  • 箱ひげ図: データの分布を5つの数値で視覚化して読み取れる
💡 次のステップへ進む前に
練習問題で12問以上正解できたら、STEP 4に進みましょう!
データの整理と要約は統計学の基礎です。しっかり理解してから次に進んでください。

📝

学習メモ

統計検定3級対策 - Step 3

📋 過去のメモ一覧
#artnasekai #学習メモ
LINE