📈 ステップ7:統計の基礎
データを読み解く力を身につけよう!
📚 このステップで学ぶこと
- 代表値(平均値・中央値・最頻値)
- 散らばりの指標(分散・標準偏差)
- 四分位数とパーセンタイル
- 相関と相関係数
🎯 到達目標: データの特徴を数値で表現し、分析できるようになる
1. 統計とは何か?
🎯 統計を一言で言うと
統計とは、「たくさんのデータを、わかりやすくまとめる方法」です。
例1:クラスのテスト
30人のテストの点数があります。
全員の点数を見るのは大変…
→ 「平均点80点」と1つの数字で表す!
例2:YouTubeの再生回数
1万個の動画があります。
全部見るのは無理…
→ 「平均再生回数」や「人気の傾向」を調べる!
📚 統計の2つの種類
| 種類 | 内容 | 例 |
| 記述統計 | データの特徴を数字でまとめる | 平均、中央値、グラフ |
| 推測統計 | 一部のデータから全体を予想 | アンケート100人から日本全体を予想 |
💼 データ分析での統計
- ビジネス: 売上の分析、顧客の傾向
- スポーツ: 打率、得点の平均
- マーケティング: 広告効果の測定
- 機械学習: データの前処理(標準化)
2. 代表値(データを1つの数字で表す)
🎯 代表値とは
代表値とは、たくさんのデータを1つの数字で代表させる値です。
代表値には3種類あります:平均値、中央値、最頻値
① 平均値(へいきんち)
平均 = 全部の合計 ÷ データの個数
簡単に言うと
「全部足して、個数で割る」
ステップ1:全部足す
$70 + 80 + 90 = 240$
ステップ2:個数で割る
$240 \div 3 = 80$
答え:平均80点
⚠️ 平均値の注意点:「外れ値」に弱い!
例:5人の月収
A: 20万円、B: 25万円、C: 22万円、D: 23万円、E: 500万円(社長)
平均を計算:
$(20 + 25 + 22 + 23 + 500) \div 5 = 590 \div 5 = 118$万円
おかしい! ほとんどの人は20万円台なのに、平均は118万円…
→ こういうときは「中央値」を使う!
② 中央値(ちゅうおうち)
簡単に言うと
「並べて、真ん中を取る」(外れ値に影響されない!)
60点、70点、80点、90点、100点
ステップ1:小さい順に並べる
60、70、80、90、100
ステップ2:真ん中を見つける
5個のデータなので、3番目が真ん中
答え:中央値80点
60点、70点、80点、90点
ステップ1:小さい順に並べる
60、70、80、90
ステップ2:真ん中2つの平均を取る
$(70 + 80) \div 2 = 75$
答え:中央値75点
さっきの月収の例:
20万円、22万円、23万円、25万円、500万円
平均:118万円(外れ値に影響された)
中央値:23万円(真ん中の値、実態に近い!)
だから、年収や不動産価格では「中央値」をよく使います!
③ 最頻値(さいひんち)
赤、青、青、青、黄、赤、青、緑
数える:
• 赤:2回
• 青:4回 ← 一番多い!
• 黄:1回
• 緑:1回
答え:最頻値は「青」(4回で最多)
📋 代表値の比較
| 指標 | 求め方 | 特徴 | 使う場面 |
| 平均値 | 全部足して個数で割る | 外れ値に弱い | 通常のデータ |
| 中央値 | 並べて真ん中 | 外れ値に強い | 年収、価格など |
| 最頻値 | 最も多く出る値 | カテゴリデータに有効 | アンケート、分類 |
3. 散らばりの指標(データのバラつき)
🎯 散らばりとは
データがどれくらいバラついているかを表す指標です。
Aクラス:79点、80点、81点
→ みんな同じくらい、バラつきが小さい
Bクラス:50点、80点、110点
→ 点数がバラバラ、バラつきが大きい
平均は同じでも、バラつきが違う!
① 範囲(はんい)
範囲 $= 9 – 1 = 8$
📚 まず「Σ(シグマ)」を理解しよう
Σの意味
読み方:「シグマ」(ギリシャ文字)
意味:Sum(合計)の頭文字Sに似た形
使い方:たくさんの数を足すときの省略記号
普通に書くと:
$x_1 + x_2 + x_3 + x_4 + x_5$
Σを使うと:
$\sum x_i$(「全部足す」という意味)
例:データが 2、4、6 のとき
$\sum x_i = 2 + 4 + 6 = 12$
② 分散(ぶんさん)
分散 = [(データ−平均)²の合計] ÷ データの個数
簡単に言うと
「平均からどれくらい離れているか」を数値化したもの
大きい → バラつきが大きい / 小さい → バラつきが小さい
ステップ1:平均を求める
$\bar{x} = (2 + 4 + 6) \div 3 = 12 \div 3 = 4$
ステップ2:各データと平均の差を計算
• $2 – 4 = -2$
• $4 – 4 = 0$
• $6 – 4 = 2$
ステップ3:差を2乗する(マイナスを消すため)
• $(-2)^2 = 4$
• $(0)^2 = 0$
• $(2)^2 = 4$
ステップ4:2乗した値を全部足す
$4 + 0 + 4 = 8$
ステップ5:データの個数で割る
$8 \div 3 \approx 2.67$
答え:分散 ≒ 2.67
差をそのまま足すと、マイナスとプラスが打ち消し合ってしまいます:
$(-2) + 0 + 2 = 0$(全部消える!)
2乗すると全部プラスになります:
$4 + 0 + 4 = 8$(ちゃんと計算できる!)
③ 標準偏差(ひょうじゅんへんさ)
標準偏差 = √分散
簡単に言うと
「分散のルート(平方根)」
元のデータと同じ単位になる!
分散の問題:
データが「cm」なら、分散は「cm²」になる → 単位が違って分かりにくい!
標準偏差の利点:
ルートを取るから、元の単位「cm」に戻る → 分かりやすい!
分散 = 2.67
標準偏差 $= \sqrt{2.67} \approx 1.63$
• 分散:計算で使う(数式に便利)
• 標準偏差:結果を見る(分かりやすい)
📋 散らばりの指標の比較
| 指標 | 公式 | 特徴 |
| 範囲 | 最大値 − 最小値 | 簡単だが外れ値に弱い |
| 分散 | $\dfrac{\sum(x_i-\bar{x})^2}{n}$ | 計算に使いやすい |
| 標準偏差 | $\sqrt{\text{分散}}$ | 解釈しやすい(元の単位) |
💼 データ分析での応用
- リスク評価: 標準偏差が大きい = リスクが高い
- 品質管理: 製品のばらつきを評価
- 機械学習: 特徴量の正規化(標準化)
4. パーセンタイルと四分位数
🎯 パーセンタイルとは
簡単に言うと
「自分より下に何%の人がいるか」
50、60、65、70、75、80、85、90、95、100
50パーセンタイル:下から50%の位置 = 中央値 = 77.5点
25パーセンタイル:下から25%の位置 ≒ 67.5点
75パーセンタイル:下から75%の位置 ≒ 87.5点
📐 四分位数(しぶんいすう)
四分位数の種類
Q1(第1四分位数):25パーセンタイル(下から25%)
Q2(第2四分位数):50パーセンタイル = 中央値
Q3(第3四分位数):75パーセンタイル(下から75%)
ステップ1:4つに分ける
• 下位25%:1、2、3
• 次の25%:4、5、6
• 次の25%:7、8、9
• 上位25%:10、11、12
ステップ2:境界を見つける
• Q1 = 3.5(3と4の間)
• Q2 = 6.5(6と7の間)= 中央値
• Q3 = 9.5(9と10の間)
📐 四分位範囲(IQR)
四分位範囲 = 第3四分位数 − 第1四分位数
意味
真ん中50%のデータの広がり
IQR $= 9.5 – 3.5 = 6$
意味:真ん中50%のデータは、6ポイントの範囲に入っている
💼 パーセンタイル・四分位数の応用
- 成績表:「あなたは上位25%です」
- 身長・体重:成長曲線のグラフ
- 年収:「年収の中央値」「上位10%」
- 外れ値検出:IQR法による異常値の発見
5. 相関(2つの関係を見る)
🎯 相関とは
相関とは、「2つのデータに関係があるかどうか」を見ることです。
例1:身長と体重
身長が高い人は、体重も重い傾向がある
→ 正の相関がある
例2:気温と暖房使用量
気温が高いと、暖房使用量は減る傾向がある
→ 負の相関がある
例3:身長と数学の成績
身長と数学の成績には関係がない
→ 相関がない
📐 相関係数(そうかんけいすう)
相関係数(r) = 2つのデータの関係の強さを表す数字
| 相関係数の値 | 関係の強さ | 例 |
| $r = 1$ | 完全な正の相関 | 完璧に一緒に動く |
| $0.7 \leqq r < 1$ | 強い正の相関 | 勉強時間と成績 |
| $0.4 \leqq r < 0.7$ | 中程度の正の相関 | 身長と体重 |
| $-0.2 < r < 0.2$ | ほぼ相関なし | 身長と数学の成績 |
| $-0.7 < r \leqq -0.4$ | 中程度の負の相関 | 商品価格と販売数 |
| $r = -1$ | 完全な負の相関 | 完璧に逆に動く |
📊 グラフで見る相関
例:勉強時間(横軸)vs 成績(縦軸)
→ 右に行くほど(勉強時間が増える)、上に行く(成績が上がる)
負の相関($r < 0$):グラフが右下がり \
例:気温(横軸)vs 暖房使用(縦軸)
→ 右に行くほど(気温が上がる)、下に行く(暖房が減る)
相関なし($r \approx 0$):グラフがバラバラ
例:身長(横軸)vs 数学の成績(縦軸)
→ 全く規則性がない
⚠️ 超重要な注意!相関関係 ≠ 因果関係
意味:「関係がある」≠「原因と結果」
相関があっても、一方が原因とは限りません!
データ:アイスの売上と溺水事故
→ 強い正の相関がある!
❌ 間違った解釈:「アイスを食べると溺れる!」
✅ 正しい解釈:「暑い日は、アイスも売れるし、泳ぐ人も増える」
→ 本当の原因は「気温」!
教訓:相関を見つけても、すぐに「原因だ!」と思わないこと
💼 相関の応用
- マーケティング: 広告費と売上の関係を分析
- 医療: 運動量と健康状態の関係
- 投資: 株価同士の連動性を分析
- AI: どの特徴が予測に重要かを判断
6. 練習問題(20問)
実際に問題を解いて理解を深めましょう。
平均値
次のテストの点数の平均を求めなさい:60, 70, 80, 90, 100
【ステップ1】全部足す
$60 + 70 + 80 + 90 + 100 = 400$
【ステップ2】個数で割る
$400 \div 5 = 80$
中央値(奇数個)
次のデータの中央値を求めなさい:3, 1, 4, 1, 5, 9, 2
【ステップ1】小さい順に並べる
1, 1, 2, 3, 4, 5, 9
【ステップ2】真ん中を見つける
7個あるので、4番目が真ん中 → 3
【ポイント】必ず小さい順に並べてから真ん中を探す!
中央値(偶数個)
次のデータの中央値を求めなさい:2, 4, 6, 8
【ステップ1】データ数が偶数(4個)
2, 4, 6, 8
【ステップ2】真ん中2つの平均を取る
$(4 + 6) \div 2 = 10 \div 2 = 5$
【ポイント】偶数個のときは真ん中2つの平均!
最頻値
次のデータの最頻値を求めなさい:1, 2, 2, 3, 3, 3, 4, 5, 5
【各値の出現回数を数える】
1: 1回、2: 2回、3: 3回 ← 最多!、4: 1回、5: 2回
【ポイント】最頻値 = 最も頻繁に出る値
外れ値の影響
データ:1, 2, 3, 4, 100 の平均と中央値を求め、どちらが代表的か判断しなさい。
【平均】
$(1+2+3+4+100) \div 5 = 110 \div 5 = 22$
【中央値】
1, 2, 3, 4, 100 → 3
【ポイント】外れ値(100)があるとき、中央値の方が代表的な値を表す
範囲
次のデータの範囲を求めなさい:10, 15, 20, 25, 30
範囲 = 最大値 − 最小値
$= 30 – 10 = 20$
分散
次のデータの分散を求めなさい:2, 4, 6
【ステップ1】平均を求める
$\bar{x} = (2+4+6) \div 3 = 12 \div 3 = 4$
【ステップ2】各データと平均の差を2乗
$(2-4)^2 = 4$、$(4-4)^2 = 0$、$(6-4)^2 = 4$
【ステップ3】2乗の平均
分散 $= (4+0+4) \div 3 = 8 \div 3 \approx 2.67$
標準偏差
例題7のデータの標準偏差を求めなさい。
分散 $= \dfrac{8}{3} \approx 2.67$
標準偏差 $= \sqrt{2.67} \approx 1.63$
【ポイント】標準偏差 = √分散
標準偏差の解釈
A組:平均80点、標準偏差10点 / B組:平均80点、標準偏差2点
どちらがばらつきが大きい?
標準偏差が大きい方がばらつきが大きい
A組:10点 > B組:2点
【解釈】
A組:得点のばらつきが大きい(得意・不得意がはっきり)
B組:得点がまとまっている(みんな同じくらい)
標準化(Zスコア)
平均60点、標準偏差10点のテストで75点を取った。平均より何標準偏差高い?
【計算】
$\dfrac{75 – 60}{10} = \dfrac{15}{10} = 1.5$
【ポイント】これを「標準化」や「Zスコア」といい、機械学習の前処理でよく使われます
四分位数
データ:1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12 の Q1, Q2, Q3 を求めなさい。
【12個のデータを4つに分ける】
1, 2, 3 | 4, 5, 6 | 7, 8, 9 | 10, 11, 12
Q1 = $(3+4)/2 = 3.5$
Q2 = $(6+7)/2 = 6.5$(中央値)
Q3 = $(9+10)/2 = 9.5$
四分位範囲(IQR)
例題11のデータで、四分位範囲(IQR)を求めなさい。
IQR = Q3 − Q1
$= 9.5 – 3.5 = 6$
【ポイント】IQRは中央50%のデータの範囲を表す
相関係数の解釈
相関係数が0.8のとき、どのような関係がある?
$0.7 \leqq r < 1.0$ は強い正の相関
一方が増えると、もう一方もかなり増える傾向
相関と因果
勉強時間と成績の相関係数が0.7。「勉強時間が成績の原因」と言えるか?
相関係数0.7 → 強い正の相関がある ○
「原因である」とは言えない ×
【重要】相関関係と因果関係は別物!相関があっても因果とは限りません
総合問題
売上データ(万円):10, 15, 20, 25, 30 の平均、中央値、範囲、分散、標準偏差を求めなさい。
【中央値】10, 15, 20, 25, 30 → 20万円
【範囲】$30 – 10 = 20$万円
【分散】
$[(10-20)^2 + (15-20)^2 + (20-20)^2 + (25-20)^2 + (30-20)^2] / 5$
$= [100 + 25 + 0 + 25 + 100] / 5 = 250 / 5 = 50$
【標準偏差】$\sqrt{50} \approx 7.07$万円
平均と中央値の関係
A組:平均70点、中央値75点 / B組:平均70点、中央値65点
どちらに低得点者が多い?
【考え方】
A組:平均 < 中央値 → 高得点側に偏り
B組:平均 > 中央値 → 低得点側に偏り
【ポイント】
平均 > 中央値 → 低得点側に偏り(低得点者が多い)
平均 < 中央値 → 高得点側に偏り
外れ値がある場合
年収データ:300, 350, 400, 400, 450, 500, 500, 550, 5000(万円)
平均と中央値のどちらが実態を表す?
【平均】$8450 \div 9 \approx 939$万円
【中央値】450万円
5000万円という外れ値(社長?)があるため、中央値の方が実態を表している
【ポイント】外れ値がある場合、中央値の方が適切!
IQR法による外れ値検出
データ:1, 2, 3, 4, 5, 6, 7, 8, 9, 100 で外れ値を検出しなさい。
(基準:Q1−1.5×IQR未満、またはQ3+1.5×IQR超)
【ステップ1】Q1とQ3を求める
Q1 = $(3+4)/2 = 3.5$、Q3 = $(8+9)/2 = 8.5$
【ステップ2】IQRを計算
IQR = $8.5 – 3.5 = 5$
【ステップ3】外れ値の範囲を計算
下限 = $3.5 – 1.5 \times 5 = -4$
上限 = $8.5 + 1.5 \times 5 = 16$
【ステップ4】範囲外の値を探す
$100 > 16$ なので、100は外れ値
適切な統計量の選択
ウェブサイトの訪問時間(分):1, 2, 2, 3, 3, 3, 4, 5, 8, 10
適切な代表値はどれ?
【平均】$(1+2+2+3+3+3+4+5+8+10)/10 = 4.1$分
【中央値】$(3+3)/2 = 3$分
【最頻値】3(3回出現)
長時間滞在者(8分、10分)が平均を引き上げているため、中央値の方が典型的な訪問時間を表している
投資リスクの評価
商品A:リターン 5, 7, 6, 8, 9(%)
商品B:リターン -10, 20, 5, 10, 25(%)
どちらがリスクが高い?
【商品A】
平均 = $(5+7+6+8+9)/5 = 7$%
分散 = $(4+0+1+1+4)/5 = 2$
標準偏差 $= \sqrt{2} \approx 1.41$%
【商品B】
平均 = $(-10+20+5+10+25)/5 = 10$%
分散 = $(400+100+25+0+225)/5 = 150$
標準偏差 $= \sqrt{150} \approx 12.25$%
【結論】
商品A:低リスク・低リターン(標準偏差1.41%)
商品B:高リスク・高リターン(標準偏差12.25%)
【ポイント】標準偏差が大きい = リスクが高い
📚 このステップのまとめ
1. 代表値
• 平均値:全部足して個数で割る(外れ値に弱い)
• 中央値:並べて真ん中(外れ値に強い)
• 最頻値:最も多く出る値
2. 散らばりの指標
• 分散:$(x_i – \bar{x})^2$の平均
• 標準偏差:$\sqrt{\text{分散}}$
3. 四分位数
• Q1(25%)、Q2(50%=中央値)、Q3(75%)
• IQR = Q3 − Q1
4. 相関係数
• $-1 \leqq r \leqq 1$
• 相関 ≠ 因果(超重要!)
例題を復習して、統計の基本計算ができるようになったらステップ8に進みましょう!
次は「線形代数の基礎」を学びます。
学習メモ
数学基礎 - Step 7