ステップ7:統計の基礎

📈 ステップ7:統計の基礎

データを読み解く力を身につけよう!

📚 このステップで学ぶこと

  • 代表値(平均値・中央値・最頻値)
  • 散らばりの指標(分散・標準偏差)
  • 四分位数とパーセンタイル
  • 相関と相関係数
📝 例題: 20問
🎯 到達目標: データの特徴を数値で表現し、分析できるようになる

1. 統計とは何か?

🎯 統計を一言で言うと

統計とは、「たくさんのデータを、わかりやすくまとめる方法」です。

身近な例で理解しよう

例1:クラスのテスト
30人のテストの点数があります。
全員の点数を見るのは大変…
→ 「平均点80点」と1つの数字で表す!

例2:YouTubeの再生回数
1万個の動画があります。
全部見るのは無理…
→ 「平均再生回数」や「人気の傾向」を調べる!

📚 統計の2つの種類

種類 内容
記述統計 データの特徴を数字でまとめる 平均、中央値、グラフ
推測統計 一部のデータから全体を予想 アンケート100人から日本全体を予想
💡 このステップでは「記述統計」を学びます!

💼 データ分析での統計

  • ビジネス: 売上の分析、顧客の傾向
  • スポーツ: 打率、得点の平均
  • マーケティング: 広告効果の測定
  • 機械学習: データの前処理(標準化)

2. 代表値(データを1つの数字で表す)

🎯 代表値とは

代表値とは、たくさんのデータを1つの数字で代表させる値です。

代表値には3種類あります:平均値、中央値、最頻値

① 平均値(へいきんち)

$\bar{x} = \dfrac{x_1 + x_2 + \cdots + x_n}{n} = \dfrac{\sum x_i}{n}$

平均 = 全部の合計 ÷ データの個数

簡単に言うと

「全部足して、個数で割る」

📝 例:テストの点数が 70点、80点、90点

ステップ1:全部足す
$70 + 80 + 90 = 240$

ステップ2:個数で割る
$240 \div 3 = 80$

答え:平均80点

⚠️ 平均値の注意点:「外れ値」に弱い!

例:5人の月収

A: 20万円、B: 25万円、C: 22万円、D: 23万円、E: 500万円(社長)

平均を計算:

$(20 + 25 + 22 + 23 + 500) \div 5 = 590 \div 5 = 118$万円

おかしい! ほとんどの人は20万円台なのに、平均は118万円…

→ こういうときは「中央値」を使う!

② 中央値(ちゅうおうち)

中央値 = データを小さい順に並べて、真ん中の値

簡単に言うと

「並べて、真ん中を取る」(外れ値に影響されない!)

📝 例1:データが奇数個(5個)の場合
60点、70点、80点、90点、100点

ステップ1:小さい順に並べる
60、70、80、90、100

ステップ2:真ん中を見つける
5個のデータなので、3番目が真ん中

答え:中央値80点
📝 例2:データが偶数個(4個)の場合
60点、70点、80点、90点

ステップ1:小さい順に並べる
60、70、80、90

ステップ2:真ん中2つの平均を取る
$(70 + 80) \div 2 = 75$

答え:中央値75点
🎯 中央値の利点:外れ値に強い!

さっきの月収の例:
20万円、22万円、23万円、25万円、500万円

平均:118万円(外れ値に影響された)
中央値:23万円(真ん中の値、実態に近い!)

だから、年収や不動産価格では「中央値」をよく使います!

③ 最頻値(さいひんち)

最頻値 = 最も多く出てくる値(一番人気)
📝 例:好きな色のアンケート結果
赤、青、青、青、黄、赤、青、緑

数える:
• 赤:2回
• 青:4回 ← 一番多い!
• 黄:1回
• 緑:1回

答え:最頻値は「青」(4回で最多)
💡 最頻値を使う場面:アンケート、好きなもの調査など、「カテゴリー」のデータ

📋 代表値の比較

指標 求め方 特徴 使う場面
平均値 全部足して個数で割る 外れ値に弱い 通常のデータ
中央値 並べて真ん中 外れ値に強い 年収、価格など
最頻値 最も多く出る値 カテゴリデータに有効 アンケート、分類

3. 散らばりの指標(データのバラつき)

🎯 散らばりとは

データがどれくらいバラついているかを表す指標です。

例:2つのクラスのテスト(どちらも平均80点)

Aクラス:79点、80点、81点
→ みんな同じくらい、バラつきが小さい

Bクラス:50点、80点、110点
→ 点数がバラバラ、バラつきが大きい

平均は同じでも、バラつきが違う!

① 範囲(はんい)

範囲 = 最大値 − 最小値
📝 例:データ 1、3、5、7、9

範囲 $= 9 – 1 = 8$
💡 特徴:簡単だが、外れ値に弱い

📚 まず「Σ(シグマ)」を理解しよう

$\sum$ = 「合計」という意味

Σの意味

読み方:「シグマ」(ギリシャ文字)

意味:Sum(合計)の頭文字Sに似た形

使い方:たくさんの数を足すときの省略記号

具体例

普通に書くと:
$x_1 + x_2 + x_3 + x_4 + x_5$

Σを使うと:
$\sum x_i$(「全部足す」という意味)

例:データが 2、4、6 のとき
$\sum x_i = 2 + 4 + 6 = 12$

② 分散(ぶんさん)

$\sigma^2 = \dfrac{\sum(x_i – \bar{x})^2}{n}$

分散 = [(データ−平均)²の合計] ÷ データの個数

簡単に言うと

「平均からどれくらい離れているか」を数値化したもの

大きい → バラつきが大きい / 小さい → バラつきが小さい

📝 例:データが 2、4、6 のとき、分散を求める

ステップ1:平均を求める
$\bar{x} = (2 + 4 + 6) \div 3 = 12 \div 3 = 4$

ステップ2:各データと平均の差を計算
• $2 – 4 = -2$
• $4 – 4 = 0$
• $6 – 4 = 2$

ステップ3:差を2乗する(マイナスを消すため)
• $(-2)^2 = 4$
• $(0)^2 = 0$
• $(2)^2 = 4$

ステップ4:2乗した値を全部足す
$4 + 0 + 4 = 8$

ステップ5:データの個数で割る
$8 \div 3 \approx 2.67$

答え:分散 ≒ 2.67
🤔 なぜ2乗するの?

差をそのまま足すと、マイナスとプラスが打ち消し合ってしまいます:
$(-2) + 0 + 2 = 0$(全部消える!)

2乗すると全部プラスになります:
$4 + 0 + 4 = 8$(ちゃんと計算できる!)

③ 標準偏差(ひょうじゅんへんさ)

$\sigma = \sqrt{\sigma^2} = \sqrt{\dfrac{\sum(x_i – \bar{x})^2}{n}}$

標準偏差 = √分散

簡単に言うと

「分散のルート(平方根)」

元のデータと同じ単位になる!

🤔 なぜ標準偏差が必要?

分散の問題:
データが「cm」なら、分散は「cm²」になる → 単位が違って分かりにくい!

標準偏差の利点:
ルートを取るから、元の単位「cm」に戻る → 分かりやすい!
📝 例:さっきのデータ(2、4、6)

分散 = 2.67
標準偏差 $= \sqrt{2.67} \approx 1.63$
💡 使い分け:
分散:計算で使う(数式に便利)
標準偏差:結果を見る(分かりやすい)

📋 散らばりの指標の比較

指標 公式 特徴
範囲 最大値 − 最小値 簡単だが外れ値に弱い
分散 $\dfrac{\sum(x_i-\bar{x})^2}{n}$ 計算に使いやすい
標準偏差 $\sqrt{\text{分散}}$ 解釈しやすい(元の単位)

💼 データ分析での応用

  • リスク評価: 標準偏差が大きい = リスクが高い
  • 品質管理: 製品のばらつきを評価
  • 機械学習: 特徴量の正規化(標準化)

4. パーセンタイルと四分位数

🎯 パーセンタイルとは

パーセンタイル = データを小さい順に並べて、下から何%の位置か

簡単に言うと

「自分より下に何%の人がいるか」

📝 例:10人のテスト結果
50、60、65、70、75、80、85、90、95、100

50パーセンタイル:下から50%の位置 = 中央値 = 77.5点
25パーセンタイル:下から25%の位置 ≒ 67.5点
75パーセンタイル:下から75%の位置 ≒ 87.5点

📐 四分位数(しぶんいすう)

四分位数 = データを4等分する境界の値

四分位数の種類

Q1(第1四分位数):25パーセンタイル(下から25%)

Q2(第2四分位数):50パーセンタイル = 中央値

Q3(第3四分位数):75パーセンタイル(下から75%)

📝 例:1、2、3、4、5、6、7、8、9、10、11、12

ステップ1:4つに分ける
• 下位25%:1、2、3
• 次の25%:4、5、6
• 次の25%:7、8、9
• 上位25%:10、11、12

ステップ2:境界を見つける
• Q1 = 3.5(3と4の間)
• Q2 = 6.5(6と7の間)= 中央値
• Q3 = 9.5(9と10の間)

📐 四分位範囲(IQR)

$\text{IQR} = Q3 – Q1$

四分位範囲 = 第3四分位数 − 第1四分位数

意味

真ん中50%のデータの広がり

📝 例:Q1 = 3.5、Q3 = 9.5 のとき

IQR $= 9.5 – 3.5 = 6$

意味:真ん中50%のデータは、6ポイントの範囲に入っている
💡 IQRの使い道:バラつきを測る、外れ値を見つける、箱ひげ図を作る

💼 パーセンタイル・四分位数の応用

  • 成績表:「あなたは上位25%です」
  • 身長・体重:成長曲線のグラフ
  • 年収:「年収の中央値」「上位10%」
  • 外れ値検出:IQR法による異常値の発見

5. 相関(2つの関係を見る)

🎯 相関とは

相関とは、「2つのデータに関係があるかどうか」を見ることです。

例で理解しよう

例1:身長と体重
身長が高い人は、体重も重い傾向がある
正の相関がある

例2:気温と暖房使用量
気温が高いと、暖房使用量は減る傾向がある
負の相関がある

例3:身長と数学の成績
身長と数学の成績には関係がない
相関がない

📐 相関係数(そうかんけいすう)

$-1 \leqq r \leqq 1$

相関係数(r) = 2つのデータの関係の強さを表す数字
相関係数の値 関係の強さ
$r = 1$ 完全な正の相関 完璧に一緒に動く
$0.7 \leqq r < 1$ 強い正の相関 勉強時間と成績
$0.4 \leqq r < 0.7$ 中程度の正の相関 身長と体重
$-0.2 < r < 0.2$ ほぼ相関なし 身長と数学の成績
$-0.7 < r \leqq -0.4$ 中程度の負の相関 商品価格と販売数
$r = -1$ 完全な負の相関 完璧に逆に動く

📊 グラフで見る相関

正の相関($r > 0$):グラフが右上がり /
例:勉強時間(横軸)vs 成績(縦軸)
→ 右に行くほど(勉強時間が増える)、上に行く(成績が上がる)

負の相関($r < 0$):グラフが右下がり \
例:気温(横軸)vs 暖房使用(縦軸)
→ 右に行くほど(気温が上がる)、下に行く(暖房が減る)

相関なし($r \approx 0$):グラフがバラバラ
例:身長(横軸)vs 数学の成績(縦軸)
→ 全く規則性がない

⚠️ 超重要な注意!相関関係 ≠ 因果関係

意味:「関係がある」≠「原因と結果」

相関があっても、一方が原因とは限りません!

有名な間違い例:

データ:アイスの売上と溺水事故
→ 強い正の相関がある!

❌ 間違った解釈:「アイスを食べると溺れる!」

✅ 正しい解釈:「暑い日は、アイスも売れるし、泳ぐ人も増える」
→ 本当の原因は「気温」!

教訓:相関を見つけても、すぐに「原因だ!」と思わないこと

💼 相関の応用

  • マーケティング: 広告費と売上の関係を分析
  • 医療: 運動量と健康状態の関係
  • 投資: 株価同士の連動性を分析
  • AI: どの特徴が予測に重要かを判断

6. 練習問題(20問)

実際に問題を解いて理解を深めましょう。

例題 1

平均値

次のテストの点数の平均を求めなさい:60, 70, 80, 90, 100

解答: 80点

【ステップ1】全部足す
$60 + 70 + 80 + 90 + 100 = 400$

【ステップ2】個数で割る
$400 \div 5 = 80$
例題 2

中央値(奇数個)

次のデータの中央値を求めなさい:3, 1, 4, 1, 5, 9, 2

解答: 3

【ステップ1】小さい順に並べる
1, 1, 2, 3, 4, 5, 9

【ステップ2】真ん中を見つける
7個あるので、4番目が真ん中 → 3

【ポイント】必ず小さい順に並べてから真ん中を探す!
例題 3

中央値(偶数個)

次のデータの中央値を求めなさい:2, 4, 6, 8

解答: 5

【ステップ1】データ数が偶数(4個)
2, 4, 6, 8

【ステップ2】真ん中2つの平均を取る
$(4 + 6) \div 2 = 10 \div 2 = 5$

【ポイント】偶数個のときは真ん中2つの平均!
例題 4

最頻値

次のデータの最頻値を求めなさい:1, 2, 2, 3, 3, 3, 4, 5, 5

解答: 3

【各値の出現回数を数える】
1: 1回、2: 2回、3: 3回 ← 最多!、4: 1回、5: 2回

【ポイント】最頻値 = 最も頻繁に出る値
例題 5

外れ値の影響

データ:1, 2, 3, 4, 100 の平均と中央値を求め、どちらが代表的か判断しなさい。

解答: 中央値(3)が代表的

【平均】
$(1+2+3+4+100) \div 5 = 110 \div 5 = 22$

【中央値】
1, 2, 3, 4, 100 → 3

【ポイント】外れ値(100)があるとき、中央値の方が代表的な値を表す
例題 6

範囲

次のデータの範囲を求めなさい:10, 15, 20, 25, 30

解答: 20

範囲 = 最大値 − 最小値
$= 30 – 10 = 20$
例題 7

分散

次のデータの分散を求めなさい:2, 4, 6

解答: $\dfrac{8}{3} \approx 2.67$

【ステップ1】平均を求める
$\bar{x} = (2+4+6) \div 3 = 12 \div 3 = 4$

【ステップ2】各データと平均の差を2乗
$(2-4)^2 = 4$、$(4-4)^2 = 0$、$(6-4)^2 = 4$

【ステップ3】2乗の平均
分散 $= (4+0+4) \div 3 = 8 \div 3 \approx 2.67$
例題 8

標準偏差

例題7のデータの標準偏差を求めなさい。

解答: 約1.63

分散 $= \dfrac{8}{3} \approx 2.67$

標準偏差 $= \sqrt{2.67} \approx 1.63$

【ポイント】標準偏差 = √分散
例題 9

標準偏差の解釈

A組:平均80点、標準偏差10点 / B組:平均80点、標準偏差2点
どちらがばらつきが大きい?

解答: A組

標準偏差が大きい方がばらつきが大きい
A組:10点 > B組:2点

【解釈】
A組:得点のばらつきが大きい(得意・不得意がはっきり)
B組:得点がまとまっている(みんな同じくらい)
例題 10

標準化(Zスコア)

平均60点、標準偏差10点のテストで75点を取った。平均より何標準偏差高い?

解答: 1.5標準偏差高い

【計算】
$\dfrac{75 – 60}{10} = \dfrac{15}{10} = 1.5$

【ポイント】これを「標準化」や「Zスコア」といい、機械学習の前処理でよく使われます
例題 11

四分位数

データ:1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12 の Q1, Q2, Q3 を求めなさい。

解答: Q1=3.5, Q2=6.5, Q3=9.5

【12個のデータを4つに分ける】
1, 2, 3 | 4, 5, 6 | 7, 8, 9 | 10, 11, 12

Q1 = $(3+4)/2 = 3.5$
Q2 = $(6+7)/2 = 6.5$(中央値)
Q3 = $(9+10)/2 = 9.5$
例題 12

四分位範囲(IQR)

例題11のデータで、四分位範囲(IQR)を求めなさい。

解答: 6

IQR = Q3 − Q1
$= 9.5 – 3.5 = 6$

【ポイント】IQRは中央50%のデータの範囲を表す
例題 13

相関係数の解釈

相関係数が0.8のとき、どのような関係がある?

解答: 強い正の相関

$0.7 \leqq r < 1.0$ は強い正の相関
一方が増えると、もう一方もかなり増える傾向
例題 14

相関と因果

勉強時間と成績の相関係数が0.7。「勉強時間が成績の原因」と言えるか?

解答: 言えない(相関 ≠ 因果)

相関係数0.7 → 強い正の相関がある ○
「原因である」とは言えない ×

【重要】相関関係と因果関係は別物!相関があっても因果とは限りません
例題 15

総合問題

売上データ(万円):10, 15, 20, 25, 30 の平均、中央値、範囲、分散、標準偏差を求めなさい。

【平均】$(10+15+20+25+30)/5 = 100/5 = 20$万円

【中央値】10, 15, 20, 25, 30 → 20万円

【範囲】$30 – 10 = 20$万円

【分散】
$[(10-20)^2 + (15-20)^2 + (20-20)^2 + (25-20)^2 + (30-20)^2] / 5$
$= [100 + 25 + 0 + 25 + 100] / 5 = 250 / 5 = 50$

【標準偏差】$\sqrt{50} \approx 7.07$万円
例題 16

平均と中央値の関係

A組:平均70点、中央値75点 / B組:平均70点、中央値65点
どちらに低得点者が多い?

解答: B組

【考え方】
A組:平均 < 中央値 → 高得点側に偏り
B組:平均 > 中央値 → 低得点側に偏り

【ポイント】
平均 > 中央値 → 低得点側に偏り(低得点者が多い)
平均 < 中央値 → 高得点側に偏り
例題 17

外れ値がある場合

年収データ:300, 350, 400, 400, 450, 500, 500, 550, 5000(万円)
平均と中央値のどちらが実態を表す?

解答: 中央値(450万円)

【平均】$8450 \div 9 \approx 939$万円
【中央値】450万円

5000万円という外れ値(社長?)があるため、中央値の方が実態を表している

【ポイント】外れ値がある場合、中央値の方が適切!
例題 18

IQR法による外れ値検出

データ:1, 2, 3, 4, 5, 6, 7, 8, 9, 100 で外れ値を検出しなさい。
(基準:Q1−1.5×IQR未満、またはQ3+1.5×IQR超)

解答: 100が外れ値

【ステップ1】Q1とQ3を求める
Q1 = $(3+4)/2 = 3.5$、Q3 = $(8+9)/2 = 8.5$

【ステップ2】IQRを計算
IQR = $8.5 – 3.5 = 5$

【ステップ3】外れ値の範囲を計算
下限 = $3.5 – 1.5 \times 5 = -4$
上限 = $8.5 + 1.5 \times 5 = 16$

【ステップ4】範囲外の値を探す
$100 > 16$ なので、100は外れ値
例題 19

適切な統計量の選択

ウェブサイトの訪問時間(分):1, 2, 2, 3, 3, 3, 4, 5, 8, 10
適切な代表値はどれ?

解答: 中央値(3分)が最も適切

【平均】$(1+2+2+3+3+3+4+5+8+10)/10 = 4.1$分
【中央値】$(3+3)/2 = 3$分
【最頻値】3(3回出現)

長時間滞在者(8分、10分)が平均を引き上げているため、中央値の方が典型的な訪問時間を表している
例題 20

投資リスクの評価

商品A:リターン 5, 7, 6, 8, 9(%)
商品B:リターン -10, 20, 5, 10, 25(%)
どちらがリスクが高い?

解答: 商品Bの方がリスクが高い

【商品A】
平均 = $(5+7+6+8+9)/5 = 7$%
分散 = $(4+0+1+1+4)/5 = 2$
標準偏差 $= \sqrt{2} \approx 1.41$%

【商品B】
平均 = $(-10+20+5+10+25)/5 = 10$%
分散 = $(400+100+25+0+225)/5 = 150$
標準偏差 $= \sqrt{150} \approx 12.25$%

【結論】
商品A:低リスク・低リターン(標準偏差1.41%)
商品B:高リスク・高リターン(標準偏差12.25%)

【ポイント】標準偏差が大きい = リスクが高い

📚 このステップのまとめ

📌 覚えておくべきこと

1. 代表値
• 平均値:全部足して個数で割る(外れ値に弱い)
• 中央値:並べて真ん中(外れ値に強い)
• 最頻値:最も多く出る値

2. 散らばりの指標
• 分散:$(x_i – \bar{x})^2$の平均
• 標準偏差:$\sqrt{\text{分散}}$

3. 四分位数
• Q1(25%)、Q2(50%=中央値)、Q3(75%)
• IQR = Q3 − Q1

4. 相関係数
• $-1 \leqq r \leqq 1$
• 相関 ≠ 因果(超重要!)
🎯 次のステップへ進む前に
例題を復習して、統計の基本計算ができるようになったらステップ8に進みましょう!
次は「線形代数の基礎」を学びます。
📝

学習メモ

数学基礎 - Step 7

📋 過去のメモ一覧
#artnasekai #学習メモ
LINE