📋 このステップで学ぶこと
- MEDIAN関数(中央値)- 外れ値に強い代表値
- MODE関数(最頻値)- 最も多く出現する値
- STDEV/STDEVP関数(標準偏差)- データのばらつき測定
- PERCENTILE/QUARTILE関数(パーセンタイル)- 分布の理解
- CORREL関数(相関係数)- 変数間の関係性分析
- VAR/VARP関数(分散)- ばらつきの定量化
🎯 1. 統計関数とは
統計関数の重要性
統計関数は、データの特徴や傾向を数値で表すための関数です。平均(AVERAGE)だけでは見えないデータの本質を、中央値、標準偏差、相関係数などを使って明らかにできます。
🔑 なぜ平均だけでは不十分なのか?
例えば「年収の平均は500万円」と聞いても、実態が分かりません。一部の高額所得者が平均を引き上げている可能性があるからです。中央値や標準偏差を見ることで、より正確にデータを理解できます。
📊 統計関数の全体像
📈 代表値
• AVERAGE(平均)
• MEDIAN(中央値)
• MODE(最頻値)
📊 ばらつき
• STDEV(標準偏差)
• VAR(分散)
• MAX-MIN(範囲)
📉 分布
• PERCENTILE(百分位数)
• QUARTILE(四分位数)
• RANK(順位)
🔗 関係性
• CORREL(相関係数)
• COVARIANCE(共分散)
💡 このステップで学ぶ関数の使い分け
- データの「真ん中」を知りたい → MEDIAN(外れ値があるとき)
- データの「よくある値」を知りたい → MODE(カテゴリデータ向け)
- データの「ばらつき」を知りたい → STDEV(品質管理など)
- データの「位置」を知りたい → PERCENTILE(上位〇%など)
- 2つのデータの「関係」を知りたい → CORREL(因果関係の調査)
📝 2. MEDIAN関数(中央値)
MEDIAN関数は、データを小さい順に並べたときの真ん中の値を返します。外れ値(極端に大きい/小さい値)の影響を受けにくいのが特徴です。
📌 MEDIAN関数の構文
=MEDIAN(範囲)
範囲:中央値を求めたいデータ範囲
戻り値:データを並べ替えたときの真ん中の値
平均と中央値の違いを理解しよう
📊 平均 vs 中央値 – 外れ値がある場合
データ: 100, 200, 300, 400, 10000(外れ値)
AVERAGE(平均)
計算式
(100+200+300+400+10000) ÷ 5
⚠️ 外れ値(10000)に引っ張られる
MEDIAN(中央値)
並べ替え
100, 200, 300, 400, 10000
✓ 外れ値の影響を受けにくい
💡 給与の「平均年収」より「中央値年収」が重要な理由
一部の高額所得者が平均を大きく引き上げるため、「平均年収500万円」と言われても、多くの人はそれより低い可能性があります。中央値の方が「普通の人の年収」を表しています。
中央値の求め方
📝 MEDIAN関数の使用例(※横スクロールできます)
【中央値の計算方法】
データ数が奇数の場合:真ん中の1つの値
例:1, 3, 5, 7, 9 → 中央値は 5
データ数が偶数の場合:真ん中2つの平均
例:1, 3, 5, 7 → 中央値は (3+5)÷2 = 4
【例:テストの点数】
A列 B列
+——–+———————————-+
1 | 点数 | 統計値 |
+——–+———————————-+
2 | 85 | 平均: =AVERAGE(A2:A6) → 71 |
+——–+———————————-+
3 | 90 | 中央値: =MEDIAN(A2:A6) → 85 |
+——–+———————————-+
4 | 0 | (0点は欠席などの異常値) |
+——–+———————————-+
5 | 85 | |
+——–+———————————-+
6 | 95 | |
+——–+———————————-+
並べ替え:0, 85, 85, 90, 95
→ 真ん中は 85
0点(欠席など)が平均を下げているが、
中央値の方が実態(普通の生徒の点数)を表している
🎯 MEDIANを使うべき場面
- 外れ値がある場合:極端に大きい/小さい値がある
- 給与データ:一部の高額所得者が平均を歪める
- 不動産価格:一部の高額物件が平均を引き上げる
- レスポンスタイム:一部の遅延が平均を悪化させる
📝 3. MODE関数(最頻値)
MODE関数は、データの中で最も頻繁に出現する値を返します。カテゴリデータ(評価、サイズ、色など)の代表値を知りたいときに使います。
📌 MODE関数の構文
=MODE.SNGL(範囲) ← Excel 2010以降(推奨)
=MODE(範囲) ← 古いバージョン・Googleスプレッドシート
範囲:最頻値を求めたいデータ範囲
戻り値:最も多く出現する値
📝 MODE関数の使用例(※横スクロールできます)
【例1:アンケート結果の最頻値】
A列 B列
+——–+———————————-+
1 | 評価 | 最頻値 |
+——–+———————————-+
2 | 5 | =MODE.SNGL(A2:A11) → 4 |
+——–+———————————-+
3 | 4 | 「4」が5回で最多 |
+——–+———————————-+
4 | 4 | |
+——–+———————————-+
5 | 3 | |
+——–+———————————-+
6 | 4 | |
+——–+———————————-+
7 | 5 | |
+——–+———————————-+
8 | 4 | |
+——–+———————————-+
9 | 3 | |
+——–+———————————-+
10 | 4 | |
+——–+———————————-+
11 | 2 | |
+——–+———————————-+
【例2:最も売れているサイズ】
A列 B列
+——–+———————————-+
1 | サイズ | 最頻値 |
+——–+———————————-+
2 | M | =MODE.SNGL(A2:A8) → M |
+——–+———————————-+
3 | L | 「M」が最も売れている |
+——–+———————————-+
4 | M | |
+——–+———————————-+
5 | S | |
+——–+———————————-+
6 | M | |
+——–+———————————-+
7 | L | |
+——–+———————————-+
8 | M | |
+——–+———————————-+
※文字データの場合は数値に変換する必要あり
(S=1, M=2, L=3 など)
💡 MODEを使うべき場面
カテゴリデータの代表値を知りたいとき:
- 最も売れているサイズは?
- 最も多い評価は?
- 最も人気の色は?
⚠️ MODEの注意点
- すべての値が1回ずつしか出現しない場合は#N/Aエラー
- 最頻値が複数ある場合は最初に見つかった値のみ返す
- 複数の最頻値を取得したい場合はMODE.MULTを使用
📝 4. STDEV関数(標準偏差)
STDEV関数は、データのばらつき具合を数値で表します。標準偏差が小さいほどデータは平均の周りに集まり、大きいほどばらついています。
📌 STDEV関数の構文
=STDEV.S(範囲) ← 標本の標準偏差(通常はこちら)
=STDEV.P(範囲) ← 母集団の標準偏差
範囲:ばらつきを求めたいデータ範囲
戻り値:標準偏差(元のデータと同じ単位)
標準偏差で分かること
📊 標準偏差の大きさでばらつきが分かる
✅ データA:ばらつきが小さい(安定)
90, 92, 91, 89, 93
✓ 値が平均(91)の周りに集まっている → 品質が安定
⚠️ データB:ばらつきが大きい(不安定)
60, 95, 85, 100, 115
⚠️ 値が平均(91)から大きくばらついている → 品質が不安定
💡 ポイント
平均は同じ91でも、ばらつきは全く違う!
標準偏差を見ないと、データの本当の姿は分かりません。
📝 STDEV関数の使用例(※横スクロールできます)
【例:品質管理での活用】
A列 B列 C列
+———–+———–+—————————+
1 | 製品A | 製品B | 統計値 |
+———–+———–+—————————+
2 | 100.1 | 98 | A平均: =AVERAGE(A2:A6) → 100 |
+———–+———–+—————————+
3 | 100.2 | 105 | A標準偏差: =STDEV.S(A2:A6) → 0.16 |
+———–+———–+—————————+
4 | 99.9 | 97 | |
+———–+———–+—————————+
5 | 100.0 | 103 | B平均: =AVERAGE(B2:B6) → 100 |
+———–+———–+—————————+
6 | 99.8 | 97 | B標準偏差: =STDEV.S(B2:B6) → 3.67 |
+———–+———–+—————————+
【結論】
・製品Aの標準偏差:0.16(ばらつきが小さい)
・製品Bの標準偏差:3.67(ばらつきが大きい)
→ 製品Aの方が品質が安定している!
【STDEV.S と STDEV.P の違い】
=STDEV.S(範囲) ← 標本(サンプル)の標準偏差
→ 一部のデータから全体を推測するとき(通常はこちら)
=STDEV.P(範囲) ← 母集団(全体)の標準偏差
→ 全てのデータがあるとき(テストの全員の点数など)
🎯 STDEVを使うべき場面
- 品質管理:製品のばらつきを測定(品質の安定性)
- 成績分析:クラスの成績のばらつきを確認
- リスク評価:投資のリスク(値動きの大きさ)を測定
- 製造業:寸法のばらつきを管理
📝 5. PERCENTILE/QUARTILE関数(パーセンタイル)
PERCENTILE関数は、データの中で下から何%の位置にある値を返します。「上位25%の給与」や「95%タイル応答時間」などを知りたいときに使います。
📌 PERCENTILE関数の構文
=PERCENTILE.INC(範囲, パーセント)
範囲:データ範囲
パーセント:0~1の値(0.25=25%, 0.5=50%, 0.75=75%)
=QUARTILE.INC(範囲, 四分位数)
四分位数:0(最小), 1(第1四分位=25%), 2(中央値=50%), 3(第3四分位=75%), 4(最大)
📝 PERCENTILE/QUARTILE関数の使用例(※横スクロールできます)
【パーセンタイルとは】
パーセンタイル = 「下から数えて何%の位置の値」
例:テストの点数が80点で「75パーセンタイル」の場合
→ 受験者の75%はあなたより下の点数
→ あなたは上位25%に入っている
【例:テストの点数分析】
A列 B列
+——–+—————————————+
1 | 点数 | 統計値 |
+——–+—————————————+
2 | 60 | 25%タイル: =PERCENTILE.INC(A2:A11,0.25) → 72.5 |
+——–+—————————————+
3 | 70 | 50%タイル: =PERCENTILE.INC(A2:A11,0.5) → 81 |
+——–+—————————————+
4 | 75 | 75%タイル: =PERCENTILE.INC(A2:A11,0.75) → 88.5 |
+——–+—————————————+
5 | 80 | |
+——–+—————————————+
6 | 82 | 【QUARTILEでも同じ結果】 |
+——–+—————————————+
7 | 85 | 第1四分位: =QUARTILE.INC(A2:A11,1) → 72.5 |
+——–+—————————————+
8 | 88 | 第2四分位: =QUARTILE.INC(A2:A11,2) → 81 |
+——–+—————————————+
9 | 90 | 第3四分位: =QUARTILE.INC(A2:A11,3) → 88.5 |
+——–+—————————————+
10 | 92 | |
+——–+—————————————+
11 | 95 | |
+——–+—————————————+
【実務での活用例】
1. 給与データ
「上位25%の給与」= =PERCENTILE.INC(給与範囲, 0.75)
「下位50%の給与」= =PERCENTILE.INC(給与範囲, 0.5)
2. Webサイトの応答時間
「95%タイル値」= =PERCENTILE.INC(応答時間範囲, 0.95)
→ 95%のユーザーがこの時間以内に表示される
💡 四分位数とは
データを4等分したときの境界値です。
- 第1四分位(Q1):下から25%の位置 = 25パーセンタイル
- 第2四分位(Q2):下から50%の位置 = 中央値
- 第3四分位(Q3):下から75%の位置 = 75パーセンタイル
箱ひげ図(ボックスプロット)を作成するときに使います。
📝 6. CORREL関数(相関係数)
CORREL関数は、2つのデータの関係性の強さを-1~1の値で表します。「勉強時間と成績に関係はあるか?」のような分析に使います。
📌 CORREL関数の構文
=CORREL(範囲1, 範囲2)
範囲1, 範囲2:関係性を調べたい2つのデータ範囲
結果の解釈:
- 1に近い:正の相関(一方が増えると他方も増える)
- 0に近い:相関なし(関係がない)
- -1に近い:負の相関(一方が増えると他方は減る)
📊 相関係数の解釈
📈 正の相関(0.7 ~ 1.0)
• 勉強時間 ↑ → テスト点数 ↑
• 広告費 ↑ → 売上 ↑
• 身長 ↑ → 体重 ↑
➡️ 相関なし(-0.3 ~ 0.3)
• 身長 × テスト点数
• 靴のサイズ × 給与
• 血液型 × 性格
📉 負の相関(-1.0 ~ -0.7)
• 価格 ↑ → 販売数 ↓
• 気温 ↑ → 暖房費 ↓
• 年齢 ↑ → 体力 ↓
📝 CORREL関数の使用例(※横スクロールできます)
【例:勉強時間とテスト点数の関係】
A列 B列
+————+——–+
1 | 勉強時間 | 点数 |
+————+——–+
2 | 2 | 60 |
+————+——–+
3 | 3 | 70 |
+————+——–+
4 | 5 | 85 |
+————+——–+
5 | 7 | 90 |
+————+——–+
6 | 8 | 95 |
+————+——–+
相関係数: =CORREL(A2:A6, B2:B6) → 0.98
【解釈】
0.98 は 1 に非常に近い
→ 強い正の相関あり
→ 勉強時間が増えると点数も増える傾向がある
【相関係数の目安】
| 相関係数の絶対値 | 相関の強さ |
|——————|————–|
| 0.7 ~ 1.0 | 強い相関 |
| 0.4 ~ 0.7 | 中程度の相関 |
| 0.2 ~ 0.4 | 弱い相関 |
| 0.0 ~ 0.2 | ほぼ相関なし |
⚠️ 相関と因果関係は違う!
「相関がある」=「因果関係がある」ではありません。
例:「アイスクリームの売上」と「水難事故の数」には正の相関がありますが、アイスクリームが水難事故を引き起こしているわけではありません。両方とも「暑い夏」という共通の原因があるだけです。
📝 7. VAR関数(分散)
VAR関数は、標準偏差の2乗で、データのばらつきを表します。統計計算の途中で使われることが多いです。
📌 VAR関数の構文
=VAR.S(範囲) ← 標本の分散
=VAR.P(範囲) ← 母集団の分散
関係式:分散 = 標準偏差 × 標準偏差
📝 VAR関数の使用例(※横スクロールできます)
【分散と標準偏差の関係】
データ: 90, 92, 91, 89, 93
標準偏差: =STDEV.S(A2:A6) → 1.58
分散: =VAR.S(A2:A6) → 2.50
確認: 1.58 × 1.58 ≒ 2.50 ✓
【どちらを使うべき?】
実務では標準偏差(STDEV)の方がよく使われます。
理由:標準偏差は元のデータと同じ単位なので解釈しやすい
例:体重データ
標準偏差 = 5kg → 「平均から約5kgのばらつき」と言える
分散 = 25kg² → 「kg²」は直感的に分かりにくい
💡 分散を使う場面
分散は統計計算の中間段階でよく使われます。
- 異なるデータセットの分散を足し合わせるとき
- 回帰分析や分散分析(ANOVA)を行うとき
- ポートフォリオ理論でリスク計算するとき
📊 8. 統計関数の使い分け早見表
📝 どの関数を使うべきか(※横スクロールできます)
【統計関数の使い分け】
┌─────────────────────────────────────────────────────────────────┐
│ 知りたいこと │ 使う関数 │ 例 │
├─────────────────────────────────────────────────────────────────┤
│ 平均値 │ AVERAGE │ 売上の平均 │
├─────────────────────────────────────────────────────────────────┤
│ 外れ値を除いた中心値 │ MEDIAN │ 給与の中央値 │
├─────────────────────────────────────────────────────────────────┤
│ 最も多い値 │ MODE.SNGL │ 最も売れたサイズ │
├─────────────────────────────────────────────────────────────────┤
│ データのばらつき │ STDEV.S │ 品質のばらつき │
├─────────────────────────────────────────────────────────────────┤
│ 上位/下位〇%の値 │ PERCENTILE.INC │ 上位25%の給与 │
├─────────────────────────────────────────────────────────────────┤
│ 2つのデータの関係 │ CORREL │ 勉強と成績の関係 │
├─────────────────────────────────────────────────────────────────┤
│ 最大値と最小値 │ MAX / MIN │ 最高点と最低点 │
├─────────────────────────────────────────────────────────────────┤
│ データの個数 │ COUNT / COUNTA │ 回答者数 │
└─────────────────────────────────────────────────────────────────┘
📝 練習問題
練習 1
初級
MEDIAN関数で中央値を求めてください
📝 表(※横スクロールできます)
A列
1 点数
2 85
3 90
4 0
5 85
6 95
解答:
=MEDIAN(A2:A6)
結果:85
説明:並べ替えると 0, 85, 85, 90, 95 → 真ん中(3番目)は 85
練習 2
初級
MODE関数で最頻値を求めてください
📝 表(※横スクロールできます)
A列
1 評価
2 5
3 4
4 4
5 3
6 4
解答:
=MODE.SNGL(A2:A6)(または =MODE(A2:A6))
結果:4
説明:4が3回出現で最多
練習 3
中級
STDEV関数で標準偏差を求めてください
📝 表(※横スクロールできます)
A列
1 製品重量
2 100.1
3 100.2
4 99.9
5 100.0
6 99.8
解答:
=STDEV.S(A2:A6)
結果:約 0.158
説明:ばらつきが非常に小さい(約0.16g)→ 品質が安定している
練習 4
中級
PERCENTILE関数で75%タイル値を求めてください
📝 表(※横スクロールできます)
A列
1 給与(万円)
2 300
3 350
4 400
5 450
6 500
解答:
=PERCENTILE.INC(A2:A6, 0.75)
結果:475万円
説明:下から75%の位置の値 = 上位25%のラインは475万円
練習 5
上級
CORREL関数で相関係数を求めてください
📝 表(※横スクロールできます)
A列 B列
1 勉強時間 点数
2 2 60
3 3 70
4 5 85
5 7 90
6 8 95
解答:
=CORREL(A2:A6, B2:B6)
結果:約 0.98
説明:0.98は1に非常に近い → 強い正の相関(勉強時間が増えると点数も増える傾向)
練習 6
上級
テストデータの各種統計値を求めてください
📝 表(※横スクロールできます)
A列
1 点数
2 65
3 70
4 75
5 80
6 85
7 90
8 95
9 100
10 100
以下を求めてください:①平均、②中央値、③最頻値、④標準偏差、⑤75%タイル
解答:
- ① 平均:
=AVERAGE(A2:A10) → 約 84.4
- ② 中央値:
=MEDIAN(A2:A10) → 85
- ③ 最頻値:
=MODE.SNGL(A2:A10) → 100
- ④ 標準偏差:
=STDEV.S(A2:A10) → 約 12.7
- ⑤ 75%タイル:
=PERCENTILE.INC(A2:A10, 0.75) → 95
📝 Step 25 のまとめ
✅ このステップで学んだこと
📊 MEDIAN(中央値)
外れ値の影響を受けにくい「真ん中の値」。給与データなどに最適
🏆 MODE(最頻値)
最も多く出現する値。カテゴリデータの代表値に最適
📈 STDEV(標準偏差)
データのばらつき測定。品質管理やリスク評価に必須
📉 PERCENTILE(パーセンタイル)
「下から〇%の位置の値」。分布の理解に活用
🔗 CORREL(相関係数)
2つのデータの関係性を-1~1で表現。因果関係の調査に
📊 VAR(分散)
標準偏差の2乗。統計計算の中間段階で使用
🎯 次のステップへ
統計関数の基礎をマスターしました!次のStep 26では、並べ替え(ソート)の基礎を学びます。データを昇順・降順に並べ替える方法を習得します。
❓ よくある質問
Q1: 平均と中央値、どちらを使うべきですか?
外れ値がない場合は平均、外れ値がある場合は中央値を使いましょう。給与データや不動産価格など、一部に極端な値がある場合は中央値の方が実態を表します。両方計算して大きく異なる場合は、外れ値の影響を疑いましょう。
Q2: STDEV.SとSTDEV.Pの違いは何ですか?
STDEV.Sは標本(サンプル)の標準偏差で、一部のデータから全体を推測するときに使います。STDEV.Pは母集団(全体)の標準偏差で、全てのデータがあるときに使います。通常はSTDEV.Sを使えば問題ありません。
Q3: 相関係数が高いと因果関係があるのですか?
いいえ、相関と因果関係は別物です。相関係数が高くても、「AがBを引き起こす」とは限りません。第三の要因が両方に影響している可能性があります。因果関係の証明には、実験や他の分析が必要です。
Q4: MODE関数でエラーになります。なぜですか?
全ての値が1回ずつしか出現しない場合は#N/Aエラーになります。最頻値が存在しない(全て異なる値)場合にこのエラーが発生します。IFERROR関数と組み合わせてエラー処理することをお勧めします。
Q5: パーセンタイルと四分位数の違いは何ですか?
四分位数はパーセンタイルの特別なケースです。第1四分位=25パーセンタイル、第2四分位=50パーセンタイル(中央値)、第3四分位=75パーセンタイルです。パーセンタイルの方が任意の%を指定できるので柔軟です。
Q6: 標準偏差と分散、どちらを使うべきですか?
通常は標準偏差を使いましょう。標準偏差は元のデータと同じ単位なので解釈しやすいです。「平均から約〇〇のばらつき」と説明できます。分散は統計計算の中間段階や、理論的な分析で使われることが多いです。
Q7: これらの統計関数はGoogleスプレッドシートでも使えますか?
はい、ほぼ同じように使えます。ただし、Googleスプレッドシートでは古い関数名(MODE、STDEV、VARなど)も新しい関数名(MODE.SNGL、STDEV.S、VAR.Sなど)もどちらも使えます。互換性を考えると新しい関数名を使うことをお勧めします。
artnasekai
#artnasekai #学習メモ