Step 25:統計関数の基礎

📊 Step 25: 統計関数の基礎

MEDIAN、MODE、STDEV、PERCENTILE – データ分析の必須統計関数をマスター!

📋 このステップで学ぶこと

  • MEDIAN関数(中央値)- 外れ値に強い代表値
  • MODE関数(最頻値)- 最も多く出現する値
  • STDEV/STDEVP関数(標準偏差)- データのばらつき測定
  • PERCENTILE/QUARTILE関数(パーセンタイル)- 分布の理解
  • CORREL関数(相関係数)- 変数間の関係性分析
  • VAR/VARP関数(分散)- ばらつきの定量化

🎯 1. 統計関数とは

統計関数の重要性

統計関数は、データの特徴や傾向を数値で表すための関数です。平均(AVERAGE)だけでは見えないデータの本質を、中央値、標準偏差、相関係数などを使って明らかにできます。

🔑 なぜ平均だけでは不十分なのか?

例えば「年収の平均は500万円」と聞いても、実態が分かりません。一部の高額所得者が平均を引き上げている可能性があるからです。中央値標準偏差を見ることで、より正確にデータを理解できます。
📊 統計関数の全体像
📈 代表値
• AVERAGE(平均)
• MEDIAN(中央値)
• MODE(最頻値)
📊 ばらつき
• STDEV(標準偏差)
• VAR(分散)
• MAX-MIN(範囲)
📉 分布
• PERCENTILE(百分位数)
• QUARTILE(四分位数)
• RANK(順位)
🔗 関係性
• CORREL(相関係数)
• COVARIANCE(共分散)
💡 このステップで学ぶ関数の使い分け
  • データの「真ん中」を知りたい → MEDIAN(外れ値があるとき)
  • データの「よくある値」を知りたい → MODE(カテゴリデータ向け)
  • データの「ばらつき」を知りたい → STDEV(品質管理など)
  • データの「位置」を知りたい → PERCENTILE(上位〇%など)
  • 2つのデータの「関係」を知りたい → CORREL(因果関係の調査)

📝 2. MEDIAN関数(中央値)

MEDIAN関数は、データを小さい順に並べたときの真ん中の値を返します。外れ値(極端に大きい/小さい値)の影響を受けにくいのが特徴です。

📌 MEDIAN関数の構文

=MEDIAN(範囲)

範囲:中央値を求めたいデータ範囲
戻り値:データを並べ替えたときの真ん中の値

平均と中央値の違いを理解しよう

📊 平均 vs 中央値 – 外れ値がある場合
データ: 100, 200, 300, 400, 10000(外れ値)
AVERAGE(平均)
計算式
(100+200+300+400+10000) ÷ 5
2200
⚠️ 外れ値(10000)に引っ張られる
MEDIAN(中央値)
並べ替え
100, 200, 300, 400, 10000
300
✓ 外れ値の影響を受けにくい
💡 給与の「平均年収」より「中央値年収」が重要な理由

一部の高額所得者が平均を大きく引き上げるため、「平均年収500万円」と言われても、多くの人はそれより低い可能性があります。中央値の方が「普通の人の年収」を表しています。

中央値の求め方

📝 MEDIAN関数の使用例(※横スクロールできます)

【中央値の計算方法】 データ数が奇数の場合:真ん中の1つの値 例:1, 3, 5, 7, 9 → 中央値は 5 データ数が偶数の場合:真ん中2つの平均 例:1, 3, 5, 7 → 中央値は (3+5)÷2 = 4 【例:テストの点数】 A列 B列 +——–+———————————-+ 1 | 点数 | 統計値 | +——–+———————————-+ 2 | 85 | 平均: =AVERAGE(A2:A6) → 71 | +——–+———————————-+ 3 | 90 | 中央値: =MEDIAN(A2:A6) → 85 | +——–+———————————-+ 4 | 0 | (0点は欠席などの異常値) | +——–+———————————-+ 5 | 85 | | +——–+———————————-+ 6 | 95 | | +——–+———————————-+ 並べ替え:0, 85, 85, 90, 95 → 真ん中は 85 0点(欠席など)が平均を下げているが、 中央値の方が実態(普通の生徒の点数)を表している
🎯 MEDIANを使うべき場面
  • 外れ値がある場合:極端に大きい/小さい値がある
  • 給与データ:一部の高額所得者が平均を歪める
  • 不動産価格:一部の高額物件が平均を引き上げる
  • レスポンスタイム:一部の遅延が平均を悪化させる

📝 3. MODE関数(最頻値)

MODE関数は、データの中で最も頻繁に出現する値を返します。カテゴリデータ(評価、サイズ、色など)の代表値を知りたいときに使います。

📌 MODE関数の構文

=MODE.SNGL(範囲) ← Excel 2010以降(推奨)
=MODE(範囲)   ← 古いバージョン・Googleスプレッドシート

範囲:最頻値を求めたいデータ範囲
戻り値:最も多く出現する値

📝 MODE関数の使用例(※横スクロールできます)

【例1:アンケート結果の最頻値】 A列 B列 +——–+———————————-+ 1 | 評価 | 最頻値 | +——–+———————————-+ 2 | 5 | =MODE.SNGL(A2:A11) → 4 | +——–+———————————-+ 3 | 4 | 「4」が5回で最多 | +——–+———————————-+ 4 | 4 | | +——–+———————————-+ 5 | 3 | | +——–+———————————-+ 6 | 4 | | +——–+———————————-+ 7 | 5 | | +——–+———————————-+ 8 | 4 | | +——–+———————————-+ 9 | 3 | | +——–+———————————-+ 10 | 4 | | +——–+———————————-+ 11 | 2 | | +——–+———————————-+ 【例2:最も売れているサイズ】 A列 B列 +——–+———————————-+ 1 | サイズ | 最頻値 | +——–+———————————-+ 2 | M | =MODE.SNGL(A2:A8) → M | +——–+———————————-+ 3 | L | 「M」が最も売れている | +——–+———————————-+ 4 | M | | +——–+———————————-+ 5 | S | | +——–+———————————-+ 6 | M | | +——–+———————————-+ 7 | L | | +——–+———————————-+ 8 | M | | +——–+———————————-+ ※文字データの場合は数値に変換する必要あり (S=1, M=2, L=3 など)
💡 MODEを使うべき場面

カテゴリデータの代表値を知りたいとき:
  • 最も売れているサイズは?
  • 最も多い評価は?
  • 最も人気の色は?
⚠️ MODEの注意点

  • すべての値が1回ずつしか出現しない場合は#N/Aエラー
  • 最頻値が複数ある場合は最初に見つかった値のみ返す
  • 複数の最頻値を取得したい場合はMODE.MULTを使用

📝 4. STDEV関数(標準偏差)

STDEV関数は、データのばらつき具合を数値で表します。標準偏差が小さいほどデータは平均の周りに集まり、大きいほどばらついています。

📌 STDEV関数の構文

=STDEV.S(範囲) ← 標本の標準偏差(通常はこちら)
=STDEV.P(範囲) ← 母集団の標準偏差

範囲:ばらつきを求めたいデータ範囲
戻り値:標準偏差(元のデータと同じ単位)

標準偏差で分かること

📊 標準偏差の大きさでばらつきが分かる
✅ データA:ばらつきが小さい(安定)
90, 92, 91, 89, 93
平均
91
標準偏差
1.58
✓ 値が平均(91)の周りに集まっている → 品質が安定
⚠️ データB:ばらつきが大きい(不安定)
60, 95, 85, 100, 115
平均
91
標準偏差
20.64
⚠️ 値が平均(91)から大きくばらついている → 品質が不安定
💡 ポイント

平均は同じ91でも、ばらつきは全く違う!
標準偏差を見ないと、データの本当の姿は分かりません。

📝 STDEV関数の使用例(※横スクロールできます)

【例:品質管理での活用】 A列 B列 C列 +———–+———–+—————————+ 1 | 製品A | 製品B | 統計値 | +———–+———–+—————————+ 2 | 100.1 | 98 | A平均: =AVERAGE(A2:A6) → 100 | +———–+———–+—————————+ 3 | 100.2 | 105 | A標準偏差: =STDEV.S(A2:A6) → 0.16 | +———–+———–+—————————+ 4 | 99.9 | 97 | | +———–+———–+—————————+ 5 | 100.0 | 103 | B平均: =AVERAGE(B2:B6) → 100 | +———–+———–+—————————+ 6 | 99.8 | 97 | B標準偏差: =STDEV.S(B2:B6) → 3.67 | +———–+———–+—————————+ 【結論】 ・製品Aの標準偏差:0.16(ばらつきが小さい) ・製品Bの標準偏差:3.67(ばらつきが大きい) → 製品Aの方が品質が安定している! 【STDEV.S と STDEV.P の違い】 =STDEV.S(範囲) ← 標本(サンプル)の標準偏差 → 一部のデータから全体を推測するとき(通常はこちら) =STDEV.P(範囲) ← 母集団(全体)の標準偏差 → 全てのデータがあるとき(テストの全員の点数など)
🎯 STDEVを使うべき場面
  • 品質管理:製品のばらつきを測定(品質の安定性)
  • 成績分析:クラスの成績のばらつきを確認
  • リスク評価:投資のリスク(値動きの大きさ)を測定
  • 製造業:寸法のばらつきを管理

📝 5. PERCENTILE/QUARTILE関数(パーセンタイル)

PERCENTILE関数は、データの中で下から何%の位置にある値を返します。「上位25%の給与」や「95%タイル応答時間」などを知りたいときに使います。

📌 PERCENTILE関数の構文

=PERCENTILE.INC(範囲, パーセント)

範囲:データ範囲
パーセント:0~1の値(0.25=25%, 0.5=50%, 0.75=75%)


=QUARTILE.INC(範囲, 四分位数)

四分位数:0(最小), 1(第1四分位=25%), 2(中央値=50%), 3(第3四分位=75%), 4(最大)

📝 PERCENTILE/QUARTILE関数の使用例(※横スクロールできます)

【パーセンタイルとは】 パーセンタイル = 「下から数えて何%の位置の値」 例:テストの点数が80点で「75パーセンタイル」の場合 → 受験者の75%はあなたより下の点数 → あなたは上位25%に入っている 【例:テストの点数分析】 A列 B列 +——–+—————————————+ 1 | 点数 | 統計値 | +——–+—————————————+ 2 | 60 | 25%タイル: =PERCENTILE.INC(A2:A11,0.25) → 72.5 | +——–+—————————————+ 3 | 70 | 50%タイル: =PERCENTILE.INC(A2:A11,0.5) → 81 | +——–+—————————————+ 4 | 75 | 75%タイル: =PERCENTILE.INC(A2:A11,0.75) → 88.5 | +——–+—————————————+ 5 | 80 | | +——–+—————————————+ 6 | 82 | 【QUARTILEでも同じ結果】 | +——–+—————————————+ 7 | 85 | 第1四分位: =QUARTILE.INC(A2:A11,1) → 72.5 | +——–+—————————————+ 8 | 88 | 第2四分位: =QUARTILE.INC(A2:A11,2) → 81 | +——–+—————————————+ 9 | 90 | 第3四分位: =QUARTILE.INC(A2:A11,3) → 88.5 | +——–+—————————————+ 10 | 92 | | +——–+—————————————+ 11 | 95 | | +——–+—————————————+ 【実務での活用例】 1. 給与データ 「上位25%の給与」= =PERCENTILE.INC(給与範囲, 0.75) 「下位50%の給与」= =PERCENTILE.INC(給与範囲, 0.5) 2. Webサイトの応答時間 「95%タイル値」= =PERCENTILE.INC(応答時間範囲, 0.95) → 95%のユーザーがこの時間以内に表示される
💡 四分位数とは

データを4等分したときの境界値です。
  • 第1四分位(Q1):下から25%の位置 = 25パーセンタイル
  • 第2四分位(Q2):下から50%の位置 = 中央値
  • 第3四分位(Q3):下から75%の位置 = 75パーセンタイル
箱ひげ図(ボックスプロット)を作成するときに使います。

📝 6. CORREL関数(相関係数)

CORREL関数は、2つのデータの関係性の強さを-1~1の値で表します。「勉強時間と成績に関係はあるか?」のような分析に使います。

📌 CORREL関数の構文

=CORREL(範囲1, 範囲2)

範囲1, 範囲2:関係性を調べたい2つのデータ範囲

結果の解釈:
  • 1に近い:正の相関(一方が増えると他方も増える)
  • 0に近い:相関なし(関係がない)
  • -1に近い:負の相関(一方が増えると他方は減る)
📊 相関係数の解釈
📈 正の相関(0.7 ~ 1.0)
• 勉強時間 ↑ → テスト点数 ↑
• 広告費 ↑ → 売上 ↑
• 身長 ↑ → 体重 ↑
➡️ 相関なし(-0.3 ~ 0.3)
• 身長 × テスト点数
• 靴のサイズ × 給与
• 血液型 × 性格
📉 負の相関(-1.0 ~ -0.7)
• 価格 ↑ → 販売数 ↓
• 気温 ↑ → 暖房費 ↓
• 年齢 ↑ → 体力 ↓

📝 CORREL関数の使用例(※横スクロールできます)

【例:勉強時間とテスト点数の関係】 A列 B列 +————+——–+ 1 | 勉強時間 | 点数 | +————+——–+ 2 | 2 | 60 | +————+——–+ 3 | 3 | 70 | +————+——–+ 4 | 5 | 85 | +————+——–+ 5 | 7 | 90 | +————+——–+ 6 | 8 | 95 | +————+——–+ 相関係数: =CORREL(A2:A6, B2:B6) → 0.98 【解釈】 0.98 は 1 に非常に近い → 強い正の相関あり → 勉強時間が増えると点数も増える傾向がある 【相関係数の目安】 | 相関係数の絶対値 | 相関の強さ | |——————|————–| | 0.7 ~ 1.0 | 強い相関 | | 0.4 ~ 0.7 | 中程度の相関 | | 0.2 ~ 0.4 | 弱い相関 | | 0.0 ~ 0.2 | ほぼ相関なし |
⚠️ 相関と因果関係は違う!

「相関がある」=「因果関係がある」ではありません。

例:「アイスクリームの売上」と「水難事故の数」には正の相関がありますが、アイスクリームが水難事故を引き起こしているわけではありません。両方とも「暑い夏」という共通の原因があるだけです。

📝 7. VAR関数(分散)

VAR関数は、標準偏差の2乗で、データのばらつきを表します。統計計算の途中で使われることが多いです。

📌 VAR関数の構文

=VAR.S(範囲) ← 標本の分散
=VAR.P(範囲) ← 母集団の分散

関係式:分散 = 標準偏差 × 標準偏差

📝 VAR関数の使用例(※横スクロールできます)

【分散と標準偏差の関係】 データ: 90, 92, 91, 89, 93 標準偏差: =STDEV.S(A2:A6) → 1.58 分散: =VAR.S(A2:A6) → 2.50 確認: 1.58 × 1.58 ≒ 2.50 ✓ 【どちらを使うべき?】 実務では標準偏差(STDEV)の方がよく使われます。 理由:標準偏差は元のデータと同じ単位なので解釈しやすい 例:体重データ 標準偏差 = 5kg → 「平均から約5kgのばらつき」と言える 分散 = 25kg² → 「kg²」は直感的に分かりにくい
💡 分散を使う場面

分散は統計計算の中間段階でよく使われます。
  • 異なるデータセットの分散を足し合わせるとき
  • 回帰分析や分散分析(ANOVA)を行うとき
  • ポートフォリオ理論でリスク計算するとき

📊 8. 統計関数の使い分け早見表

📝 どの関数を使うべきか(※横スクロールできます)

【統計関数の使い分け】 ┌─────────────────────────────────────────────────────────────────┐ │ 知りたいこと │ 使う関数 │ 例 │ ├─────────────────────────────────────────────────────────────────┤ │ 平均値 │ AVERAGE │ 売上の平均 │ ├─────────────────────────────────────────────────────────────────┤ │ 外れ値を除いた中心値 │ MEDIAN │ 給与の中央値 │ ├─────────────────────────────────────────────────────────────────┤ │ 最も多い値 │ MODE.SNGL │ 最も売れたサイズ │ ├─────────────────────────────────────────────────────────────────┤ │ データのばらつき │ STDEV.S │ 品質のばらつき │ ├─────────────────────────────────────────────────────────────────┤ │ 上位/下位〇%の値 │ PERCENTILE.INC │ 上位25%の給与 │ ├─────────────────────────────────────────────────────────────────┤ │ 2つのデータの関係 │ CORREL │ 勉強と成績の関係 │ ├─────────────────────────────────────────────────────────────────┤ │ 最大値と最小値 │ MAX / MIN │ 最高点と最低点 │ ├─────────────────────────────────────────────────────────────────┤ │ データの個数 │ COUNT / COUNTA │ 回答者数 │ └─────────────────────────────────────────────────────────────────┘

📝 練習問題

練習 1
初級

MEDIAN関数で中央値を求めてください

📝 表(※横スクロールできます)

A列 1 点数 2 85 3 90 4 0 5 85 6 95

解答:

=MEDIAN(A2:A6)

結果:85

説明:並べ替えると 0, 85, 85, 90, 95 → 真ん中(3番目)は 85

練習 2
初級

MODE関数で最頻値を求めてください

📝 表(※横スクロールできます)

A列 1 評価 2 5 3 4 4 4 5 3 6 4

解答:

=MODE.SNGL(A2:A6)(または =MODE(A2:A6)

結果:4

説明:4が3回出現で最多

練習 3
中級

STDEV関数で標準偏差を求めてください

📝 表(※横スクロールできます)

A列 1 製品重量 2 100.1 3 100.2 4 99.9 5 100.0 6 99.8

解答:

=STDEV.S(A2:A6)

結果:約 0.158

説明:ばらつきが非常に小さい(約0.16g)→ 品質が安定している

練習 4
中級

PERCENTILE関数で75%タイル値を求めてください

📝 表(※横スクロールできます)

A列 1 給与(万円) 2 300 3 350 4 400 5 450 6 500

解答:

=PERCENTILE.INC(A2:A6, 0.75)

結果:475万円

説明:下から75%の位置の値 = 上位25%のラインは475万円

練習 5
上級

CORREL関数で相関係数を求めてください

📝 表(※横スクロールできます)

A列 B列 1 勉強時間 点数 2 2 60 3 3 70 4 5 85 5 7 90 6 8 95

解答:

=CORREL(A2:A6, B2:B6)

結果:約 0.98

説明:0.98は1に非常に近い → 強い正の相関(勉強時間が増えると点数も増える傾向)

練習 6
上級

テストデータの各種統計値を求めてください

📝 表(※横スクロールできます)

A列 1 点数 2 65 3 70 4 75 5 80 6 85 7 90 8 95 9 100 10 100

以下を求めてください:①平均、②中央値、③最頻値、④標準偏差、⑤75%タイル

解答:

  • ① 平均:=AVERAGE(A2:A10) → 約 84.4
  • ② 中央値:=MEDIAN(A2:A10) → 85
  • ③ 最頻値:=MODE.SNGL(A2:A10) → 100
  • ④ 標準偏差:=STDEV.S(A2:A10) → 約 12.7
  • ⑤ 75%タイル:=PERCENTILE.INC(A2:A10, 0.75) → 95

📝 Step 25 のまとめ

✅ このステップで学んだこと

📊 MEDIAN(中央値)
外れ値の影響を受けにくい「真ん中の値」。給与データなどに最適
🏆 MODE(最頻値)
最も多く出現する値。カテゴリデータの代表値に最適
📈 STDEV(標準偏差)
データのばらつき測定。品質管理やリスク評価に必須
📉 PERCENTILE(パーセンタイル)
「下から〇%の位置の値」。分布の理解に活用
🔗 CORREL(相関係数)
2つのデータの関係性を-1~1で表現。因果関係の調査に
📊 VAR(分散)
標準偏差の2乗。統計計算の中間段階で使用
🎯 次のステップへ

統計関数の基礎をマスターしました!次のStep 26では、並べ替え(ソート)の基礎を学びます。データを昇順・降順に並べ替える方法を習得します。

❓ よくある質問

Q1: 平均と中央値、どちらを使うべきですか?
外れ値がない場合は平均、外れ値がある場合は中央値を使いましょう。給与データや不動産価格など、一部に極端な値がある場合は中央値の方が実態を表します。両方計算して大きく異なる場合は、外れ値の影響を疑いましょう。
Q2: STDEV.SとSTDEV.Pの違いは何ですか?
STDEV.Sは標本(サンプル)の標準偏差で、一部のデータから全体を推測するときに使います。STDEV.Pは母集団(全体)の標準偏差で、全てのデータがあるときに使います。通常はSTDEV.Sを使えば問題ありません。
Q3: 相関係数が高いと因果関係があるのですか?
いいえ、相関と因果関係は別物です。相関係数が高くても、「AがBを引き起こす」とは限りません。第三の要因が両方に影響している可能性があります。因果関係の証明には、実験や他の分析が必要です。
Q4: MODE関数でエラーになります。なぜですか?
全ての値が1回ずつしか出現しない場合は#N/Aエラーになります。最頻値が存在しない(全て異なる値)場合にこのエラーが発生します。IFERROR関数と組み合わせてエラー処理することをお勧めします。
Q5: パーセンタイルと四分位数の違いは何ですか?
四分位数はパーセンタイルの特別なケースです。第1四分位=25パーセンタイル、第2四分位=50パーセンタイル(中央値)、第3四分位=75パーセンタイルです。パーセンタイルの方が任意の%を指定できるので柔軟です。
Q6: 標準偏差と分散、どちらを使うべきですか?
通常は標準偏差を使いましょう。標準偏差は元のデータと同じ単位なので解釈しやすいです。「平均から約〇〇のばらつき」と説明できます。分散は統計計算の中間段階や、理論的な分析で使われることが多いです。
Q7: これらの統計関数はGoogleスプレッドシートでも使えますか?
はい、ほぼ同じように使えます。ただし、Googleスプレッドシートでは古い関数名(MODE、STDEV、VARなど)も新しい関数名(MODE.SNGL、STDEV.S、VAR.Sなど)もどちらも使えます。互換性を考えると新しい関数名を使うことをお勧めします。
📝

学習メモ

Excel・Googleスプレッドシート完全マスター - Step 25

📋 過去のメモ一覧
#artnasekai #学習メモ
LINE