📈 STEP 5: データの関係を見る
2つのデータの関係性を読み解こう
📖 このステップで学ぶこと
このステップでは、2つのデータの関係性を分析する方法を学びます。散布図、相関係数、正の相関・負の相関、相関と因果関係の違いなど、データ間の関係を理解する重要な概念を習得します。
🎯 到達目標: 散布図が作成でき、相関係数の意味を理解し、相関と因果関係の違いを説明できる
1️⃣ 散布図の作成と読み方
散布図(scatter plot)は、2つのデータの関係を点で表したグラフです。横軸と縦軸にそれぞれ別のデータをとり、各データの組を点で表します。
散布図とは
• 横軸(x軸): 説明変数(原因になりそうなもの)
• 縦軸(y軸): 目的変数(結果として見たいもの)
• 各点: (x, y)の組
例: 身長と体重の関係
• 横軸: 身長
• 縦軸: 体重
• 点: (160cm, 55kg)、(170cm, 65kg) など
学習時間と点数のデータ:
• Aさん: 学習時間 2時間、点数 50点
• Bさん: 学習時間 5時間、点数 80点
• Cさん: 学習時間 3時間、点数 60点
【ステップ1】軸を決める
• 横軸(x軸): 学習時間(原因になりそうなもの)
• 縦軸(y軸): 点数(結果として見たいもの)
【ステップ2】各データを座標で表す
座標は (横軸の値, 縦軸の値) = (学習時間, 点数) で表します。
• Aさん: (2, 50) → 横に2、縦に50の位置
• Bさん: (5, 80) → 横に5、縦に80の位置
• Cさん: (3, 60) → 横に3、縦に60の位置
【散布図のイメージ】
点数
80 | ●B
70 |
60 | ●C
50 | ●A
|_________
2 3 4 5 学習時間
【読み取れること】
点が右上がりに並んでいるので、「学習時間が増えるほど点数が上がる傾向」が見えます。
これは正の相関があることを示しています。
散布図から読み取れること
1. 右上がりの傾向
→ xが増えるとyも増える(正の相関)
例: 勉強時間と点数、身長と体重
2. 右下がりの傾向
→ xが増えるとyは減る(負の相関)
例: 価格と売上数、年齢と体力
3. バラバラ(傾向なし)
→ xとyに関係がない(無相関)
例: 身長と数学の点数、体重と英語力
• 点が右上がりに並んでいる → 正の相関
• 点が右下がりに並んでいる → 負の相関
• 点がバラバラに散らばっている → 無相関
• 点が直線に近いほど相関が強い
2️⃣ 相関係数の意味(強さと方向)
相関係数(correlation coefficient)は、2つのデータの関係の強さと方向を−1から+1の数値で表したものです。
相関係数とは
記号: r(アール)
範囲: −1 ≦ r ≦ +1
値の意味:
• r = +1: 完全な正の相関(完璧に右上がり)
• r = +0.7〜+0.9: 強い正の相関
• r = +0.4〜+0.6: 中程度の正の相関
• r = 0: 無相関(関係なし)
• r = −0.4〜−0.6: 中程度の負の相関
• r = −0.7〜−0.9: 強い負の相関
• r = −1: 完全な負の相関(完璧に右下がり)
(1) 身長と体重の相関係数 r = 0.8
(2) 価格と売上の相関係数 r = −0.7
(3) 身長と数学の点数の相関係数 r = 0.1
【(1) r = 0.8 の解釈】
符号を見る: +(正)
→ 正の相関(一方が増えると他方も増える)
絶対値を見る: |0.8| = 0.8
→ 0.7以上なので「強い」相関
結論: 強い正の相関
身長が高いほど体重も重い傾向が強い
—
【(2) r = −0.7 の解釈】
符号を見る: −(負)
→ 負の相関(一方が増えると他方は減る)
絶対値を見る: |−0.7| = 0.7
→ 0.7以上なので「強い」相関
結論: 強い負の相関
価格が高いほど売上が減る傾向が強い
—
【(3) r = 0.1 の解釈】
符号を見る: +(正)
→ 正の相関の傾向があるが…
絶対値を見る: |0.1| = 0.1
→ 0.4未満なので「ほぼ無相関」
結論: ほぼ無相関
身長と数学の点数にはほとんど関係がない
相関係数の計算(基本的な考え方)
統計学3級レベルでは、相関係数の複雑な計算は出題されませんが、基本的な考え方を理解しておきましょう。
1. 各データの偏差(平均からのずれ)を求める
2. xの偏差とyの偏差を掛け合わせる
3. 標準偏差で調整する
詳しい計算式:
r = Σ[(x – x)(y – ȳ)] ÷ √[Σ(x – x)² × Σ(y – ȳ)²]
※ 試験では電卓やグラフから判断する問題が多いです
• 符号(+か−か): 関係の方向
+なら正の相関、−なら負の相関
• 絶対値の大きさ: 関係の強さ
|r|が1に近いほど強い関係
|r|が0に近いほど弱い関係(無相関)
覚えやすい目安:
• |r| ≧ 0.7 → 強い相関
• 0.4 ≦ |r| < 0.7 → 中程度の相関
• |r| < 0.4 → 弱い相関(ほぼ無相関)
3️⃣ 正の相関・負の相関・無相関
正の相関(positive correlation)
一方が増えると、もう一方も増える関係です。
• 勉強時間と点数
• 身長と体重
• 広告費と売上
• 気温とアイスの売上
• 運動時間と体力
負の相関(negative correlation)
一方が増えると、もう一方は減る関係です。
• 価格と需要量
• 欠席日数と成績
• 年齢と反応速度
• 睡眠不足と集中力
• 移動時間と出発時刻(早く出るほど時間が短い)
無相関(no correlation)
2つのデータに関係がない状態です。
• 身長と数学の点数
• 靴のサイズと英語力
• 誕生日と性格
• 血液型と運動能力
• 髪の長さと計算速度
(1) 練習時間と記録(タイム)の関係(マラソン)
(2) 睡眠時間と作業効率の関係
(3) 誕生月と身長の関係
【(1) 練習時間と記録(タイム)の関係】
考え方: 「練習時間が増えると、タイムはどうなる?」
• 練習時間が増える → 走るのが速くなる → タイムは短くなる
• つまり、一方が増えると他方は減る
答え: 負の相関
※注意: マラソンのタイムは「短いほど良い」ので、練習すると記録(タイム)は減ります。
—
【(2) 睡眠時間と作業効率の関係】
考え方: 「睡眠時間が増えると、作業効率はどうなる?」
• 睡眠時間が増える → 頭がすっきりする → 作業効率が上がる
• つまり、一方が増えると他方も増える
答え: 正の相関
※適度な睡眠の場合。寝すぎると逆効果の場合もあります。
—
【(3) 誕生月と身長の関係】
考え方: 「誕生月が変わると、身長はどうなる?」
• 1月生まれでも12月生まれでも、身長に影響はない
• 誕生月と身長には科学的な関係がない
答え: 無相関
「Aが増えたとき、Bはどうなる?」と考える
• Bも増える → 正の相関
• Bは減る → 負の相関
• Bは変わらない/バラバラ → 無相関
4️⃣ 相関と因果関係の違い
これは統計学で最も重要な概念の1つです。相関があっても、因果関係があるとは限りません。
相関と因果関係の違い
2つのデータに統計的な関係があること
「一緒に動く」「連動している」
因果関係(causation)
一方が原因で、もう一方が結果という関係
「Aが原因でBが起こる」「AがBを引き起こす」
「相関がある ≠ 因果関係がある」
相関があっても、必ずしも因果関係があるわけではありません!
この違いを理解していないと、間違った結論を導いてしまいます。
相関はあるが因果関係がない例
「アイスクリームの売上」と「海水浴場での溺死者数」には強い正の相関がある。
これは「アイスを食べると溺れやすくなる」という因果関係があるのでしょうか?
【なぜ相関があるのか?】
一見すると、「アイスの売上が増える → 溺死者が増える」という関係に見えますが、これは間違いです。
【本当の原因を考える】
両方に影響を与える第3の要因が存在します。
それは「気温」です。
気温が高いと:
• アイスクリームが売れる(暑いから冷たいものが欲しい)
• 海水浴客が増える → 結果として溺死者も増える
【図で表すと】
気温(第3の要因)
↙ ↘
アイスの売上 溺死者数
アイスの売上と溺死者数は、どちらも「気温」という共通の原因で動いているだけです。
アイスを食べることが溺死の原因ではありません。
【このような相関を何と呼ぶか】
• 疑似相関(ぎじそうかん)
• 見せかけの相関
• 第3の要因を交絡因子(こうらくいんし)と呼びます
その他の相関と因果の例
(1) 喫煙と肺がんの相関
(2) 靴のサイズと読解力の相関(子ども対象)
(3) 勉強時間とテストの点数の相関
【(1) 喫煙と肺がんの相関】
結論: 因果関係がある可能性が高い
理由:
• 医学的な研究により、喫煙が肺がんの原因となることが証明されている
• タバコに含まれる発がん性物質が肺の細胞を傷つけるメカニズムが明らかになっている
• 時間的順序がある(喫煙が先、肺がんが後)
—
【(2) 靴のサイズと読解力の相関(子ども対象)】
結論: 因果関係はない(疑似相関)
理由:
「年齢」という第3の要因で説明できます。
年齢が上がると:
• 体が成長して靴のサイズが大きくなる
• 学習が進んで読解力も向上する
靴のサイズを大きくしても読解力は上がりません。
両方とも「年齢」という共通の原因で変化しているだけです。
—
【(3) 勉強時間とテストの点数の相関】
結論: 因果関係がある可能性が高い
理由:
• 勉強することで知識が増える → テストの点数が上がる
• メカニズムが説明できる(学習→記憶→回答)
• 時間的順序がある(勉強が先、テストが後)
ただし注意点:
勉強の「質」や元々の能力なども影響するため、「勉強時間だけ」が点数を決めるわけではありません。
1. 第3の要因が原因の場合
• 身長と語彙力(年齢が共通の原因)
• 消防士の数と火災被害額(都市の規模が原因)
2. 逆の因果関係の場合
• 病院の数と病人の数(病人が多いから病院が多い)
3. 偶然の相関
• 関係のない2つのデータがたまたま相関を示す
• サンプル数が少ない場合に起こりやすい
因果関係を確認するには:
1. 時間的順序: 原因が結果より先に起こっているか
2. メカニズム: 「なぜ」が説明できるか
3. 第3の要因: 他に共通の原因がないか
4. 実験的検証: 実験で確かめられるか
相関が見つかったら、すぐに因果関係と結論づけず、
慎重に他の可能性を検討することが大切です。
📝 練習問題(12問)
このステップの理解度を確認しましょう。
散布図の読み取り
散布図で点が右上がりに並んでいるとき、これは何を意味しますか?
解説:
右上がり = xが増えるとyも増える
= 正の相関
例: 身長が増えると体重も増える
散布図の作成
身長170cm、体重65kgの人を散布図にプロットするとき、座標は?(横軸=身長、縦軸=体重)
解説:
座標は (横軸の値, 縦軸の値) で表します。
• 横軸(身長)= 170
• 縦軸(体重)= 65
よって (170, 65) となります。
散布図のパターン
気温とアイスの売上の散布図を作ると、どのようなパターンになりますか?
解説:
• 気温が高い → 暑い → アイスが欲しくなる → 売上が増える
• 気温が低い → 涼しい/寒い → アイスはあまり欲しくない → 売上が減る
気温が上がるとアイスの売上も上がるので、正の相関(右上がり)になります。
相関係数の範囲
相関係数rの取りうる範囲を答えなさい
解説:
相関係数は必ず−1から+1の間の値をとります。
• r = +1: 完全な正の相関
• r = 0: 無相関
• r = −1: 完全な負の相関
相関係数の意味
r = 0.9 と r = 0.3 では、どちらの方が相関が強いですか?
解説:
相関の強さは、相関係数の絶対値で判断します。
• |0.9| = 0.9(1に近い → 強い相関)
• |0.3| = 0.3(0に近い → 弱い相関)
0.9の方が1に近いので、r = 0.9 の方が相関が強いです。
相関係数の解釈
r = −0.8 は何を意味しますか?
解説:
2つのポイントで判断します。
1. 符号を見る: −(マイナス)
→ 負の相関(一方が増えると他方は減る)
2. 絶対値を見る: |−0.8| = 0.8
→ 0.7以上なので「強い」相関
よって「強い負の相関」です。
相関係数の判定
r = 0.05 のとき、この2つのデータの関係をどう表現しますか?
解説:
• r = 0.05 は 0 に非常に近い値です
• |0.05| = 0.05 < 0.4 なので「弱い相関」以下
• 実質的には「ほとんど関係がない」と言えます
このような場合、2つのデータには意味のある関係はないと判断します。
相関の種類
商品の価格と販売数量の関係は、どのような相関ですか?
解説:
「価格が上がると、販売数量はどうなるか?」と考えます。
• 価格が高い → 買いにくい → 売れる数が減る
• 価格が安い → 買いやすい → 売れる数が増える
一方が増えると他方は減るので、負の相関です。
(これは経済学で「需要の法則」と呼ばれます)
相関の種類
運動時間と体力の関係は、どのような相関ですか?
解説:
「運動時間が増えると、体力はどうなるか?」と考えます。
• 運動時間が長い → 体が鍛えられる → 体力が向上する
• 運動時間が短い → 体が鍛えられない → 体力は低いまま
一方が増えると他方も増えるので、正の相関です。
無相関の判定
血液型と数学の能力には相関がありますか?
解説:
血液型と数学の能力には科学的な関係がありません。
• A型だから数学が得意、ということはない
• B型だから数学が苦手、ということもない
血液型は赤血球の表面にある抗原の違いであり、脳の働きや学習能力とは無関係です。
相関と因果関係
「相関がある」ということは「因果関係がある」ということと同じですか?
解説:
相関があっても、因果関係があるとは限りません。
理由:
• 第3の要因(交絡因子)が隠れている可能性がある
• 因果関係が逆の可能性がある
• 単なる偶然の可能性がある
例:
「アイスの売上」と「溺死者数」には相関があるが、因果関係はない(気温という第3の要因が原因)
疑似相関の例
子どもの「靴のサイズ」と「語彙力」には正の相関があります。これは因果関係ですか?
解説:
「年齢」という第3の要因で説明できます。
年齢が上がると:
• 体が成長する → 靴のサイズが大きくなる
• 学習が進む → 語彙力も向上する
靴のサイズと語彙力は、どちらも「年齢」という共通の原因で変化しています。
靴のサイズを大きくしても語彙力は上がりません。
これは疑似相関(見せかけの相関)の典型的な例です。
📚 このステップのまとめ
🎯 学習したこと
- 散布図: 2つのデータの関係を点で表したグラフ
- 相関係数: −1から+1の値で関係の強さと方向を表す
- 正の相関: 一方が増えると他方も増える関係
- 負の相関: 一方が増えると他方は減る関係
- 無相関: 2つのデータに関係がない状態
- 相関と因果関係の違い: 相関≠因果関係。第3の要因に注意
練習問題で10問以上正解できたら、STEP 6に進みましょう!
「相関と因果関係の違い」は統計学で最も重要な概念の1つです。しっかり理解してください。
学習メモ
統計検定3級対策 - Step 5