STEP 10:散布図と相関分析

📈 STEP 10: 散布図と相関分析

2つの数値の関係を可視化!相関関係を見つけるデータ分析の醍醐味を体験しよう

📋 このステップで学ぶこと

  • 散布図とは何か、いつ使うのか
  • 散布図の作成方法
  • トレンドライン(傾向線)の追加方法
  • 相関関係の読み取り方
  • サイズと色のエンコーディング(4次元データの表現)
  • 相関と因果関係の違い(重要!)

前提: STEP 6でディメンションとメジャーを理解していること

📊 1. 散布図とは?

まずは身近な例で考えてみよう

散布図(Scatter Plot)は、2つの数値データの関係性を点(ドット)で表現するグラフです。「相関図」とも呼ばれます。

📏 身近な例:身長と体重の関係

クラスの生徒30人の身長と体重を調べたとします。

体重(kg) 70 | ● 60 | ● ● 50 | ● ● ● 40 | ● ● ● 30 | ● +———————— 140 150 160 170 180 身長(cm)

散布図を見ると、「身長が高いほど体重も重い傾向がある」ことが一目でわかります。これが「正の相関」です。

散布図の仕組み

散布図は、2つの数値(メジャー)を軸にとり、各データを点として配置します。

📐 散布図の構成要素
要素 役割 Tableauでの設定
横軸(X軸) 1つ目の数値 列シェルフにメジャーを配置
縦軸(Y軸) 2つ目の数値 行シェルフにメジャーを配置
点(ドット) 各データポイント 詳細マークにディメンションを配置
色(任意) カテゴリの区別 色マークにディメンションを配置
サイズ(任意) 3つ目の数値 サイズマークにメジャーを配置
💡 棒グラフ・折れ線グラフ・円グラフとの違い

これまで学んだグラフとの大きな違いは、両方の軸が数値(メジャー)であることです。

  • 棒グラフ:横軸=カテゴリ、縦軸=数値
  • 折れ線グラフ:横軸=日付、縦軸=数値
  • 円グラフ:角度=数値、色=カテゴリ
  • 散布図:横軸=数値、縦軸=数値

散布図を使うべき場面

散布図は特定の場面で非常に強力です。適切な使い分けを理解しましょう。

✅ 散布図が適している場面
場面 具体例
2つの数値の関係を調べたい 広告費と売上、気温とアイス販売数
相関関係を発見したい 従業員満足度と離職率、価格と購入数
外れ値を見つけたい 異常に高い/低いデータの発見
データの分布を確認したい 顧客の年齢と購入金額の分布
❌ 散布図が適さない場面
場面 理由 代わりに使うグラフ
カテゴリの比較 数値同士の関係ではない 棒グラフ
時系列の推移 点が時間順に並ばない 折れ線グラフ
構成比の表示 全体に対する割合ではない 円グラフ
データ数が極端に少ない 点が少ないと傾向が見えない 表形式

🎨 2. 散布図の作成方法

【準備】サンプルデータを作成しよう

まず、練習用のデータを作成します。店舗ごとの広告費と売上のデータです。

📝 サンプルデータ(store_performance.xlsx)

Excelで新しいファイルを作成し、以下のデータを入力してください。

店舗名 広告費 売上 地域
渋谷店 50000 320000 関東
新宿店 80000 450000 関東
池袋店 30000 180000 関東
梅田店 60000 380000 関西
難波店 45000 280000 関西
三宮店 25000 150000 関西
天神店 40000 250000 九州
博多店 55000 340000 九州
小倉店 20000 120000 九州
札幌店 35000 200000 北海道

ファイル名「store_performance.xlsx」で保存してください。

【実践】散布図を作成しよう

それでは、「広告費」と「売上」の関係を散布図で可視化してみましょう。

🔌 ステップ1:データに接続する
  1. Tableau Publicを起動
  2. 「Connect」→「Microsoft Excel」を選択
  3. 「store_performance.xlsx」を開く
  4. 画面下部の「Sheet 1」タブをクリック
📊 ステップ2:フィールドを配置する

ここが散布図作成の核心部分です。両方の軸にメジャー(数値)を配置します。

  1. データペインから「広告費」を列シェルフにドラッグ
  2. データペインから「売上」を行シェルフにドラッグ
⚠️ この時点で1つの点しか表示されない場合

両方のシェルフにメジャーを配置しただけでは、Tableauはすべての値を合計した1つの点を表示します。これは正常な動作です。

次のステップで「詳細」マークに店舗名を追加すると、店舗ごとの点が表示されます。

🎯 ステップ3:店舗ごとの点を表示する

各店舗を個別の点として表示するために、「詳細」マークを使います。

  1. データペインから「店舗名」をドラッグ
  2. マークカードの「詳細」にドロップ
  3. 10個の点(10店舗分)が表示される
🎉 ステップ4:完成!

散布図が表示されました!各点にマウスを乗せると、店舗名、広告費、売上が確認できます。

右上に向かって点が並んでいる場合、「広告費が高いほど売上も高い」という正の相関があることを示しています。

💡 「詳細」マークとは?

「詳細」マークは、見た目には影響を与えずに、データを分割するためのマークです。ここに「店舗名」を配置すると、Tableauは店舗ごとにデータを分けて、それぞれを別の点として表示します。色やサイズは変わりません。

📈 3. トレンドライン(傾向線)の追加

トレンドラインとは

トレンドラインは、散布図の点の傾向を直線(または曲線)で表現したものです。データ全体の傾向を視覚的に理解しやすくなります。

📈 トレンドラインでわかること
  • 傾きが右上がり:正の相関(Xが増えるとYも増える)
  • 傾きが右下がり:負の相関(Xが増えるとYは減る)
  • 傾きがほぼ水平:相関なし(XとYに関係がない)
  • 線から離れた点:外れ値(例外的なデータ)

【実践】トレンドラインを追加しよう

作成した散布図にトレンドラインを追加します。

📊 トレンドラインの追加手順
  1. 画面上部のメニューから「分析」をクリック
  2. トレンドライン」→「トレンドラインの表示」をクリック
  3. 散布図に直線が表示される
🔧 トレンドラインの種類を変更する

データの性質に合わせて、線の種類を変更できます。

  1. トレンドラインを右クリック
  2. トレンドラインの編集」を選択
  3. 「モデルの種類」を選択:
    • 線形(Linear):直線で傾向を表す(最も一般的)
    • 対数(Logarithmic):曲線、急成長後に鈍化するデータ向け
    • 指数(Exponential):曲線、加速度的に増加するデータ向け
    • 多項式(Polynomial):複雑な曲線、次数を指定

初心者の場合は「線形」を使うのがおすすめです。

トレンドラインの詳細を確認する

トレンドラインには、統計的な情報が含まれています。

📊 トレンドラインの統計情報

トレンドラインにマウスを乗せると、以下の情報が表示されます:

項目 意味 読み方
式(数式) トレンドラインの式 Y = aX + b の形式
R²(R-squared) 決定係数、当てはまりの良さ 0〜1、1に近いほど良い
p値 統計的有意性 0.05未満なら有意
💡 R²(決定係数)の目安
  • R² ≧ 0.7:強い相関(トレンドラインがデータをよく説明している)
  • 0.4 ≦ R² < 0.7:中程度の相関
  • R² < 0.4:弱い相関(他の要因が影響している可能性)

今回のサンプルデータでは、R²が0.9以上になるはずです。広告費と売上に強い正の相関があることを示しています。

🔍 4. 相関関係の読み取り方

3種類の相関パターン

散布図から読み取れる相関関係には、主に3つのパターンがあります。

📈 正の相関(Positive Correlation)
Y軸 ↑ ● ● | ● ● | ● ● | ● +———-→ X軸
  • 特徴:右上がりの傾向
  • 意味:Xが増えるとYも増える
  • 例:広告費↑ → 売上↑、勉強時間↑ → テスト点数↑
📉 負の相関(Negative Correlation)
Y軸 ↑ ● ● | ● ● | ● ● | ● +———-→ X軸
  • 特徴:右下がりの傾向
  • 意味:Xが増えるとYは減る
  • 例:価格↑ → 販売数↓、気温↑ → 暖房使用量↓
⚪ 相関なし(No Correlation)
Y軸 ↑ ● ● | ● ● ● | ● ● | ● ● +———-→ X軸
  • 特徴:点がバラバラに散らばっている
  • 意味:XとYに関係がない(または別の要因が影響)
  • 例:身長と数学の点数、靴のサイズと年収

相関の強さ

相関には「強さ」もあります。点がトレンドラインに近いほど、相関が強いと言えます。

📊 相関の強さの見分け方
相関の強さ 散布図の見た目 R²の目安
強い相関 点がほぼ直線上に並ぶ 0.7以上
中程度の相関 傾向は見えるが、ばらつきがある 0.4〜0.7
弱い相関 傾向がやや見える程度 0.2〜0.4
相関なし 点がランダムに散らばる 0.2未満

🎨 5. サイズと色のエンコーディング(4次元データの表現)

2つ以上の情報を追加する

散布図は「横軸」と「縦軸」の2次元ですが、「色」と「サイズ」を使うことで最大4次元のデータを1つのグラフで表現できます。

🎨 散布図で表現できる4つの次元
次元 表現方法
1. 横軸(X) 点の左右の位置 広告費
2. 縦軸(Y) 点の上下の位置 売上
3. 色 点の色 地域(カテゴリ)
4. サイズ 点の大きさ 利益(数値)

【実践】色で地域を区別しよう

作成した散布図に、地域ごとの色分けを追加します。

🎨 色の追加手順
  1. データペインから「地域」をドラッグ
  2. マークカードの「」にドロップ
  3. 関東、関西、九州、北海道が異なる色で表示される
✅ 色分け後の確認ポイント
  • 画面右側に凡例(地域と色の対応)が表示される
  • 同じ地域の店舗が同じ色で表示される
  • 地域ごとの傾向の違いが見えるようになる

【実践】サイズで追加情報を表現しよう

点のサイズで「利益」などの3つ目の数値を表現することもできます。ただし、今回のサンプルデータには利益フィールドがないため、売上をサイズに使う例を示します。

📏 サイズの追加手順
  1. データペインから「売上」をドラッグ
  2. マークカードの「サイズ」にドロップ
  3. 売上が大きい店舗ほど、点が大きく表示される

注意:サイズに売上を使うと、縦軸の売上と情報が重複します。実務では「利益」「従業員数」など、異なる指標を使うのが効果的です。

💡 この種のグラフは「バブルチャート」とも呼ばれます

点のサイズが変わる散布図は「バブルチャート」と呼ばれることがあります。ビジネスシーンでよく使われ、例えば「売上×利益率×市場規模」のように3つの指標を同時に表現できます。

⚠️ 6. 相関と因果関係の違い(超重要!)

データ分析で最も重要な注意点

散布図で相関関係が見つかったとき、「AがBの原因である」と結論づけるのは危険です。

🚨 相関関係 ≠ 因果関係

相関関係:「AとBが一緒に動く」という観察事実
因果関係:「AがBを引き起こす」という原因と結果の関係

相関があっても、因果があるとは限りません!

📊 有名な例:アイスクリームと溺死事故

「アイスクリームの売上」と「溺死事故の件数」には正の相関があります。

では、アイスクリームを食べると溺れやすくなるのか?

もちろん違います!両方とも「夏(気温が高い)」という第三の要因によって増えているだけです。

🔍 相関関係のパターン
パターン 説明
A → B(因果) AがBの原因(広告費↑ → 売上↑)
B → A(逆因果) BがAの原因(売上↑ → 広告予算↑)
C → A, C → B(交絡) 第三の要因Cが両方に影響(夏 → アイス↑, 夏 → 溺死↑)
偶然の一致 たまたま相関があるように見えるだけ
✅ 因果関係を主張するために必要なこと
  1. 時間的順序:原因が結果より先に起きている
  2. 第三の要因の除外:他の要因の影響を排除できている
  3. 理論的根拠:なぜAがBを引き起こすのか説明できる
  4. 実験による検証:可能であれば、A/Bテストなどで確認
💡 ビジネスでの表現の仕方

散布図の分析結果を報告するときは、表現に気をつけましょう。

❌ 避けるべき表現:

「広告費を増やすと売上が上がることがわかりました」

✅ 適切な表現:

「広告費と売上には正の相関が見られます。広告費が高い店舗は売上も高い傾向があります」

📝 STEP 10 のまとめ

✅ このステップで学んだこと
  • 散布図は、2つの数値の関係を可視化するグラフ
  • 作成方法:列と行の両方にメジャー、詳細マークにディメンション
  • トレンドライン:「分析」→「トレンドラインの表示」で追加
  • R²(決定係数):0.7以上で強い相関
  • 正の相関:右上がり(Xが増えるとYも増える)
  • 負の相関:右下がり(Xが増えるとYは減る)
  • 色とサイズ:4次元までのデータを1つのグラフで表現可能
  • 相関 ≠ 因果:相関があっても、原因と結果とは限らない
💡 最重要ポイント

散布図はデータ分析の醍醐味です。「この2つに関係があるかな?」と思ったら、すぐに散布図を作ってみましょう。ただし、相関関係と因果関係は別物であることを常に意識してください。これはデータ分析者として最も重要な心得の一つです。

🎯 次のステップの準備

次のSTEP 11では、「ヒートマップの作成」を学びます。ヒートマップは2つのカテゴリの交差点を色の濃淡で表現するグラフです。売上マトリックスや時間帯別分析など、ビジネスでよく使われる手法をマスターしましょう!

📝 理解度チェック

問題 1 基礎

散布図を作成するとき、列シェルフと行シェルフには何を配置しますか?

【解答】

両方にメジャー(数値フィールド)を配置します。

これが散布図の最大の特徴です。棒グラフや折れ線グラフでは、片方がディメンション(カテゴリや日付)でしたが、散布図は両方が数値です。例:列シェルフに「広告費」、行シェルフに「売上」を配置します。

問題 2 基礎

トレンドラインのR²(決定係数)が0.85の場合、相関の強さはどの程度ですか?

【解答】

強い相関があります。

R²の目安は以下の通りです:
・0.7以上:強い相関
・0.4〜0.7:中程度の相関
・0.4未満:弱い相関

0.85は0.7以上なので、トレンドラインがデータをよく説明していると言えます。

問題 3 応用

散布図の点が右下がりの傾向を示している場合、これは何という相関ですか?具体例も挙げてください。

【解答】

負の相関(Negative Correlation)です。

Xが増えるとYが減る関係を示しています。

具体例:
・価格を上げると、販売数が減る
・気温が上がると、暖房の使用量が減る
・距離が長くなると、通勤満足度が下がる

問題 4 発展

「相関関係があっても因果関係があるとは限らない」とはどういう意味ですか?具体例を使って説明してください。

【解答】

相関関係は「2つの変数が一緒に動く」という観察事実です。
因果関係は「一方が他方の原因である」という関係です。

具体例:アイスクリームと溺死事故
アイスクリームの売上と溺死事故件数には正の相関がありますが、アイスクリームを食べると溺れやすくなるわけではありません。両方とも「夏(気温が高い)」という第三の要因によって増えているだけです。

このように、相関が見つかっても、それが因果関係かどうかは慎重に判断する必要があります。

🎯 実践演習

演習 1 基礎

store_performance.xlsxのデータを使って、広告費(横軸)と売上(縦軸)の散布図を作成してください。

【手順】
  1. データに接続(store_performance.xlsx)
  2. 「広告費」を列シェルフにドラッグ
  3. 「売上」を行シェルフにドラッグ
  4. 「店舗名」を「詳細」マークにドラッグ

結果:10個の点(10店舗分)が表示され、右上がりの傾向が見える

演習 2 応用

演習1の散布図にトレンドラインを追加し、R²の値を確認してください。相関の強さを判断してください。

【手順】
  1. 「分析」メニュー →「トレンドライン」→「トレンドラインの表示」
  2. トレンドラインにマウスを乗せてR²を確認

結果:R²は約0.95(サンプルデータの場合)。0.7以上なので「強い正の相関」があると判断できます。広告費が高い店舗ほど売上も高い傾向があります。

演習 3 応用

演習1の散布図に、地域ごとの色分けを追加してください。

【手順】
  1. データペインから「地域」をドラッグ
  2. マークカードの「色」にドロップ

結果:関東(青)、関西(オレンジ)、九州(緑)、北海道(赤)などで色分けされ、地域ごとの傾向を比較できる

チャレンジ 発展

色で地域を分けた散布図で、地域ごとにトレンドラインを表示してください。地域によって傾向に違いはありますか?

【手順】
  1. 演習3の状態から、トレンドラインを追加
  2. トレンドラインを右クリック→「トレンドラインの編集」
  3. 「フィールド」に「地域」が選択されていることを確認
  4. 各地域に別々のトレンドラインが表示される

結果:地域ごとに異なるトレンドラインが表示されます。サンプルデータでは、どの地域も似た傾向(正の相関)を示しますが、実際のデータでは地域によって傾きが異なる場合があります。

❓ よくある質問

Q1: 散布図に1つの点しか表示されません。
「詳細」マークにディメンションを追加してください。

列と行にメジャーだけを配置すると、Tableauはすべての値を合計した1つの点を表示します。店舗名や顧客IDなど、データを分割するためのディメンションを「詳細」マークに追加すると、個別の点が表示されます。
Q2: トレンドラインが表示されません。
以下を確認してください:

1. グラフが散布図になっているか(両軸がメジャー)
2. 点が2つ以上あるか(1点ではトレンドラインは引けません)
3. 「分析」→「トレンドライン」→「トレンドラインの表示」がオンになっているか

それでも表示されない場合は、マークタイプが「円」または「形状」になっているか確認してください。
Q3: 点が重なって見にくいです。
いくつかの対処法があります:

1. 透明度を下げる:「色」マークをクリック→「不透明度」を50%程度に
2. 点を小さくする:「サイズ」マークのスライダーを左に移動
3. 色で分ける:ディメンションを「色」に追加して区別
4. ジッター(揺らぎ)を追加:計算フィールドでランダムな微小値を加える
Q4: R²はどこで確認できますか?
トレンドラインにマウスを乗せると表示されます。

トレンドラインを追加した後、線の上にマウスカーソルを置くと、ツールチップに式、R²、p値などの統計情報が表示されます。より詳細な情報を見たい場合は、トレンドラインを右クリック→「トレンドラインの説明」を選択します。
Q5: 散布図と折れ線グラフの使い分けがわかりません。
データの性質で判断します:

散布図を使う場合:
・2つの数値の「関係」を見たい
・時間の順序は関係ない
・各点が独立したデータポイント

折れ線グラフを使う場合:
・時間による「変化」を見たい
・データに時間的な順序がある
・連続的な推移を見たい
Q6: 外れ値(他と大きく異なる点)をどう扱うべきですか?
以下のステップで対処しましょう:

1. まず原因を調査:データ入力ミス?本当に異常な値?特殊な事情?
2. 入力ミスなら修正:正しいデータに直す
3. 本当の外れ値なら:
 ・そのまま含めて分析(外れ値も重要な情報)
 ・フィルターで除外して再分析(傾向を見やすくする)
 ・両方のケースを報告(外れ値あり/なしの比較)

外れ値を無断で削除するのは避けましょう。理由を説明できるようにしてください。
📝

学習メモ

BIツール入門 - Step 10

📋 過去のメモ一覧
#artnasekai #学習メモ
LINE