📈 STEP 10: 散布図と相関分析
2つの数値の関係を可視化!相関関係を見つけるデータ分析の醍醐味を体験しよう
📋 このステップで学ぶこと
- 散布図とは何か、いつ使うのか
- 散布図の作成方法
- トレンドライン(傾向線)の追加方法
- 相関関係の読み取り方
- サイズと色のエンコーディング(4次元データの表現)
- 相関と因果関係の違い(重要!)
前提: STEP 6でディメンションとメジャーを理解していること
📊 1. 散布図とは?
まずは身近な例で考えてみよう
散布図(Scatter Plot)は、2つの数値データの関係性を点(ドット)で表現するグラフです。「相関図」とも呼ばれます。
クラスの生徒30人の身長と体重を調べたとします。
散布図を見ると、「身長が高いほど体重も重い傾向がある」ことが一目でわかります。これが「正の相関」です。
散布図の仕組み
散布図は、2つの数値(メジャー)を軸にとり、各データを点として配置します。
| 要素 | 役割 | Tableauでの設定 |
|---|---|---|
| 横軸(X軸) | 1つ目の数値 | 列シェルフにメジャーを配置 |
| 縦軸(Y軸) | 2つ目の数値 | 行シェルフにメジャーを配置 |
| 点(ドット) | 各データポイント | 詳細マークにディメンションを配置 |
| 色(任意) | カテゴリの区別 | 色マークにディメンションを配置 |
| サイズ(任意) | 3つ目の数値 | サイズマークにメジャーを配置 |
これまで学んだグラフとの大きな違いは、両方の軸が数値(メジャー)であることです。
- 棒グラフ:横軸=カテゴリ、縦軸=数値
- 折れ線グラフ:横軸=日付、縦軸=数値
- 円グラフ:角度=数値、色=カテゴリ
- 散布図:横軸=数値、縦軸=数値
散布図を使うべき場面
散布図は特定の場面で非常に強力です。適切な使い分けを理解しましょう。
| 場面 | 具体例 |
|---|---|
| 2つの数値の関係を調べたい | 広告費と売上、気温とアイス販売数 |
| 相関関係を発見したい | 従業員満足度と離職率、価格と購入数 |
| 外れ値を見つけたい | 異常に高い/低いデータの発見 |
| データの分布を確認したい | 顧客の年齢と購入金額の分布 |
| 場面 | 理由 | 代わりに使うグラフ |
|---|---|---|
| カテゴリの比較 | 数値同士の関係ではない | 棒グラフ |
| 時系列の推移 | 点が時間順に並ばない | 折れ線グラフ |
| 構成比の表示 | 全体に対する割合ではない | 円グラフ |
| データ数が極端に少ない | 点が少ないと傾向が見えない | 表形式 |
🎨 2. 散布図の作成方法
【準備】サンプルデータを作成しよう
まず、練習用のデータを作成します。店舗ごとの広告費と売上のデータです。
Excelで新しいファイルを作成し、以下のデータを入力してください。
| 店舗名 | 広告費 | 売上 | 地域 |
|---|---|---|---|
| 渋谷店 | 50000 | 320000 | 関東 |
| 新宿店 | 80000 | 450000 | 関東 |
| 池袋店 | 30000 | 180000 | 関東 |
| 梅田店 | 60000 | 380000 | 関西 |
| 難波店 | 45000 | 280000 | 関西 |
| 三宮店 | 25000 | 150000 | 関西 |
| 天神店 | 40000 | 250000 | 九州 |
| 博多店 | 55000 | 340000 | 九州 |
| 小倉店 | 20000 | 120000 | 九州 |
| 札幌店 | 35000 | 200000 | 北海道 |
ファイル名「store_performance.xlsx」で保存してください。
【実践】散布図を作成しよう
それでは、「広告費」と「売上」の関係を散布図で可視化してみましょう。
- Tableau Publicを起動
- 「Connect」→「Microsoft Excel」を選択
- 「store_performance.xlsx」を開く
- 画面下部の「Sheet 1」タブをクリック
ここが散布図作成の核心部分です。両方の軸にメジャー(数値)を配置します。
- データペインから「広告費」を列シェルフにドラッグ
- データペインから「売上」を行シェルフにドラッグ
両方のシェルフにメジャーを配置しただけでは、Tableauはすべての値を合計した1つの点を表示します。これは正常な動作です。
次のステップで「詳細」マークに店舗名を追加すると、店舗ごとの点が表示されます。
各店舗を個別の点として表示するために、「詳細」マークを使います。
- データペインから「店舗名」をドラッグ
- マークカードの「詳細」にドロップ
- 10個の点(10店舗分)が表示される
散布図が表示されました!各点にマウスを乗せると、店舗名、広告費、売上が確認できます。
右上に向かって点が並んでいる場合、「広告費が高いほど売上も高い」という正の相関があることを示しています。
「詳細」マークは、見た目には影響を与えずに、データを分割するためのマークです。ここに「店舗名」を配置すると、Tableauは店舗ごとにデータを分けて、それぞれを別の点として表示します。色やサイズは変わりません。
📈 3. トレンドライン(傾向線)の追加
トレンドラインとは
トレンドラインは、散布図の点の傾向を直線(または曲線)で表現したものです。データ全体の傾向を視覚的に理解しやすくなります。
- 傾きが右上がり:正の相関(Xが増えるとYも増える)
- 傾きが右下がり:負の相関(Xが増えるとYは減る)
- 傾きがほぼ水平:相関なし(XとYに関係がない)
- 線から離れた点:外れ値(例外的なデータ)
【実践】トレンドラインを追加しよう
作成した散布図にトレンドラインを追加します。
- 画面上部のメニューから「分析」をクリック
- 「トレンドライン」→「トレンドラインの表示」をクリック
- 散布図に直線が表示される
データの性質に合わせて、線の種類を変更できます。
- トレンドラインを右クリック
- 「トレンドラインの編集」を選択
- 「モデルの種類」を選択:
- 線形(Linear):直線で傾向を表す(最も一般的)
- 対数(Logarithmic):曲線、急成長後に鈍化するデータ向け
- 指数(Exponential):曲線、加速度的に増加するデータ向け
- 多項式(Polynomial):複雑な曲線、次数を指定
初心者の場合は「線形」を使うのがおすすめです。
トレンドラインの詳細を確認する
トレンドラインには、統計的な情報が含まれています。
トレンドラインにマウスを乗せると、以下の情報が表示されます:
| 項目 | 意味 | 読み方 |
|---|---|---|
| 式(数式) | トレンドラインの式 | Y = aX + b の形式 |
| R²(R-squared) | 決定係数、当てはまりの良さ | 0〜1、1に近いほど良い |
| p値 | 統計的有意性 | 0.05未満なら有意 |
- R² ≧ 0.7:強い相関(トレンドラインがデータをよく説明している)
- 0.4 ≦ R² < 0.7:中程度の相関
- R² < 0.4:弱い相関(他の要因が影響している可能性)
今回のサンプルデータでは、R²が0.9以上になるはずです。広告費と売上に強い正の相関があることを示しています。
🔍 4. 相関関係の読み取り方
3種類の相関パターン
散布図から読み取れる相関関係には、主に3つのパターンがあります。
- 特徴:右上がりの傾向
- 意味:Xが増えるとYも増える
- 例:広告費↑ → 売上↑、勉強時間↑ → テスト点数↑
- 特徴:右下がりの傾向
- 意味:Xが増えるとYは減る
- 例:価格↑ → 販売数↓、気温↑ → 暖房使用量↓
- 特徴:点がバラバラに散らばっている
- 意味:XとYに関係がない(または別の要因が影響)
- 例:身長と数学の点数、靴のサイズと年収
相関の強さ
相関には「強さ」もあります。点がトレンドラインに近いほど、相関が強いと言えます。
| 相関の強さ | 散布図の見た目 | R²の目安 |
|---|---|---|
| 強い相関 | 点がほぼ直線上に並ぶ | 0.7以上 |
| 中程度の相関 | 傾向は見えるが、ばらつきがある | 0.4〜0.7 |
| 弱い相関 | 傾向がやや見える程度 | 0.2〜0.4 |
| 相関なし | 点がランダムに散らばる | 0.2未満 |
🎨 5. サイズと色のエンコーディング(4次元データの表現)
2つ以上の情報を追加する
散布図は「横軸」と「縦軸」の2次元ですが、「色」と「サイズ」を使うことで最大4次元のデータを1つのグラフで表現できます。
| 次元 | 表現方法 | 例 |
|---|---|---|
| 1. 横軸(X) | 点の左右の位置 | 広告費 |
| 2. 縦軸(Y) | 点の上下の位置 | 売上 |
| 3. 色 | 点の色 | 地域(カテゴリ) |
| 4. サイズ | 点の大きさ | 利益(数値) |
【実践】色で地域を区別しよう
作成した散布図に、地域ごとの色分けを追加します。
- データペインから「地域」をドラッグ
- マークカードの「色」にドロップ
- 関東、関西、九州、北海道が異なる色で表示される
- 画面右側に凡例(地域と色の対応)が表示される
- 同じ地域の店舗が同じ色で表示される
- 地域ごとの傾向の違いが見えるようになる
【実践】サイズで追加情報を表現しよう
点のサイズで「利益」などの3つ目の数値を表現することもできます。ただし、今回のサンプルデータには利益フィールドがないため、売上をサイズに使う例を示します。
- データペインから「売上」をドラッグ
- マークカードの「サイズ」にドロップ
- 売上が大きい店舗ほど、点が大きく表示される
注意:サイズに売上を使うと、縦軸の売上と情報が重複します。実務では「利益」「従業員数」など、異なる指標を使うのが効果的です。
点のサイズが変わる散布図は「バブルチャート」と呼ばれることがあります。ビジネスシーンでよく使われ、例えば「売上×利益率×市場規模」のように3つの指標を同時に表現できます。
⚠️ 6. 相関と因果関係の違い(超重要!)
データ分析で最も重要な注意点
散布図で相関関係が見つかったとき、「AがBの原因である」と結論づけるのは危険です。
相関関係:「AとBが一緒に動く」という観察事実
因果関係:「AがBを引き起こす」という原因と結果の関係
相関があっても、因果があるとは限りません!
「アイスクリームの売上」と「溺死事故の件数」には正の相関があります。
では、アイスクリームを食べると溺れやすくなるのか?
もちろん違います!両方とも「夏(気温が高い)」という第三の要因によって増えているだけです。
| パターン | 説明 |
|---|---|
| A → B(因果) | AがBの原因(広告費↑ → 売上↑) |
| B → A(逆因果) | BがAの原因(売上↑ → 広告予算↑) |
| C → A, C → B(交絡) | 第三の要因Cが両方に影響(夏 → アイス↑, 夏 → 溺死↑) |
| 偶然の一致 | たまたま相関があるように見えるだけ |
- 時間的順序:原因が結果より先に起きている
- 第三の要因の除外:他の要因の影響を排除できている
- 理論的根拠:なぜAがBを引き起こすのか説明できる
- 実験による検証:可能であれば、A/Bテストなどで確認
散布図の分析結果を報告するときは、表現に気をつけましょう。
❌ 避けるべき表現:
「広告費を増やすと売上が上がることがわかりました」
✅ 適切な表現:
「広告費と売上には正の相関が見られます。広告費が高い店舗は売上も高い傾向があります」
📝 STEP 10 のまとめ
- 散布図は、2つの数値の関係を可視化するグラフ
- 作成方法:列と行の両方にメジャー、詳細マークにディメンション
- トレンドライン:「分析」→「トレンドラインの表示」で追加
- R²(決定係数):0.7以上で強い相関
- 正の相関:右上がり(Xが増えるとYも増える)
- 負の相関:右下がり(Xが増えるとYは減る)
- 色とサイズ:4次元までのデータを1つのグラフで表現可能
- 相関 ≠ 因果:相関があっても、原因と結果とは限らない
散布図はデータ分析の醍醐味です。「この2つに関係があるかな?」と思ったら、すぐに散布図を作ってみましょう。ただし、相関関係と因果関係は別物であることを常に意識してください。これはデータ分析者として最も重要な心得の一つです。
次のSTEP 11では、「ヒートマップの作成」を学びます。ヒートマップは2つのカテゴリの交差点を色の濃淡で表現するグラフです。売上マトリックスや時間帯別分析など、ビジネスでよく使われる手法をマスターしましょう!
📝 理解度チェック
散布図を作成するとき、列シェルフと行シェルフには何を配置しますか?
両方にメジャー(数値フィールド)を配置します。
これが散布図の最大の特徴です。棒グラフや折れ線グラフでは、片方がディメンション(カテゴリや日付)でしたが、散布図は両方が数値です。例:列シェルフに「広告費」、行シェルフに「売上」を配置します。
トレンドラインのR²(決定係数)が0.85の場合、相関の強さはどの程度ですか?
強い相関があります。
R²の目安は以下の通りです:
・0.7以上:強い相関
・0.4〜0.7:中程度の相関
・0.4未満:弱い相関
0.85は0.7以上なので、トレンドラインがデータをよく説明していると言えます。
散布図の点が右下がりの傾向を示している場合、これは何という相関ですか?具体例も挙げてください。
負の相関(Negative Correlation)です。
Xが増えるとYが減る関係を示しています。
具体例:
・価格を上げると、販売数が減る
・気温が上がると、暖房の使用量が減る
・距離が長くなると、通勤満足度が下がる
「相関関係があっても因果関係があるとは限らない」とはどういう意味ですか?具体例を使って説明してください。
相関関係は「2つの変数が一緒に動く」という観察事実です。
因果関係は「一方が他方の原因である」という関係です。
具体例:アイスクリームと溺死事故
アイスクリームの売上と溺死事故件数には正の相関がありますが、アイスクリームを食べると溺れやすくなるわけではありません。両方とも「夏(気温が高い)」という第三の要因によって増えているだけです。
このように、相関が見つかっても、それが因果関係かどうかは慎重に判断する必要があります。
🎯 実践演習
store_performance.xlsxのデータを使って、広告費(横軸)と売上(縦軸)の散布図を作成してください。
- データに接続(store_performance.xlsx)
- 「広告費」を列シェルフにドラッグ
- 「売上」を行シェルフにドラッグ
- 「店舗名」を「詳細」マークにドラッグ
結果:10個の点(10店舗分)が表示され、右上がりの傾向が見える
演習1の散布図にトレンドラインを追加し、R²の値を確認してください。相関の強さを判断してください。
- 「分析」メニュー →「トレンドライン」→「トレンドラインの表示」
- トレンドラインにマウスを乗せてR²を確認
結果:R²は約0.95(サンプルデータの場合)。0.7以上なので「強い正の相関」があると判断できます。広告費が高い店舗ほど売上も高い傾向があります。
演習1の散布図に、地域ごとの色分けを追加してください。
- データペインから「地域」をドラッグ
- マークカードの「色」にドロップ
結果:関東(青)、関西(オレンジ)、九州(緑)、北海道(赤)などで色分けされ、地域ごとの傾向を比較できる
色で地域を分けた散布図で、地域ごとにトレンドラインを表示してください。地域によって傾向に違いはありますか?
- 演習3の状態から、トレンドラインを追加
- トレンドラインを右クリック→「トレンドラインの編集」
- 「フィールド」に「地域」が選択されていることを確認
- 各地域に別々のトレンドラインが表示される
結果:地域ごとに異なるトレンドラインが表示されます。サンプルデータでは、どの地域も似た傾向(正の相関)を示しますが、実際のデータでは地域によって傾きが異なる場合があります。
❓ よくある質問
列と行にメジャーだけを配置すると、Tableauはすべての値を合計した1つの点を表示します。店舗名や顧客IDなど、データを分割するためのディメンションを「詳細」マークに追加すると、個別の点が表示されます。
1. グラフが散布図になっているか(両軸がメジャー)
2. 点が2つ以上あるか(1点ではトレンドラインは引けません)
3. 「分析」→「トレンドライン」→「トレンドラインの表示」がオンになっているか
それでも表示されない場合は、マークタイプが「円」または「形状」になっているか確認してください。
1. 透明度を下げる:「色」マークをクリック→「不透明度」を50%程度に
2. 点を小さくする:「サイズ」マークのスライダーを左に移動
3. 色で分ける:ディメンションを「色」に追加して区別
4. ジッター(揺らぎ)を追加:計算フィールドでランダムな微小値を加える
トレンドラインを追加した後、線の上にマウスカーソルを置くと、ツールチップに式、R²、p値などの統計情報が表示されます。より詳細な情報を見たい場合は、トレンドラインを右クリック→「トレンドラインの説明」を選択します。
散布図を使う場合:
・2つの数値の「関係」を見たい
・時間の順序は関係ない
・各点が独立したデータポイント
折れ線グラフを使う場合:
・時間による「変化」を見たい
・データに時間的な順序がある
・連続的な推移を見たい
1. まず原因を調査:データ入力ミス?本当に異常な値?特殊な事情?
2. 入力ミスなら修正:正しいデータに直す
3. 本当の外れ値なら:
・そのまま含めて分析(外れ値も重要な情報)
・フィルターで除外して再分析(傾向を見やすくする)
・両方のケースを報告(外れ値あり/なしの比較)
外れ値を無断で削除するのは避けましょう。理由を説明できるようにしてください。
学習メモ
BIツール入門 - Step 10