STEP 9:回帰分析の実務活用

📈 STEP 9: 回帰分析の実務活用

ビジネスで最も使われる予測手法を理解しよう

📋 このステップで学ぶこと

  • 回帰分析とは何か – 基本概念の理解
  • 回帰分析でできること – 予測と要因分析
  • ビジネスでの活用例(売上予測、価格設定、需要予測)
  • 回帰分析の種類(単回帰と重回帰の違い)
  • 回帰分析を使う際の注意点

🎯 1. 回帰分析とは何か

回帰分析の基本概念

回帰分析(かいきぶんせき)とは、ある変数(原因)から別の変数(結果)を予測する分析手法です。

相関分析が「関係があるかどうか」を見るのに対し、回帰分析は「いくつになるか」を予測します。

📌 回帰分析の基本イメージ

例:気温とアイスクリームの売上

  • 気温が25℃の時、売上は50万円だった
  • 気温が30℃の時、売上は70万円だった
  • 気温が35℃の時、売上は90万円だった

回帰分析の質問:

「じゃあ、明日の気温が28℃の場合、売上はいくらになるか?」
→ 回帰分析で予測できる!

回帰分析の2つの目的

🎯 回帰分析でできること

目的1:予測(よそく)

未知の値を推定する
例:
・来月の売上を予測
・広告費を100万円にしたら、売上はいくらになるか
・新商品の価格を設定する

目的2:要因分析(よういんぶんせき)

何が結果に影響しているかを分析
例:
・売上に最も影響しているのは、価格か、広告費か、季節か
・従業員の満足度を高める要因は何か
・不動産価格を決める要因は何か(立地、広さ、築年数など)

回帰分析の用語

用語 説明
目的変数
(従属変数)
予測したいもの(結果)
Y、被説明変数とも呼ばれる
例:売上、価格、顧客満足度
説明変数
(独立変数)
予測に使うもの(原因)
X、予測変数とも呼ばれる
例:広告費、気温、価格
回帰式 予測のための計算式
Y = a + bX
例:売上 = 100 + 5×広告費
切片(a) Xが0の時のYの値
例:広告費0円の時の基本売上
傾き(b)
(回帰係数)
Xが1増えた時、Yがどれだけ増えるか
例:広告費が1万円増えると、売上が5万円増える

回帰分析の基本イメージ図

【回帰分析のイメージ】 売上(万円) | 100| ● (広告費80万、売上480万) 90| ● 80| ● 70| ● ← この直線が「回帰式」 60| ● ↗ 50| ● ↗ Y = 100 + 5X 40| ●↗ 30|● └───────────────── 10 20 30 40 50 60 70 80 広告費(万円) この直線を使って、広告費が90万円の時の売上を予測: Y = 100 + 5 × 90 = 550万円

💼 2. ビジネスでの活用例

活用例1:売上予測

📊 ケース:EC企業の売上予測

課題:来月の売上を予測して、在庫を準備したい

分析:

  • 目的変数(Y):売上
  • 説明変数(X):サイト訪問者数、広告費、季節

回帰式の例:

売上 = 500 + 0.05×訪問者数 + 3×広告費 + 200×(12月ダミー)

予測:
来月の訪問者数が10,000人、広告費が50万円、12月なら:
売上 = 500 + 0.05×10,000 + 3×50 + 200×1 = 1,350万円

活用例2:価格設定

📊 ケース:不動産の適正価格

課題:新しい物件の適正価格を決めたい

分析:

  • 目的変数(Y):物件価格
  • 説明変数(X):広さ(㎡)、駅からの距離、築年数

回帰式の例:

価格 = 1000 + 50×広さ – 10×駅距離 – 20×築年数

予測:
広さ60㎡、駅から5分、築年数10年の物件なら:
価格 = 1000 + 50×60 – 10×5 – 20×10 = 3,850万円

活用例3:需要予測

📊 ケース:飲食店の来客数予測

課題:明日の来客数を予測して、仕入れと人員配置を最適化したい

分析:

  • 目的変数(Y):来客数
  • 説明変数(X):曜日、天気、気温、イベントの有無

回帰式の例:

来客数 = 50 + 30×(週末ダミー) + 2×気温 – 20×(雨ダミー)

予測:
週末、気温25℃、晴れなら:
来客数 = 50 + 30×1 + 2×25 – 20×0 = 130人
→ 食材と人員を130人分準備

活用例4:マーケティング最適化

📊 ケース:広告ROIの最大化

課題:どの広告チャネルが最も効果的かを知りたい

分析:

  • 目的変数(Y):売上
  • 説明変数(X):TV広告費、Web広告費、SNS広告費

回帰式の例:

売上 = 300 + 1.5×TV + 5×Web + 8×SNS

解釈:
・TV広告に1万円使うと、売上は1.5万円増える
・Web広告に1万円使うと、売上は5万円増える
SNS広告に1万円使うと、売上は8万円増える ← 最も効率が良い!
→ SNS広告に予算を集中すべき

🔢 3. 回帰分析の種類

単回帰分析と重回帰分析

種類 説明
単回帰分析 1つの説明変数で予測
Y = a + bX
例:気温(X)からアイスクリームの売上(Y)を予測
メリット:シンプルで理解しやすい
デメリット:1つの要因しか考慮できない
重回帰分析 複数の説明変数で予測
Y = a + b1×X1 + b2×X2 + b3×X3 ...
例:気温、曜日、イベントから売上を予測
メリット:より正確な予測ができる
デメリット:複雑で、解釈が難しい

どちらを使うべきか

📌 選択の基準

単回帰分析を使う場合:

  • 影響する要因が明らかに1つだけの場合
  • まず簡単な分析で傾向を掴みたい場合
  • 結果をわかりやすく説明したい場合
  • 例:身長から体重を予測、広告費から売上を予測

重回帰分析を使う場合:

  • 影響する要因が複数ある場合(現実はほとんどこれ)
  • より正確な予測が必要な場合
  • どの要因が最も重要かを知りたい場合
  • 例:売上を予測(広告費、価格、季節、競合の影響を考慮)
💡 実務では重回帰分析が多い

ビジネスの現場では、売上や価格に影響する要因は複数あることがほとんどです。そのため、重回帰分析の方がよく使われます。

ただし、最初は単回帰分析で基本を理解してから、重回帰に進むのがおすすめです。
STEP 10で単回帰、STEP 11で重回帰を実践します!

その他の回帰分析

📊 高度な回帰分析の種類
  • 1. ロジスティック回帰:Yes/Noの予測(成約する/しない、離脱する/しない) → STEP 16
  • 2. 多項回帰:3つ以上の選択肢の予測(A商品/B商品/C商品)
  • 3. ポアソン回帰:件数の予測(クレーム件数、来店回数)
  • 4. 時系列回帰:時間の経過を考慮した予測 → STEP 34
  • 5. 非線形回帰:曲線的な関係の予測

このコースでは、まず線形回帰(単回帰・重回帰)を徹底的に学びます!

⚠️ 4. 回帰分析を使う際の注意点

注意点1:相関と因果を混同しない

🚨 STEP 8の復習

回帰分析で「予測できる」≠「因果関係がある」

例:アイスクリームの売上から溺死者数を「予測」できても、アイスクリームが溺死の「原因」ではありません。

回帰分析は「関係がある」ことを利用した予測ツールであり、因果関係の証明には追加の分析(A/Bテストなど)が必要です。

注意点2:外挿(がいそう)の危険性

⚠️ データの範囲外の予測は危険

外挿(Extrapolation):データの範囲外の値を予測すること

例:
気温15℃〜35℃のデータで回帰分析を行い、
回帰式:売上 = 100 + 5×気温 を得た。

危険な予測:
「気温が50℃になったら、売上は350万円!」
ダメ! 50℃はデータの範囲外

理由:
・50℃では、そもそも外出する人がいない
・データの範囲外では、関係性が変わる可能性が高い

ルール: 予測はデータの範囲内で行う

注意点3:外れ値の影響

⚠️ 極端な値に注意

外れ値(アウトライアー):他のデータと大きく異なる極端な値

例:通常の売上が50万円〜100万円なのに、1日だけ1000万円
→ イベントやキャンペーンの特殊な日かもしれない

外れ値があると、回帰式が大きくズレることがあります。

対策:
・散布図で外れ値を確認
・外れ値の原因を調査(エラー? 特殊な日?)
・必要に応じて外れ値を除外して再分析

注意点4:多重共線性(たじゅうきょうせんせい)

⚠️ 重回帰分析での落とし穴

多重共線性:説明変数同士が強く相関している状態

例:
売上を予測するのに、「広告費」と「広告回数」を両方使う
→ 広告費と広告回数は強く相関している(ほぼ同じ情報)
→ どちらが本当に重要か判断できなくなる

問題:
・係数が不安定になる
・解釈が難しくなる

対策:
・相関の高い変数は1つだけ使う
・VIF(分散拡大要因)で確認する → STEP 15で詳しく学習

注意点5:過学習(かがくしゅう)

⚠️ 説明変数を増やしすぎない

過学習(Overfitting):モデルが過去のデータに合いすぎて、未来の予測が悪くなること

例:
売上予測に10個の説明変数を使う
→ 過去のデータは完璧に説明できるが、新しいデータでは予測が外れる

対策:
・本当に重要な変数だけを選ぶ
・調整済みR²で評価する → STEP 12
・テストデータで精度を確認する → STEP 14

正しく回帰分析を使うためのチェックリスト

✅ 実務でのチェックリスト

分析前

  • ☑ 目的変数と説明変数を明確に定義したか
  • ☑ データの質は十分か(サンプルサイズ、欠損値など)
  • ☑ 散布図で関係性を視覚的に確認したか

分析中

  • ☑ 外れ値がないか確認したか
  • ☑ 説明変数同士の相関をチェックしたか(多重共線性)
  • ☑ データの範囲内で予測しているか(外挿していないか)

分析後

  • ☑ 結果が理論的に妥当か(常識と矛盾していないか)
  • ☑ 因果関係と相関を混同していないか
  • ☑ 予測の限界を明記したか
  • ☑ テストデータで精度を確認したか

📊 5. 回帰分析の実務での流れ

ステップ1:課題の定義

【何を予測したいか、なぜ予測したいかを明確に】 例: 「来月の売上を予測して、在庫を最適化したい」 「どの広告が最も効果的かを知りたい」 「不動産価格の適正値を判断したい」

ステップ2:データの準備

【必要なデータを集める】 1. 目的変数のデータ(予測したいもの) 2. 説明変数のデータ(予測に使うもの) 3. 十分なサンプルサイズ(最低30件、できれば100件以上) 4. 欠損値や異常値をチェック

ステップ3:探索的データ分析(EDA)

【データの特徴を理解する】 1. 散布図を作成 → 関係性を視覚的に確認 2. 基本統計量を計算(平均、標準偏差など) 3. 外れ値がないか確認 4. 相関係数を計算

ステップ4:回帰分析の実施

【ExcelまたはPythonで分析】 1. 回帰式を計算 2. 係数(傾き、切片)を確認 3. R²(決定係数)で精度を評価 4. 残差分析でモデルの妥当性を確認

ステップ5:結果の解釈

【ビジネス的な意味を考える】 1. 係数の意味を解釈 例:「広告費が1万円増えると、売上が5万円増える」 2. 予測精度を評価 例:「R² = 0.85なので、説明力は85%」 3. 予測値を計算 例:「来月の売上は500万円と予測される」

ステップ6:アクションプランの作成

【分析結果を行動に移す】 例: 「SNS広告の効果が最も高いことがわかった」 → アクション:SNS広告に予算を集中する 「来月の売上は500万円と予測される」 → アクション:500万円分の在庫を準備する

📝 STEP 9 のまとめ

✅ このステップで学んだこと

1. 回帰分析とは

  • ある変数(原因)から別の変数(結果)を予測する手法
  • 相関分析が「関係があるか」を見るのに対し、回帰分析は「いくつになるか」を予測

2. 回帰分析の2つの目的

  • 予測:未知の値を推定する
  • 要因分析:何が結果に影響しているかを分析

3. ビジネス活用

  • 売上予測、価格設定、需要予測、マーケティング最適化

4. 単回帰 vs 重回帰

  • 単回帰:説明変数が1つ(シンプルで理解しやすい)
  • 重回帰:説明変数が複数(より正確な予測が可能)

5. 注意点

  • 相関と因果の混同に注意
  • 外挿の危険性、外れ値、多重共線性
💡 最も大切なポイント

回帰分析はビジネスで最も使われる分析手法の1つです。ExcelやPythonで簡単に実行できるため、すぐに実務で使えます。

ただし、「予測できる」≠「因果関係がある」ことを忘れずに。予測はできても、その関係が本当に原因と結果なのかは、慎重に判断しましょう。

次のSTEP 10では、実際にExcelとPythonで単回帰分析を実践します!

🎯 次のステップの予告

STEP 10では、「単回帰分析の実践」を学びます。ExcelとPythonを使って、実際にデータから回帰式を作り、予測してみましょう!サンプルデータを使って、手を動かしながら学ぶ実践的な内容です。

📝 理解度チェック

学んだ内容を確認しましょう。解答を見る前に、まず自分で考えてみてください。

問題 1 基礎

回帰分析の2つの主な目的は何ですか?

【解答】

1. 予測(よそく)

未知の値を推定すること。
例:来月の売上を予測する、適正価格を決める

2. 要因分析(よういんぶんせき)

何が結果に影響しているかを分析すること。
例:売上に最も影響しているのは価格か、広告費か、季節か

問題 2 基礎

単回帰分析と重回帰分析の違いを説明してください。

【解答】

単回帰分析:

  • 1つの説明変数で予測する
  • 式:Y = a + bX
  • 例:気温からアイスの売上を予測
  • メリット:シンプルで理解しやすい

重回帰分析:

  • 複数の説明変数で予測する
  • 式:Y = a + b1×X1 + b2×X2 + …
  • 例:気温・曜日・天気から売上を予測
  • メリット:より正確な予測ができる
問題 3 応用

以下の回帰式があります。
売上 = 200 + 4×広告費

この式から、以下の質問に答えてください。
(1) 広告費が0円の時、売上はいくらですか?
(2) 広告費を1万円増やすと、売上はいくら増えますか?
(3) 広告費が50万円の時、売上の予測値はいくらですか?

【解答】

(1) 広告費が0円の時の売上

売上 = 200 + 4×0 = 200万円
これは切片(a)の値です。

(2) 広告費を1万円増やした時の売上増加

4万円増加します。
これは傾き(b、回帰係数)の値です。
広告費が1万円増えるごとに、売上が4万円増えることを意味します。

(3) 広告費が50万円の時の売上予測

売上 = 200 + 4×50 = 200 + 200 = 400万円

問題 4 応用

回帰分析を使う際の注意点を3つ以上挙げてください。

【解答例】
  1. 相関と因果の混同:予測できても因果関係があるとは限らない
  2. 外挿の危険性:データの範囲外での予測は信頼できない
  3. 外れ値の影響:極端な値が回帰式を歪める
  4. 多重共線性:説明変数同士が相関していると解釈が難しくなる
  5. 過学習:説明変数を増やしすぎると未来の予測精度が下がる
問題 5 発展

あなたは飲食店の店長です。過去のデータから以下の回帰式を得ました。
来客数 = 50 + 2×気温 - 30×(雨ダミー)
※雨ダミー:雨の日=1、晴れの日=0

(1) 気温25℃、晴れの日の来客数を予測してください。
(2) 気温25℃、雨の日の来客数を予測してください。
(3) 雨が降ると来客数はどれくらい減りますか?
(4) この予測をもとに、どのようなアクションを取りますか?(自由回答)

【解答】

(1) 気温25℃、晴れの日

来客数 = 50 + 2×25 – 30×0
   = 50 + 50 – 0
   = 100人

(2) 気温25℃、雨の日

来客数 = 50 + 2×25 – 30×1
   = 50 + 50 – 30
   = 70人

(3) 雨による来客数の減少

100人(晴れ) – 70人(雨) = 30人減少
これは回帰式の係数「-30」に対応しています。

(4) アクション例

  • 仕入れ調整:雨予報なら食材を70人分に減らす(廃棄ロス削減)
  • 人員配置:雨の日はスタッフを減らす(人件費削減)
  • 雨の日キャンペーン:「雨の日10%オフ」で来客を増やす
  • デリバリー強化:雨の日はUber Eatsなどのデリバリーを強化
  • 事前準備:晴れの日(100人)に備えて、十分な食材と人員を確保

❓ よくある質問

Q1: 回帰分析と相関分析の違いは何ですか?

目的と使い方が異なります。

相関分析:

  • 2つの変数に「関係があるか」を確認
  • 相関係数(-1〜+1)で関係の強さを測る
  • 予測はしない

回帰分析:

  • ある変数から別の変数を「予測する」
  • 回帰式(Y = a + bX)を使って具体的な値を予測
  • どの要因が最も影響しているかを分析できる

例:

  • 相関分析:「広告費と売上には相関がある(r=0.85)」
  • 回帰分析:「広告費が50万円なら、売上は400万円と予測される」
Q2: 回帰分析で「因果関係」を証明できますか?

いいえ、回帰分析だけでは因果関係を証明できません。

回帰分析は「関係がある」ことを利用した予測ツールです。予測はできても、その関係が「原因と結果」かはわかりません。

因果関係を示すには:

  • A/Bテスト(ランダム化比較試験)
  • 時系列データでの検証(原因が結果より先に起きているか)
  • 第三の要因をコントロールした分析
  • 理論的な説明(なぜそうなるかの理屈)

これらを組み合わせて、「因果関係が示唆される」と結論づけます。

Q3: 回帰式の「切片」がマイナスになることはありますか?

はい、マイナスになることもあります。

例:
売上 = -100 + 5×広告費

これは「広告費が0円の時、売上は-100万円」という意味ですが、実際には売上がマイナスになることはありません。

解釈:

  • この式は、広告費が20万円以上の範囲で有効
  • 広告費0円での予測は外挿(データの範囲外)なので信頼できない
  • 切片がマイナスでも、データの範囲内での予測には問題ない

重要:切片の値そのものより、傾き(広告費の係数)の方が重要です。

Q4: 説明変数は何個まで使えますか?

理論的には制限はありませんが、実務的には注意が必要です。

一般的なガイドライン:

  • サンプルサイズ(データ数)の10分の1程度まで
  • 例:データが100件なら、説明変数は最大10個程度

説明変数が多すぎると:

  1. 過学習のリスク(過去のデータに合いすぎて、未来の予測が悪くなる)
  2. 多重共線性の問題(変数同士が相関して、解釈が難しくなる)
  3. 計算が複雑になる

推奨:

  • 本当に重要な変数だけを選ぶ
  • 相関の高い変数は1つだけ使う
  • 調整済みR²で評価する(STEP 12で学習)
Q5: Excelで回帰分析はできますか? Pythonが必須ですか?

Excelでも十分に回帰分析ができます!

Excel:

  • 散布図と近似曲線で視覚的に理解しやすい
  • 「分析ツール」で詳細な回帰分析が可能
  • 小規模なデータ(数百件程度)なら十分
  • 経営層への報告資料を作りやすい

Python:

  • 大規模なデータ(数万件以上)でも高速
  • 高度な分析(交差検証、モデル診断など)が簡単
  • 自動化しやすい(毎日の売上予測など)
  • 機械学習への発展が容易

推奨:
まずExcelで基本を理解 → 慣れたらPythonに挑戦
STEP 10では、ExcelとPython両方を学びます!

Q6: R²(決定係数)が低い場合、どうすればいいですか?

R²が低い原因を特定し、改善策を検討します。

考えられる原因と対策:

  1. 重要な説明変数が不足:他の要因を追加する(重回帰分析)
  2. 非線形の関係:変数を変換する(対数、二乗など)
  3. 外れ値の影響:外れ値を除外して再分析
  4. データの質が低い:データ収集方法を見直す
  5. そもそも関係がない:別の説明変数を検討する

注意:R²が低くても、ビジネス的に有用な場合があります。
例:R² = 0.3でも、売上予測の精度が以前より大幅に向上した場合

📝

学習メモ

ビジネスデータ分析・意思決定 - Step 9

📋 過去のメモ一覧
#artnasekai #学習メモ
LINE