📈 STEP 9: 回帰分析の実務活用
ビジネスで最も使われる予測手法を理解しよう
📋 このステップで学ぶこと
- 回帰分析とは何か – 基本概念の理解
- 回帰分析でできること – 予測と要因分析
- ビジネスでの活用例(売上予測、価格設定、需要予測)
- 回帰分析の種類(単回帰と重回帰の違い)
- 回帰分析を使う際の注意点
🎯 1. 回帰分析とは何か
回帰分析の基本概念
回帰分析(かいきぶんせき)とは、ある変数(原因)から別の変数(結果)を予測する分析手法です。
相関分析が「関係があるかどうか」を見るのに対し、回帰分析は「いくつになるか」を予測します。
例:気温とアイスクリームの売上
- 気温が25℃の時、売上は50万円だった
- 気温が30℃の時、売上は70万円だった
- 気温が35℃の時、売上は90万円だった
回帰分析の質問:
「じゃあ、明日の気温が28℃の場合、売上はいくらになるか?」
→ 回帰分析で予測できる!
回帰分析の2つの目的
目的1:予測(よそく)
未知の値を推定する
例:
・来月の売上を予測
・広告費を100万円にしたら、売上はいくらになるか
・新商品の価格を設定する
目的2:要因分析(よういんぶんせき)
何が結果に影響しているかを分析
例:
・売上に最も影響しているのは、価格か、広告費か、季節か
・従業員の満足度を高める要因は何か
・不動産価格を決める要因は何か(立地、広さ、築年数など)
回帰分析の用語
| 用語 | 説明 |
|---|---|
| 目的変数 (従属変数) |
予測したいもの(結果) Y、被説明変数とも呼ばれる 例:売上、価格、顧客満足度 |
| 説明変数 (独立変数) |
予測に使うもの(原因) X、予測変数とも呼ばれる 例:広告費、気温、価格 |
| 回帰式 |
予測のための計算式Y = a + bX例:売上 = 100 + 5×広告費 |
| 切片(a) |
Xが0の時のYの値 例:広告費0円の時の基本売上 |
| 傾き(b) (回帰係数) |
Xが1増えた時、Yがどれだけ増えるか 例:広告費が1万円増えると、売上が5万円増える |
回帰分析の基本イメージ図
💼 2. ビジネスでの活用例
活用例1:売上予測
課題:来月の売上を予測して、在庫を準備したい
分析:
- 目的変数(Y):売上
- 説明変数(X):サイト訪問者数、広告費、季節
回帰式の例:
売上 = 500 + 0.05×訪問者数 + 3×広告費 + 200×(12月ダミー)
予測:
来月の訪問者数が10,000人、広告費が50万円、12月なら:
売上 = 500 + 0.05×10,000 + 3×50 + 200×1 = 1,350万円
活用例2:価格設定
課題:新しい物件の適正価格を決めたい
分析:
- 目的変数(Y):物件価格
- 説明変数(X):広さ(㎡)、駅からの距離、築年数
回帰式の例:
価格 = 1000 + 50×広さ – 10×駅距離 – 20×築年数
予測:
広さ60㎡、駅から5分、築年数10年の物件なら:
価格 = 1000 + 50×60 – 10×5 – 20×10 = 3,850万円
活用例3:需要予測
課題:明日の来客数を予測して、仕入れと人員配置を最適化したい
分析:
- 目的変数(Y):来客数
- 説明変数(X):曜日、天気、気温、イベントの有無
回帰式の例:
来客数 = 50 + 30×(週末ダミー) + 2×気温 – 20×(雨ダミー)
予測:
週末、気温25℃、晴れなら:
来客数 = 50 + 30×1 + 2×25 – 20×0 = 130人
→ 食材と人員を130人分準備
活用例4:マーケティング最適化
課題:どの広告チャネルが最も効果的かを知りたい
分析:
- 目的変数(Y):売上
- 説明変数(X):TV広告費、Web広告費、SNS広告費
回帰式の例:
売上 = 300 + 1.5×TV + 5×Web + 8×SNS
解釈:
・TV広告に1万円使うと、売上は1.5万円増える
・Web広告に1万円使うと、売上は5万円増える
・SNS広告に1万円使うと、売上は8万円増える ← 最も効率が良い!
→ SNS広告に予算を集中すべき
🔢 3. 回帰分析の種類
単回帰分析と重回帰分析
| 種類 | 説明 |
|---|---|
| 単回帰分析 |
1つの説明変数で予測Y = a + bX例:気温(X)からアイスクリームの売上(Y)を予測 メリット:シンプルで理解しやすい デメリット:1つの要因しか考慮できない |
| 重回帰分析 |
複数の説明変数で予測Y = a + b1×X1 + b2×X2 + b3×X3 ...例:気温、曜日、イベントから売上を予測 メリット:より正確な予測ができる デメリット:複雑で、解釈が難しい |
どちらを使うべきか
単回帰分析を使う場合:
- 影響する要因が明らかに1つだけの場合
- まず簡単な分析で傾向を掴みたい場合
- 結果をわかりやすく説明したい場合
- 例:身長から体重を予測、広告費から売上を予測
重回帰分析を使う場合:
- 影響する要因が複数ある場合(現実はほとんどこれ)
- より正確な予測が必要な場合
- どの要因が最も重要かを知りたい場合
- 例:売上を予測(広告費、価格、季節、競合の影響を考慮)
ビジネスの現場では、売上や価格に影響する要因は複数あることがほとんどです。そのため、重回帰分析の方がよく使われます。
ただし、最初は単回帰分析で基本を理解してから、重回帰に進むのがおすすめです。
STEP 10で単回帰、STEP 11で重回帰を実践します!
その他の回帰分析
- 1. ロジスティック回帰:Yes/Noの予測(成約する/しない、離脱する/しない) → STEP 16
- 2. 多項回帰:3つ以上の選択肢の予測(A商品/B商品/C商品)
- 3. ポアソン回帰:件数の予測(クレーム件数、来店回数)
- 4. 時系列回帰:時間の経過を考慮した予測 → STEP 34
- 5. 非線形回帰:曲線的な関係の予測
このコースでは、まず線形回帰(単回帰・重回帰)を徹底的に学びます!
⚠️ 4. 回帰分析を使う際の注意点
注意点1:相関と因果を混同しない
回帰分析で「予測できる」≠「因果関係がある」
例:アイスクリームの売上から溺死者数を「予測」できても、アイスクリームが溺死の「原因」ではありません。
回帰分析は「関係がある」ことを利用した予測ツールであり、因果関係の証明には追加の分析(A/Bテストなど)が必要です。
注意点2:外挿(がいそう)の危険性
外挿(Extrapolation):データの範囲外の値を予測すること
例:
気温15℃〜35℃のデータで回帰分析を行い、
回帰式:売上 = 100 + 5×気温 を得た。
危険な予測:
「気温が50℃になったら、売上は350万円!」
→ ダメ! 50℃はデータの範囲外
理由:
・50℃では、そもそも外出する人がいない
・データの範囲外では、関係性が変わる可能性が高い
ルール: 予測はデータの範囲内で行う
注意点3:外れ値の影響
外れ値(アウトライアー):他のデータと大きく異なる極端な値
例:通常の売上が50万円〜100万円なのに、1日だけ1000万円
→ イベントやキャンペーンの特殊な日かもしれない
外れ値があると、回帰式が大きくズレることがあります。
対策:
・散布図で外れ値を確認
・外れ値の原因を調査(エラー? 特殊な日?)
・必要に応じて外れ値を除外して再分析
注意点4:多重共線性(たじゅうきょうせんせい)
多重共線性:説明変数同士が強く相関している状態
例:
売上を予測するのに、「広告費」と「広告回数」を両方使う
→ 広告費と広告回数は強く相関している(ほぼ同じ情報)
→ どちらが本当に重要か判断できなくなる
問題:
・係数が不安定になる
・解釈が難しくなる
対策:
・相関の高い変数は1つだけ使う
・VIF(分散拡大要因)で確認する → STEP 15で詳しく学習
注意点5:過学習(かがくしゅう)
過学習(Overfitting):モデルが過去のデータに合いすぎて、未来の予測が悪くなること
例:
売上予測に10個の説明変数を使う
→ 過去のデータは完璧に説明できるが、新しいデータでは予測が外れる
対策:
・本当に重要な変数だけを選ぶ
・調整済みR²で評価する → STEP 12
・テストデータで精度を確認する → STEP 14
正しく回帰分析を使うためのチェックリスト
分析前
- ☑ 目的変数と説明変数を明確に定義したか
- ☑ データの質は十分か(サンプルサイズ、欠損値など)
- ☑ 散布図で関係性を視覚的に確認したか
分析中
- ☑ 外れ値がないか確認したか
- ☑ 説明変数同士の相関をチェックしたか(多重共線性)
- ☑ データの範囲内で予測しているか(外挿していないか)
分析後
- ☑ 結果が理論的に妥当か(常識と矛盾していないか)
- ☑ 因果関係と相関を混同していないか
- ☑ 予測の限界を明記したか
- ☑ テストデータで精度を確認したか
📊 5. 回帰分析の実務での流れ
ステップ1:課題の定義
ステップ2:データの準備
ステップ3:探索的データ分析(EDA)
ステップ4:回帰分析の実施
ステップ5:結果の解釈
ステップ6:アクションプランの作成
📝 STEP 9 のまとめ
1. 回帰分析とは
- ある変数(原因)から別の変数(結果)を予測する手法
- 相関分析が「関係があるか」を見るのに対し、回帰分析は「いくつになるか」を予測
2. 回帰分析の2つの目的
- 予測:未知の値を推定する
- 要因分析:何が結果に影響しているかを分析
3. ビジネス活用
- 売上予測、価格設定、需要予測、マーケティング最適化
4. 単回帰 vs 重回帰
- 単回帰:説明変数が1つ(シンプルで理解しやすい)
- 重回帰:説明変数が複数(より正確な予測が可能)
5. 注意点
- 相関と因果の混同に注意
- 外挿の危険性、外れ値、多重共線性
回帰分析はビジネスで最も使われる分析手法の1つです。ExcelやPythonで簡単に実行できるため、すぐに実務で使えます。
ただし、「予測できる」≠「因果関係がある」ことを忘れずに。予測はできても、その関係が本当に原因と結果なのかは、慎重に判断しましょう。
次のSTEP 10では、実際にExcelとPythonで単回帰分析を実践します!
STEP 10では、「単回帰分析の実践」を学びます。ExcelとPythonを使って、実際にデータから回帰式を作り、予測してみましょう!サンプルデータを使って、手を動かしながら学ぶ実践的な内容です。
📝 理解度チェック
学んだ内容を確認しましょう。解答を見る前に、まず自分で考えてみてください。
回帰分析の2つの主な目的は何ですか?
1. 予測(よそく)
未知の値を推定すること。
例:来月の売上を予測する、適正価格を決める
2. 要因分析(よういんぶんせき)
何が結果に影響しているかを分析すること。
例:売上に最も影響しているのは価格か、広告費か、季節か
単回帰分析と重回帰分析の違いを説明してください。
単回帰分析:
- 1つの説明変数で予測する
- 式:Y = a + bX
- 例:気温からアイスの売上を予測
- メリット:シンプルで理解しやすい
重回帰分析:
- 複数の説明変数で予測する
- 式:Y = a + b1×X1 + b2×X2 + …
- 例:気温・曜日・天気から売上を予測
- メリット:より正確な予測ができる
以下の回帰式があります。
売上 = 200 + 4×広告費
この式から、以下の質問に答えてください。
(1) 広告費が0円の時、売上はいくらですか?
(2) 広告費を1万円増やすと、売上はいくら増えますか?
(3) 広告費が50万円の時、売上の予測値はいくらですか?
(1) 広告費が0円の時の売上
売上 = 200 + 4×0 = 200万円
これは切片(a)の値です。
(2) 広告費を1万円増やした時の売上増加
4万円増加します。
これは傾き(b、回帰係数)の値です。
広告費が1万円増えるごとに、売上が4万円増えることを意味します。
(3) 広告費が50万円の時の売上予測
売上 = 200 + 4×50 = 200 + 200 = 400万円
回帰分析を使う際の注意点を3つ以上挙げてください。
- 相関と因果の混同:予測できても因果関係があるとは限らない
- 外挿の危険性:データの範囲外での予測は信頼できない
- 外れ値の影響:極端な値が回帰式を歪める
- 多重共線性:説明変数同士が相関していると解釈が難しくなる
- 過学習:説明変数を増やしすぎると未来の予測精度が下がる
あなたは飲食店の店長です。過去のデータから以下の回帰式を得ました。
来客数 = 50 + 2×気温 - 30×(雨ダミー)
※雨ダミー:雨の日=1、晴れの日=0
(1) 気温25℃、晴れの日の来客数を予測してください。
(2) 気温25℃、雨の日の来客数を予測してください。
(3) 雨が降ると来客数はどれくらい減りますか?
(4) この予測をもとに、どのようなアクションを取りますか?(自由回答)
(1) 気温25℃、晴れの日
来客数 = 50 + 2×25 – 30×0
= 50 + 50 – 0
= 100人
(2) 気温25℃、雨の日
来客数 = 50 + 2×25 – 30×1
= 50 + 50 – 30
= 70人
(3) 雨による来客数の減少
100人(晴れ) – 70人(雨) = 30人減少
これは回帰式の係数「-30」に対応しています。
(4) アクション例
- 仕入れ調整:雨予報なら食材を70人分に減らす(廃棄ロス削減)
- 人員配置:雨の日はスタッフを減らす(人件費削減)
- 雨の日キャンペーン:「雨の日10%オフ」で来客を増やす
- デリバリー強化:雨の日はUber Eatsなどのデリバリーを強化
- 事前準備:晴れの日(100人)に備えて、十分な食材と人員を確保
❓ よくある質問
目的と使い方が異なります。
相関分析:
- 2つの変数に「関係があるか」を確認
- 相関係数(-1〜+1)で関係の強さを測る
- 予測はしない
回帰分析:
- ある変数から別の変数を「予測する」
- 回帰式(Y = a + bX)を使って具体的な値を予測
- どの要因が最も影響しているかを分析できる
例:
- 相関分析:「広告費と売上には相関がある(r=0.85)」
- 回帰分析:「広告費が50万円なら、売上は400万円と予測される」
いいえ、回帰分析だけでは因果関係を証明できません。
回帰分析は「関係がある」ことを利用した予測ツールです。予測はできても、その関係が「原因と結果」かはわかりません。
因果関係を示すには:
- A/Bテスト(ランダム化比較試験)
- 時系列データでの検証(原因が結果より先に起きているか)
- 第三の要因をコントロールした分析
- 理論的な説明(なぜそうなるかの理屈)
これらを組み合わせて、「因果関係が示唆される」と結論づけます。
はい、マイナスになることもあります。
例:
売上 = -100 + 5×広告費
これは「広告費が0円の時、売上は-100万円」という意味ですが、実際には売上がマイナスになることはありません。
解釈:
- この式は、広告費が20万円以上の範囲で有効
- 広告費0円での予測は外挿(データの範囲外)なので信頼できない
- 切片がマイナスでも、データの範囲内での予測には問題ない
重要:切片の値そのものより、傾き(広告費の係数)の方が重要です。
理論的には制限はありませんが、実務的には注意が必要です。
一般的なガイドライン:
- サンプルサイズ(データ数)の10分の1程度まで
- 例:データが100件なら、説明変数は最大10個程度
説明変数が多すぎると:
- 過学習のリスク(過去のデータに合いすぎて、未来の予測が悪くなる)
- 多重共線性の問題(変数同士が相関して、解釈が難しくなる)
- 計算が複雑になる
推奨:
- 本当に重要な変数だけを選ぶ
- 相関の高い変数は1つだけ使う
- 調整済みR²で評価する(STEP 12で学習)
Excelでも十分に回帰分析ができます!
Excel:
- 散布図と近似曲線で視覚的に理解しやすい
- 「分析ツール」で詳細な回帰分析が可能
- 小規模なデータ(数百件程度)なら十分
- 経営層への報告資料を作りやすい
Python:
- 大規模なデータ(数万件以上)でも高速
- 高度な分析(交差検証、モデル診断など)が簡単
- 自動化しやすい(毎日の売上予測など)
- 機械学習への発展が容易
推奨:
まずExcelで基本を理解 → 慣れたらPythonに挑戦
STEP 10では、ExcelとPython両方を学びます!
R²が低い原因を特定し、改善策を検討します。
考えられる原因と対策:
- 重要な説明変数が不足:他の要因を追加する(重回帰分析)
- 非線形の関係:変数を変換する(対数、二乗など)
- 外れ値の影響:外れ値を除外して再分析
- データの質が低い:データ収集方法を見直す
- そもそも関係がない:別の説明変数を検討する
注意:R²が低くても、ビジネス的に有用な場合があります。
例:R² = 0.3でも、売上予測の精度が以前より大幅に向上した場合
学習メモ
ビジネスデータ分析・意思決定 - Step 9