STEP 11:回帰分析入門

📈 STEP 11: 回帰分析入門

単回帰分析の考え方、最小二乗法、決定係数を理解しよう

📖 このステップで学ぶこと

単回帰分析最小二乗法決定係数(R²)残差分析を学びます。

📝 練習問題: 15問
🎯 到達目標: 単回帰分析の考え方を説明できる、最小二乗法の原理を理解する、回帰係数を計算し解釈できる、決定係数R²の意味を理解する、残差分析の基礎ができる

1️⃣ 単回帰分析とは

単回帰分析(Simple Linear Regression)
1つの説明変数xから目的変数yを予測する

回帰直線:
y = a + bx

a: 切片(intercept)= x=0のときのyの値
b: 傾き(slope)= xが1増えたときのyの増加量

xが1増えるとyがb増える関係

例えば、勉強時間(x)から試験の点数(y)を予測する場合、勉強時間が1時間増えると点数が何点増えるかを表す式を作ります。

例題1: 以下のデータから回帰直線を考える

勉強時間(x時間): 1, 2, 3, 4, 5
試験の点数(y点): 30, 40, 50, 60, 70

この関係を直線で表すと?
解答: y = 20 + 10x



【ステップ1: データの関係を確認】
x: 1  2  3  4  5
y: 30 40 50 60 70

xが1増えるごとに、yは10増えている!
→ 傾き b = 10



【ステップ2: 傾きを読み取る】

x = 1 → y = 30
x = 2 → y = 40(10増えた)
x = 3 → y = 50(10増えた)


傾き b = 10(勉強時間が1時間増えると点数が10点増える)



【ステップ3: 切片を求める】

回帰直線 y = a + bx に、既知の点を代入

x = 1, y = 30 を代入:
30 = a + 10 × 1
30 = a + 10
a = 20

切片 a = 20(勉強時間0時間でも20点取れる)



【ステップ4: 回帰直線を書く】

y = 20 + 10x



【検算:他の点でも確認】
x = 1: y = 20 + 10×1 = 30 ✓
x = 2: y = 20 + 10×2 = 40 ✓
x = 3: y = 20 + 10×3 = 50 ✓
x = 4: y = 20 + 10×4 = 60 ✓
x = 5: y = 20 + 10×5 = 70 ✓

すべての点が直線上にあるので完璧!



【回帰直線の解釈】
傾き b = 10 の意味:
「勉強時間が1時間増えると、
 点数が10点増える」

切片 a = 20 の意味:
「勉強時間が0時間でも、
 基礎点として20点取れる」



【予測に使う】
x = 6 のとき(6時間勉強したら):
y = 20 + 10×6 = 80点

x = 8 のとき(8時間勉強したら):
y = 20 + 10×8 = 100点
💡 回帰分析の目的
予測: 新しいxの値からyを予測
関係の把握: xとyの関係の強さを数値化
因果の推定: xがyに与える影響を評価

2️⃣ 最小二乗法(Least Squares Method)

最小二乗法の原理
実際の値yと予測値yの差(残差)の二乗和を最小にする

残差: eᵢ = yᵢ – y

目的: Σ(yᵢ – yᵢ)² を最小化

回帰係数の公式:
b = Σ[(xᵢ – x)(yᵢ – y)] / Σ(xᵢ – x
 = Sxy / Sxx

a = y – bx
例題2: 以下のデータで回帰係数を計算

x: 1, 2, 3
y: 2, 4, 5

x = 2, y = 11/3 ≈ 3.67
Σ(xᵢ-x)² = 2
Σ(xᵢ-x)(yᵢ-y) = 3
解答: y ≈ 0.67 + 1.5x



【ステップ1: 与えられた情報を整理】
・データ: x = {1, 2, 3}, y = {2, 4, 5}
・x̄ = (1+2+3)/3 = 2
・ȳ = (2+4+5)/3 = 11/3 ≈ 3.67
・Σ(xᵢ-x̄)² = Sxx = 2
・Σ(xᵢ-x̄)(yᵢ-ȳ) = Sxy = 3



【ステップ2: 傾き b を計算】

公式: b = Sxy / Sxx

b = 3 / 2 = 1.5



【ステップ3: 切片 a を計算】

公式: a = ȳ – b × x̄

a = 11/3 – 1.5 × 2
= 11/3 – 3
= 11/3 – 9/3
= 2/3
0.67



【ステップ4: 回帰直線を書く】

y = 0.67 + 1.5x
(または y = 2/3 + 3/2 × x)



【検算:各点での予測値と実際値の比較】
x=1: ŷ = 0.67 + 1.5×1 = 2.17, 実際 y=2, 残差 = -0.17
x=2: ŷ = 0.67 + 1.5×2 = 3.67, 実際 y=4, 残差 = 0.33
x=3: ŷ = 0.67 + 1.5×3 = 5.17, 実際 y=5, 残差 = -0.17

残差の合計 ≈ 0(誤差の切り捨てを除く)



【回帰直線の解釈】
傾き b = 1.5 の意味:
「xが1増えると、yは1.5増える」

回帰直線は必ず点(x̄, ȳ) = (2, 3.67)を通る



【公式の導出(参考)】
Sxy = Σ(xᵢ-x̄)(yᵢ-ȳ)
    = (1-2)(2-3.67) + (2-2)(4-3.67) + (3-2)(5-3.67)
    = (-1)(-1.67) + (0)(0.33) + (1)(1.33)
    = 1.67 + 0 + 1.33
    = 3

Sxx = Σ(xᵢ-x̄)²
    = (1-2)² + (2-2)² + (3-2)²
    = 1 + 0 + 1
    = 2

なぜ「二乗和」を最小にするのか?

残差をそのまま足すと、プラスとマイナスが打ち消し合ってしまいます。二乗することで、すべての残差を正の値にして合計できます。また、大きな誤差にペナルティを与える効果もあります。

⚡ 最小二乗法のポイント
• 誤差の二乗和を最小化する
• 回帰直線は必ず点(x, y)を通る
• 傾きbは相関係数rと関係がある: b = r × (sy/sx)

3️⃣ 決定係数(R²)

決定係数(Coefficient of Determination)
回帰モデルの当てはまりの良さを表す指標

R² = 1 – (残差平方和 / 総平方和)
R² = 1 – Σ(yᵢ-yᵢ)² / Σ(yᵢ-y

単回帰の場合:
R² = r²(相関係数の二乗)

0 ≤ R² ≤ 1
R² = 1: 完全に当てはまる
R² = 0: 全く当てはまらない
例題3: 相関係数r = 0.8の場合、決定係数R²は?
解答: R² = 0.64



【ステップ1: 公式を確認】

単回帰の場合: R² = r²



【ステップ2: 計算】

R² = r²
= 0.8²
= 0.64



【ステップ3: 結果を解釈】

R² = 0.64 の意味:
「yの変動の64%がxによって説明される」

残りの36%は他の要因や誤差による



【R²の解釈の仕方】
全変動 = 説明できる変動 + 説明できない変動
100%   =     64%        +      36%

例:試験の点数(y)と勉強時間(x)
・64%は勉強時間で説明できる
・36%は他の要因(才能、体調、問題との相性など)



【R²の目安】
R² ≥ 0.7  : 非常に良い当てはまり
0.5 ≤ R² < 0.7 : まあまあの当てはまり
0.3 ≤ R² < 0.5 : やや弱い当てはまり
R² < 0.3  : 弱い当てはまり

R² = 0.64 は「まあまあ〜良い」の範囲
💡 R²の注意点
• R²が高くても因果関係があるとは限らない
• 外れ値に影響されやすい
• 変数を増やすとR²は必ず増える(多重回帰の場合)

4️⃣ 残差分析の基礎

残差(Residual)
実際の値と予測値の差

eᵢ = yᵢ - y

良い回帰モデルの条件:
• 残差の平均が0に近い
• 残差がランダムに分布している
• 残差に規則的なパターンがない
• 残差の分散が一定(等分散性)
例題4: 回帰直線 y = 2 + 3x で予測した場合

x = 1 のとき実際の値が6だった。残差は?
解答: e = 1

---

【ステップ1: 予測値を計算】

回帰直線: y = 2 + 3x

x = 1 を代入:
ŷ = 2 + 3 × 1 = 2 + 3 = 5

---

【ステップ2: 残差を計算】

公式: e = y - ŷ(実際の値 - 予測値)

e = 6 - 5 = 1

---

【ステップ3: 結果を解釈】

残差 e = 1 > 0(正の値)

意味: 実際の値が予測値より1大きい
→ モデルが過小予測している

---

【残差の符号の意味】
e > 0(正の残差)
→ 実際値 > 予測値
→ モデルが過小予測

e < 0(負の残差)
→ 実際値 < 予測値
→ モデルが過大予測

e = 0
→ 実際値 = 予測値
→ 完璧な予測

---

【残差分析の視点】
良いモデルの特徴:
・残差がランダムに+/-に散らばる
・残差の合計が0に近い
・xの大きさによって残差の大きさが変わらない

悪い兆候:
・残差に規則的なパターン(曲線状など)
・xが大きいと残差も大きくなる(扇形)
⚠️ 残差に問題がある例
• 曲線パターン → 直線モデルが不適切
• 扇型パターン → 等分散性が成り立たない
• 外れ値 → データの確認が必要

5️⃣ 回帰分析の総合例

例題5: 以下のデータで回帰分析を行う

気温(x℃): 20, 25, 30, 35, 40
アイスの売上(y個): 40, 60, 70, 90, 100

相関係数: r = 0.98
x = 30, y = 72
Sxx = 250, Sxy = 600
回帰直線: y = 2.4x

---

【ステップ1: 与えられた情報を整理】
・気温(x): 20, 25, 30, 35, 40
・売上(y): 40, 60, 70, 90, 100
・相関係数: r = 0.98(非常に強い正の相関)
・x̄ = 30, ȳ = 72
・Sxx = 250, Sxy = 600

---

【ステップ2: 傾き b を計算】

b = Sxy / Sxx
= 600 / 250
= 2.4

---

【ステップ3: 切片 a を計算】

a = ȳ - b × x̄
= 72 - 2.4 × 30
= 72 - 72
= 0

---

【ステップ4: 回帰直線を書く】

y = 0 + 2.4x = 2.4x

---

【ステップ5: 傾きの解釈】

b = 2.4 の意味:
気温が1℃上がると、アイスの売上が2.4個増える

5℃上がれば: 2.4 × 5 = 12個増える

---

【ステップ6: 決定係数を計算】

R² = r² = 0.98² = 0.96

意味: 売上の変動の96%が気温によって説明される
→ 非常に良い当てはまり

---

【ステップ7: 予測に使う】
気温45℃のとき:
y = 2.4 × 45 = 108個

気温15℃のとき:
y = 2.4 × 15 = 36個

---

【検算:データ点での予測】
x=20: ŷ = 2.4×20 = 48, 実際 y=40, 残差=-8
x=25: ŷ = 2.4×25 = 60, 実際 y=60, 残差=0
x=30: ŷ = 2.4×30 = 72, 実際 y=70, 残差=-2
x=35: ŷ = 2.4×35 = 84, 実際 y=90, 残差=6
x=40: ŷ = 2.4×40 = 96, 実際 y=100, 残差=4

残差の合計 = -8+0-2+6+4 = 0 ✓

---

【分析結果のまとめ】
1. 回帰直線: y = 2.4x
2. 傾きの意味: 気温1℃増加で売上2.4個増加
3. 決定係数: R² = 0.96(96%を説明)
4. 結論: 気温と売上には非常に強い関係がある

注意: 相関関係であり、因果関係とは断言できない
(他の要因:天気、曜日、イベントなども影響の可能性)
💡 回帰分析の実践ポイント
• まず散布図を描いて直線関係を確認
• 相関係数で関係の強さを評価
• 回帰係数で具体的な影響を定量化
• R²でモデルの当てはまりを評価
• 残差分析でモデルの妥当性を確認

📝 練習問題(15問)

このステップの理解度を確認しましょう。12問以上正解できれば次のステップへ進めます。

問題 1

回帰直線の式

単回帰の回帰直線の一般式は?

解答: y = a + bx

【解き方】
a: 切片(x=0のときのy)
b: 傾き(xが1増えたときのyの増加量)
問題 2

傾きの意味

回帰直線 y = 10 + 5x の傾きが表すものは?

解答: xが1増えるとyが5増える

【解き方】
傾き = 5 はxの影響の大きさを表す
切片 = 10 はx=0のときのy
問題 3

最小二乗法

最小二乗法で最小化するものは?

解答: 残差の二乗和 Σ(yᵢ-ŷᵢ)²

【解き方】
誤差(残差)の二乗を合計したもの
二乗することで+/-が打ち消し合わない
問題 4

残差とは

残差eの定義は?

解答: e = y - ŷ(実際の値 - 予測値)

【解き方】
モデルの誤差を表す
正なら過小予測、負なら過大予測
問題 5

決定係数の範囲

決定係数R²の取りうる値の範囲は?

解答: 0 ≤ R² ≤ 1

【解き方】
1に近いほど当てはまりが良い
0なら全く説明できていない
問題 6

R²の意味

R² = 0.8 はどういう意味か?

解答: yの変動の80%がxで説明される

【解き方】
残り20%は他の要因や誤差による
非常に良い当てはまり
問題 7

単回帰のR²

単回帰でr = 0.9のとき、R²は?

解答: R² = 0.81

【解き方】
単回帰では R² = r²
R² = 0.9² = 0.81
問題 8

回帰直線の性質

回帰直線は必ずどの点を通るか?

解答: 点(x̄, ȳ)(xとyの平均値)

【解き方】
重心を通る
a = ȳ - bx̄ の公式から導かれる
問題 9

計算問題1

y = 5 + 2x で、x = 10 のとき予測値は?

解答: ŷ = 25

【解き方】
ŷ = 5 + 2 × 10 = 5 + 20 = 25
問題 10

計算問題2

y = 10 + 3x、x = 4 で y = 25。残差は?

解答: e = 3

【解き方】
ŷ = 10 + 3 × 4 = 22
e = y - ŷ = 25 - 22 = 3
問題 11

傾きの公式

傾き b の計算式は?(共分散と分散で)

解答: b = Sxy / Sxx

【解き方】
Sxy = Σ(xᵢ-x̄)(yᵢ-ȳ)(xとyの共分散×n)
Sxx = Σ(xᵢ-x̄)²(xの分散×n)
問題 12

切片の公式

切片 a の計算式は?

解答: a = ȳ - bx̄

【解き方】
平均値の関係から求める
回帰直線が(x̄, ȳ)を通ることを利用
問題 13

総合問題1

x̄=5, ȳ=20, b=3 のとき、切片aは?

解答: a = 5

【解き方】
a = ȳ - bx̄ = 20 - 3×5 = 20 - 15 = 5
問題 14

総合問題2

Sxy=30, Sxx=10 のとき、傾きbは?

解答: b = 3

【解き方】
b = Sxy / Sxx = 30 / 10 = 3
問題 15

総合問題3

回帰分析で「因果関係がある」と結論できるか?

解答: できない

【解き方】
相関関係 ≠ 因果関係
高いR²でも因果とは限らない
実験計画や他の証拠が必要

⚠️ よくあるつまずきポイントと対策

傾きと切片を取り違える

対策: y = a + bx の形を覚えましょう。

  • a(切片): x = 0 のときの y の値
  • b(傾き): x が1増えたときの y の増加量
  • 傾きは「変化率」、切片は「出発点」

R²と相関係数rを混同する

対策: 単回帰では R² = r² の関係を覚えましょう。

  • r: -1 ≤ r ≤ 1(符号あり)
  • : 0 ≤ R² ≤ 1(常に正)
  • r = -0.8 なら R² = 0.64

残差の符号を逆にする

対策: 「e = 実際 - 予測」と覚えましょう。

  • e = y - ŷ
  • 正の残差 → 実際値が予測より大きい(過小予測)
  • 負の残差 → 実際値が予測より小さい(過大予測)

相関と因果を混同する

対策: 「相関関係 ≠ 因果関係」を肝に銘じましょう。

  • R²が高くても因果とは限らない
  • 第三の変数が両方に影響している可能性
  • 因果の証明には実験や追加の証拠が必要

📚 このステップのまとめ

🎯 学習したこと

  • 単回帰分析: y = a + bx、xからyを予測
  • 最小二乗法: 残差の二乗和を最小化
  • 回帰係数: b = Sxy/Sxx、a = ȳ - bx̄
  • 決定係数R²: 当てはまりの良さ、0≤R²≤1
  • 残差分析: e = y - ŷ、モデルの妥当性確認
  • 解釈: 相関≠因果、R²の限界
💡 次のステップへ進む前に
練習問題で12問以上(80%以上)正解できたら、STEP 12に進みましょう!

回帰分析は統計学2級レベルの重要分野です。
R²の解釈と因果関係の違いをしっかり理解しましょう!
📝

学習メモ

統計検定2級対策 - Step 11

📋 過去のメモ一覧
#artnasekai #学習メモ
LINE