📈 STEP 11: 回帰分析入門
単回帰分析の考え方、最小二乗法、決定係数を理解しよう
📖 このステップで学ぶこと
単回帰分析、最小二乗法、決定係数(R²)、残差分析を学びます。
📝 練習問題: 15問
🎯 到達目標: 単回帰分析の考え方を説明できる、最小二乗法の原理を理解する、回帰係数を計算し解釈できる、決定係数R²の意味を理解する、残差分析の基礎ができる
🎯 到達目標: 単回帰分析の考え方を説明できる、最小二乗法の原理を理解する、回帰係数を計算し解釈できる、決定係数R²の意味を理解する、残差分析の基礎ができる
1️⃣ 単回帰分析とは
単回帰分析(Simple Linear Regression)
1つの説明変数xから目的変数yを予測する
回帰直線:
y = a + bx
a: 切片(intercept)= x=0のときのyの値
b: 傾き(slope)= xが1増えたときのyの増加量
xが1増えるとyがb増える関係
1つの説明変数xから目的変数yを予測する
回帰直線:
y = a + bx
a: 切片(intercept)= x=0のときのyの値
b: 傾き(slope)= xが1増えたときのyの増加量
xが1増えるとyがb増える関係
例えば、勉強時間(x)から試験の点数(y)を予測する場合、勉強時間が1時間増えると点数が何点増えるかを表す式を作ります。
例題1: 以下のデータから回帰直線を考える
勉強時間(x時間): 1, 2, 3, 4, 5
試験の点数(y点): 30, 40, 50, 60, 70
この関係を直線で表すと?
勉強時間(x時間): 1, 2, 3, 4, 5
試験の点数(y点): 30, 40, 50, 60, 70
この関係を直線で表すと?
解答: y = 20 + 10x
—
【ステップ1: データの関係を確認】
—
【ステップ2: 傾きを読み取る】
x = 1 → y = 30
x = 2 → y = 40(10増えた)
x = 3 → y = 50(10増えた)
…
傾き b = 10(勉強時間が1時間増えると点数が10点増える)
—
【ステップ3: 切片を求める】
回帰直線 y = a + bx に、既知の点を代入
x = 1, y = 30 を代入:
30 = a + 10 × 1
30 = a + 10
a = 20
切片 a = 20(勉強時間0時間でも20点取れる)
—
【ステップ4: 回帰直線を書く】
y = 20 + 10x
—
【検算:他の点でも確認】
すべての点が直線上にあるので完璧!
—
【回帰直線の解釈】
—
【予測に使う】
—
【ステップ1: データの関係を確認】
x: 1 2 3 4 5 y: 30 40 50 60 70 xが1増えるごとに、yは10増えている! → 傾き b = 10
—
【ステップ2: 傾きを読み取る】
x = 1 → y = 30
x = 2 → y = 40(10増えた)
x = 3 → y = 50(10増えた)
…
傾き b = 10(勉強時間が1時間増えると点数が10点増える)
—
【ステップ3: 切片を求める】
回帰直線 y = a + bx に、既知の点を代入
x = 1, y = 30 を代入:
30 = a + 10 × 1
30 = a + 10
a = 20
切片 a = 20(勉強時間0時間でも20点取れる)
—
【ステップ4: 回帰直線を書く】
y = 20 + 10x
—
【検算:他の点でも確認】
x = 1: y = 20 + 10×1 = 30 ✓ x = 2: y = 20 + 10×2 = 40 ✓ x = 3: y = 20 + 10×3 = 50 ✓ x = 4: y = 20 + 10×4 = 60 ✓ x = 5: y = 20 + 10×5 = 70 ✓
すべての点が直線上にあるので完璧!
—
【回帰直線の解釈】
傾き b = 10 の意味: 「勉強時間が1時間増えると、 点数が10点増える」 切片 a = 20 の意味: 「勉強時間が0時間でも、 基礎点として20点取れる」
—
【予測に使う】
x = 6 のとき(6時間勉強したら): y = 20 + 10×6 = 80点 x = 8 のとき(8時間勉強したら): y = 20 + 10×8 = 100点
💡 回帰分析の目的
• 予測: 新しいxの値からyを予測
• 関係の把握: xとyの関係の強さを数値化
• 因果の推定: xがyに与える影響を評価
• 予測: 新しいxの値からyを予測
• 関係の把握: xとyの関係の強さを数値化
• 因果の推定: xがyに与える影響を評価
2️⃣ 最小二乗法(Least Squares Method)
最小二乗法の原理
実際の値yと予測値yの差(残差)の二乗和を最小にする
残差: eᵢ = yᵢ – yᵢ
目的: Σ(yᵢ – yᵢ)² を最小化
回帰係数の公式:
b = Σ[(xᵢ – x)(yᵢ – y)] / Σ(xᵢ – x)²
= Sxy / Sxx
a = y – bx
実際の値yと予測値yの差(残差)の二乗和を最小にする
残差: eᵢ = yᵢ – yᵢ
目的: Σ(yᵢ – yᵢ)² を最小化
回帰係数の公式:
b = Σ[(xᵢ – x)(yᵢ – y)] / Σ(xᵢ – x)²
= Sxy / Sxx
a = y – bx
例題2: 以下のデータで回帰係数を計算
x: 1, 2, 3
y: 2, 4, 5
x = 2, y = 11/3 ≈ 3.67
Σ(xᵢ-x)² = 2
Σ(xᵢ-x)(yᵢ-y) = 3
x: 1, 2, 3
y: 2, 4, 5
x = 2, y = 11/3 ≈ 3.67
Σ(xᵢ-x)² = 2
Σ(xᵢ-x)(yᵢ-y) = 3
解答: y ≈ 0.67 + 1.5x
—
【ステップ1: 与えられた情報を整理】
—
【ステップ2: 傾き b を計算】
公式: b = Sxy / Sxx
b = 3 / 2 = 1.5
—
【ステップ3: 切片 a を計算】
公式: a = ȳ – b × x̄
a = 11/3 – 1.5 × 2
= 11/3 – 3
= 11/3 – 9/3
= 2/3
≈ 0.67
—
【ステップ4: 回帰直線を書く】
y = 0.67 + 1.5x
(または y = 2/3 + 3/2 × x)
—
【検算:各点での予測値と実際値の比較】
—
【回帰直線の解釈】
—
【公式の導出(参考)】
—
【ステップ1: 与えられた情報を整理】
・データ: x = {1, 2, 3}, y = {2, 4, 5}
・x̄ = (1+2+3)/3 = 2
・ȳ = (2+4+5)/3 = 11/3 ≈ 3.67
・Σ(xᵢ-x̄)² = Sxx = 2
・Σ(xᵢ-x̄)(yᵢ-ȳ) = Sxy = 3
—
【ステップ2: 傾き b を計算】
公式: b = Sxy / Sxx
b = 3 / 2 = 1.5
—
【ステップ3: 切片 a を計算】
公式: a = ȳ – b × x̄
a = 11/3 – 1.5 × 2
= 11/3 – 3
= 11/3 – 9/3
= 2/3
≈ 0.67
—
【ステップ4: 回帰直線を書く】
y = 0.67 + 1.5x
(または y = 2/3 + 3/2 × x)
—
【検算:各点での予測値と実際値の比較】
x=1: ŷ = 0.67 + 1.5×1 = 2.17, 実際 y=2, 残差 = -0.17 x=2: ŷ = 0.67 + 1.5×2 = 3.67, 実際 y=4, 残差 = 0.33 x=3: ŷ = 0.67 + 1.5×3 = 5.17, 実際 y=5, 残差 = -0.17 残差の合計 ≈ 0(誤差の切り捨てを除く)
—
【回帰直線の解釈】
傾き b = 1.5 の意味: 「xが1増えると、yは1.5増える」 回帰直線は必ず点(x̄, ȳ) = (2, 3.67)を通る
—
【公式の導出(参考)】
Sxy = Σ(xᵢ-x̄)(yᵢ-ȳ)
= (1-2)(2-3.67) + (2-2)(4-3.67) + (3-2)(5-3.67)
= (-1)(-1.67) + (0)(0.33) + (1)(1.33)
= 1.67 + 0 + 1.33
= 3
Sxx = Σ(xᵢ-x̄)²
= (1-2)² + (2-2)² + (3-2)²
= 1 + 0 + 1
= 2
なぜ「二乗和」を最小にするのか?
残差をそのまま足すと、プラスとマイナスが打ち消し合ってしまいます。二乗することで、すべての残差を正の値にして合計できます。また、大きな誤差にペナルティを与える効果もあります。
⚡ 最小二乗法のポイント
• 誤差の二乗和を最小化する
• 回帰直線は必ず点(x, y)を通る
• 傾きbは相関係数rと関係がある: b = r × (sy/sx)
• 誤差の二乗和を最小化する
• 回帰直線は必ず点(x, y)を通る
• 傾きbは相関係数rと関係がある: b = r × (sy/sx)
3️⃣ 決定係数(R²)
決定係数(Coefficient of Determination)
回帰モデルの当てはまりの良さを表す指標
R² = 1 – (残差平方和 / 総平方和)
R² = 1 – Σ(yᵢ-yᵢ)² / Σ(yᵢ-y)²
単回帰の場合:
R² = r²(相関係数の二乗)
0 ≤ R² ≤ 1
R² = 1: 完全に当てはまる
R² = 0: 全く当てはまらない
回帰モデルの当てはまりの良さを表す指標
R² = 1 – (残差平方和 / 総平方和)
R² = 1 – Σ(yᵢ-yᵢ)² / Σ(yᵢ-y)²
単回帰の場合:
R² = r²(相関係数の二乗)
0 ≤ R² ≤ 1
R² = 1: 完全に当てはまる
R² = 0: 全く当てはまらない
例題3: 相関係数r = 0.8の場合、決定係数R²は?
解答: R² = 0.64
—
【ステップ1: 公式を確認】
単回帰の場合: R² = r²
—
【ステップ2: 計算】
R² = r²
= 0.8²
= 0.64
—
【ステップ3: 結果を解釈】
R² = 0.64 の意味:
「yの変動の64%がxによって説明される」
残りの36%は他の要因や誤差による
—
【R²の解釈の仕方】
—
【R²の目安】
—
【ステップ1: 公式を確認】
単回帰の場合: R² = r²
—
【ステップ2: 計算】
R² = r²
= 0.8²
= 0.64
—
【ステップ3: 結果を解釈】
R² = 0.64 の意味:
「yの変動の64%がxによって説明される」
残りの36%は他の要因や誤差による
—
【R²の解釈の仕方】
全変動 = 説明できる変動 + 説明できない変動 100% = 64% + 36% 例:試験の点数(y)と勉強時間(x) ・64%は勉強時間で説明できる ・36%は他の要因(才能、体調、問題との相性など)
—
【R²の目安】
R² ≥ 0.7 : 非常に良い当てはまり 0.5 ≤ R² < 0.7 : まあまあの当てはまり 0.3 ≤ R² < 0.5 : やや弱い当てはまり R² < 0.3 : 弱い当てはまり R² = 0.64 は「まあまあ〜良い」の範囲
💡 R²の注意点
• R²が高くても因果関係があるとは限らない
• 外れ値に影響されやすい
• 変数を増やすとR²は必ず増える(多重回帰の場合)
• R²が高くても因果関係があるとは限らない
• 外れ値に影響されやすい
• 変数を増やすとR²は必ず増える(多重回帰の場合)
4️⃣ 残差分析の基礎
残差(Residual)
実際の値と予測値の差
eᵢ = yᵢ - yᵢ
良い回帰モデルの条件:
• 残差の平均が0に近い
• 残差がランダムに分布している
• 残差に規則的なパターンがない
• 残差の分散が一定(等分散性)
実際の値と予測値の差
eᵢ = yᵢ - yᵢ
良い回帰モデルの条件:
• 残差の平均が0に近い
• 残差がランダムに分布している
• 残差に規則的なパターンがない
• 残差の分散が一定(等分散性)
例題4: 回帰直線 y = 2 + 3x で予測した場合
x = 1 のとき実際の値が6だった。残差は?
x = 1 のとき実際の値が6だった。残差は?
解答: e = 1
---
【ステップ1: 予測値を計算】
回帰直線: y = 2 + 3x
x = 1 を代入:
ŷ = 2 + 3 × 1 = 2 + 3 = 5
---
【ステップ2: 残差を計算】
公式: e = y - ŷ(実際の値 - 予測値)
e = 6 - 5 = 1
---
【ステップ3: 結果を解釈】
残差 e = 1 > 0(正の値)
意味: 実際の値が予測値より1大きい
→ モデルが過小予測している
---
【残差の符号の意味】
---
【残差分析の視点】
---
【ステップ1: 予測値を計算】
回帰直線: y = 2 + 3x
x = 1 を代入:
ŷ = 2 + 3 × 1 = 2 + 3 = 5
---
【ステップ2: 残差を計算】
公式: e = y - ŷ(実際の値 - 予測値)
e = 6 - 5 = 1
---
【ステップ3: 結果を解釈】
残差 e = 1 > 0(正の値)
意味: 実際の値が予測値より1大きい
→ モデルが過小予測している
---
【残差の符号の意味】
e > 0(正の残差) → 実際値 > 予測値 → モデルが過小予測 e < 0(負の残差) → 実際値 < 予測値 → モデルが過大予測 e = 0 → 実際値 = 予測値 → 完璧な予測
---
【残差分析の視点】
良いモデルの特徴: ・残差がランダムに+/-に散らばる ・残差の合計が0に近い ・xの大きさによって残差の大きさが変わらない 悪い兆候: ・残差に規則的なパターン(曲線状など) ・xが大きいと残差も大きくなる(扇形)
⚠️ 残差に問題がある例
• 曲線パターン → 直線モデルが不適切
• 扇型パターン → 等分散性が成り立たない
• 外れ値 → データの確認が必要
• 曲線パターン → 直線モデルが不適切
• 扇型パターン → 等分散性が成り立たない
• 外れ値 → データの確認が必要
5️⃣ 回帰分析の総合例
例題5: 以下のデータで回帰分析を行う
気温(x℃): 20, 25, 30, 35, 40
アイスの売上(y個): 40, 60, 70, 90, 100
相関係数: r = 0.98
x = 30, y = 72
Sxx = 250, Sxy = 600
気温(x℃): 20, 25, 30, 35, 40
アイスの売上(y個): 40, 60, 70, 90, 100
相関係数: r = 0.98
x = 30, y = 72
Sxx = 250, Sxy = 600
回帰直線: y = 2.4x
---
【ステップ1: 与えられた情報を整理】
---
【ステップ2: 傾き b を計算】
b = Sxy / Sxx
= 600 / 250
= 2.4
---
【ステップ3: 切片 a を計算】
a = ȳ - b × x̄
= 72 - 2.4 × 30
= 72 - 72
= 0
---
【ステップ4: 回帰直線を書く】
y = 0 + 2.4x = 2.4x
---
【ステップ5: 傾きの解釈】
b = 2.4 の意味:
「気温が1℃上がると、アイスの売上が2.4個増える」
5℃上がれば: 2.4 × 5 = 12個増える
---
【ステップ6: 決定係数を計算】
R² = r² = 0.98² = 0.96
意味: 売上の変動の96%が気温によって説明される
→ 非常に良い当てはまり
---
【ステップ7: 予測に使う】
---
【検算:データ点での予測】
---
【分析結果のまとめ】
---
【ステップ1: 与えられた情報を整理】
・気温(x): 20, 25, 30, 35, 40 ・売上(y): 40, 60, 70, 90, 100 ・相関係数: r = 0.98(非常に強い正の相関) ・x̄ = 30, ȳ = 72 ・Sxx = 250, Sxy = 600
---
【ステップ2: 傾き b を計算】
b = Sxy / Sxx
= 600 / 250
= 2.4
---
【ステップ3: 切片 a を計算】
a = ȳ - b × x̄
= 72 - 2.4 × 30
= 72 - 72
= 0
---
【ステップ4: 回帰直線を書く】
y = 0 + 2.4x = 2.4x
---
【ステップ5: 傾きの解釈】
b = 2.4 の意味:
「気温が1℃上がると、アイスの売上が2.4個増える」
5℃上がれば: 2.4 × 5 = 12個増える
---
【ステップ6: 決定係数を計算】
R² = r² = 0.98² = 0.96
意味: 売上の変動の96%が気温によって説明される
→ 非常に良い当てはまり
---
【ステップ7: 予測に使う】
気温45℃のとき: y = 2.4 × 45 = 108個 気温15℃のとき: y = 2.4 × 15 = 36個
---
【検算:データ点での予測】
x=20: ŷ = 2.4×20 = 48, 実際 y=40, 残差=-8 x=25: ŷ = 2.4×25 = 60, 実際 y=60, 残差=0 x=30: ŷ = 2.4×30 = 72, 実際 y=70, 残差=-2 x=35: ŷ = 2.4×35 = 84, 実際 y=90, 残差=6 x=40: ŷ = 2.4×40 = 96, 実際 y=100, 残差=4 残差の合計 = -8+0-2+6+4 = 0 ✓
---
【分析結果のまとめ】
1. 回帰直線: y = 2.4x 2. 傾きの意味: 気温1℃増加で売上2.4個増加 3. 決定係数: R² = 0.96(96%を説明) 4. 結論: 気温と売上には非常に強い関係がある 注意: 相関関係であり、因果関係とは断言できない (他の要因:天気、曜日、イベントなども影響の可能性)
💡 回帰分析の実践ポイント
• まず散布図を描いて直線関係を確認
• 相関係数で関係の強さを評価
• 回帰係数で具体的な影響を定量化
• R²でモデルの当てはまりを評価
• 残差分析でモデルの妥当性を確認
• まず散布図を描いて直線関係を確認
• 相関係数で関係の強さを評価
• 回帰係数で具体的な影響を定量化
• R²でモデルの当てはまりを評価
• 残差分析でモデルの妥当性を確認
📝 練習問題(15問)
このステップの理解度を確認しましょう。12問以上正解できれば次のステップへ進めます。
問題 1
回帰直線の式
単回帰の回帰直線の一般式は?
解答: y = a + bx
【解き方】
a: 切片(x=0のときのy)
b: 傾き(xが1増えたときのyの増加量)
【解き方】
a: 切片(x=0のときのy)
b: 傾き(xが1増えたときのyの増加量)
問題 2
傾きの意味
回帰直線 y = 10 + 5x の傾きが表すものは?
解答: xが1増えるとyが5増える
【解き方】
傾き = 5 はxの影響の大きさを表す
切片 = 10 はx=0のときのy
【解き方】
傾き = 5 はxの影響の大きさを表す
切片 = 10 はx=0のときのy
問題 3
最小二乗法
最小二乗法で最小化するものは?
解答: 残差の二乗和 Σ(yᵢ-ŷᵢ)²
【解き方】
誤差(残差)の二乗を合計したもの
二乗することで+/-が打ち消し合わない
【解き方】
誤差(残差)の二乗を合計したもの
二乗することで+/-が打ち消し合わない
問題 4
残差とは
残差eの定義は?
解答: e = y - ŷ(実際の値 - 予測値)
【解き方】
モデルの誤差を表す
正なら過小予測、負なら過大予測
【解き方】
モデルの誤差を表す
正なら過小予測、負なら過大予測
問題 5
決定係数の範囲
決定係数R²の取りうる値の範囲は?
解答: 0 ≤ R² ≤ 1
【解き方】
1に近いほど当てはまりが良い
0なら全く説明できていない
【解き方】
1に近いほど当てはまりが良い
0なら全く説明できていない
問題 6
R²の意味
R² = 0.8 はどういう意味か?
解答: yの変動の80%がxで説明される
【解き方】
残り20%は他の要因や誤差による
非常に良い当てはまり
【解き方】
残り20%は他の要因や誤差による
非常に良い当てはまり
問題 7
単回帰のR²
単回帰でr = 0.9のとき、R²は?
解答: R² = 0.81
【解き方】
単回帰では R² = r²
R² = 0.9² = 0.81
【解き方】
単回帰では R² = r²
R² = 0.9² = 0.81
問題 8
回帰直線の性質
回帰直線は必ずどの点を通るか?
解答: 点(x̄, ȳ)(xとyの平均値)
【解き方】
重心を通る
a = ȳ - bx̄ の公式から導かれる
【解き方】
重心を通る
a = ȳ - bx̄ の公式から導かれる
問題 9
計算問題1
y = 5 + 2x で、x = 10 のとき予測値は?
解答: ŷ = 25
【解き方】
ŷ = 5 + 2 × 10 = 5 + 20 = 25
【解き方】
ŷ = 5 + 2 × 10 = 5 + 20 = 25
問題 10
計算問題2
y = 10 + 3x、x = 4 で y = 25。残差は?
解答: e = 3
【解き方】
ŷ = 10 + 3 × 4 = 22
e = y - ŷ = 25 - 22 = 3
【解き方】
ŷ = 10 + 3 × 4 = 22
e = y - ŷ = 25 - 22 = 3
問題 11
傾きの公式
傾き b の計算式は?(共分散と分散で)
解答: b = Sxy / Sxx
【解き方】
Sxy = Σ(xᵢ-x̄)(yᵢ-ȳ)(xとyの共分散×n)
Sxx = Σ(xᵢ-x̄)²(xの分散×n)
【解き方】
Sxy = Σ(xᵢ-x̄)(yᵢ-ȳ)(xとyの共分散×n)
Sxx = Σ(xᵢ-x̄)²(xの分散×n)
問題 12
切片の公式
切片 a の計算式は?
解答: a = ȳ - bx̄
【解き方】
平均値の関係から求める
回帰直線が(x̄, ȳ)を通ることを利用
【解き方】
平均値の関係から求める
回帰直線が(x̄, ȳ)を通ることを利用
問題 13
総合問題1
x̄=5, ȳ=20, b=3 のとき、切片aは?
解答: a = 5
【解き方】
a = ȳ - bx̄ = 20 - 3×5 = 20 - 15 = 5
【解き方】
a = ȳ - bx̄ = 20 - 3×5 = 20 - 15 = 5
問題 14
総合問題2
Sxy=30, Sxx=10 のとき、傾きbは?
解答: b = 3
【解き方】
b = Sxy / Sxx = 30 / 10 = 3
【解き方】
b = Sxy / Sxx = 30 / 10 = 3
問題 15
総合問題3
回帰分析で「因果関係がある」と結論できるか?
解答: できない
【解き方】
相関関係 ≠ 因果関係
高いR²でも因果とは限らない
実験計画や他の証拠が必要
【解き方】
相関関係 ≠ 因果関係
高いR²でも因果とは限らない
実験計画や他の証拠が必要
⚠️ よくあるつまずきポイントと対策
傾きと切片を取り違える
対策: y = a + bx の形を覚えましょう。
- a(切片): x = 0 のときの y の値
- b(傾き): x が1増えたときの y の増加量
- 傾きは「変化率」、切片は「出発点」
R²と相関係数rを混同する
対策: 単回帰では R² = r² の関係を覚えましょう。
- r: -1 ≤ r ≤ 1(符号あり)
- R²: 0 ≤ R² ≤ 1(常に正)
- r = -0.8 なら R² = 0.64
残差の符号を逆にする
対策: 「e = 実際 - 予測」と覚えましょう。
- e = y - ŷ
- 正の残差 → 実際値が予測より大きい(過小予測)
- 負の残差 → 実際値が予測より小さい(過大予測)
相関と因果を混同する
対策: 「相関関係 ≠ 因果関係」を肝に銘じましょう。
- R²が高くても因果とは限らない
- 第三の変数が両方に影響している可能性
- 因果の証明には実験や追加の証拠が必要
📚 このステップのまとめ
🎯 学習したこと
- 単回帰分析: y = a + bx、xからyを予測
- 最小二乗法: 残差の二乗和を最小化
- 回帰係数: b = Sxy/Sxx、a = ȳ - bx̄
- 決定係数R²: 当てはまりの良さ、0≤R²≤1
- 残差分析: e = y - ŷ、モデルの妥当性確認
- 解釈: 相関≠因果、R²の限界
💡 次のステップへ進む前に
練習問題で12問以上(80%以上)正解できたら、STEP 12に進みましょう!
回帰分析は統計学2級レベルの重要分野です。
R²の解釈と因果関係の違いをしっかり理解しましょう!
練習問題で12問以上(80%以上)正解できたら、STEP 12に進みましょう!
回帰分析は統計学2級レベルの重要分野です。
R²の解釈と因果関係の違いをしっかり理解しましょう!
学習メモ
統計検定2級対策 - Step 11
📋 過去のメモ一覧
▼