🎯 STEP 21: 教師なし学習の総合演習
顧客セグメンテーション – クラスタリング・次元削減・異常検知の統合
📋 このステップで学ぶこと
- 教師なし学習の実践的なワークフロー
- 顧客セグメンテーションプロジェクト
- 前処理 → 次元削減 → クラスタリング → 異常検知の統合
- クラスタの解釈とビジネス活用
- 結果の可視化とレポーティング
演習問題: 4問
🎯 1. プロジェクト概要:顧客セグメンテーション
ECサイトの顧客データを分析し、似た購買行動を持つ顧客グループを発見します。
ビジネス目標:
・各セグメントに適したマーケティング戦略を立てる
・優良顧客の特徴を把握する
・異常な購買パターン(不正など)を検出する
実務では、次元削減 → クラスタリング → 異常検知を組み合わせることが多いです。
- 次元削減:高次元データを可視化可能にする
- クラスタリング:顧客グループを発見する
- 異常検知:不正や特殊な顧客を検出する
📊 2. Step 1: データの準備と探索
⚙️ 3. Step 2-3: 前処理と次元削減
🎯 4. Step 4: クラスタリング
📈 5. Step 5: クラスタの解釈
クラスタ0(優良顧客):ロイヤリティプログラム、限定オファー
クラスタ1(離脱リスク):リテンションキャンペーン、割引クーポン
クラスタ2(ロイヤル):クロスセル、アップセル
クラスタ3(新規):オンボーディング、教育コンテンツ
🔍 6. Step 6: 異常検知
異常 = 必ずしも「悪い」ではありません。
・超優良顧客:極端に高額な購入
・不正の可能性:異常な返品率、問い合わせ
・データエラー:入力ミスなど
→ 個別に確認が必要!
📋 7. Step 7: まとめとレポート
- ☑️ データの探索と理解(EDA)
- ☑️ 適切な前処理(標準化)
- ☑️ 次元削減による可視化(PCA、t-SNE)
- ☑️ 最適なクラスタ数の決定(エルボー法、シルエット分析)
- ☑️ クラスタの解釈とビジネス意味付け
- ☑️ 異常検知による特殊顧客の発見
- ☑️ 分析結果のレポート作成
📝 練習問題
ワークフローの順序
顧客セグメンテーションの正しい順序を選んでください。
- A. クラスタリング → 前処理 → 次元削減 → 解釈
- B. 前処理 → 次元削減 → クラスタリング → 解釈
- C. 次元削減 → クラスタリング → 前処理 → 解釈
正しい順序は「前処理(標準化)→ 次元削減(可視化用)→ クラスタリング → 解釈」です。前処理を最初に行わないと、スケールが大きい特徴量に引っ張られます。
クラスタの解釈
クラスタリング結果を解釈する際に最も重要なことは何ですか?
- A. クラスタ数をなるべく多くする
- B. 各クラスタの特徴量平均を比較し、ビジネス的な意味を見出す
- C. シルエットスコアを1.0に近づける
クラスタリングの目的は、データをグループ化するだけでなく、各グループの特徴を理解し、ビジネス施策に活かすことです。
異常検知の解釈
異常として検出された顧客を見たら、購入金額が非常に高く、返品はゼロでした。この顧客をどう解釈しますか?
解釈:これは「超優良顧客」の可能性が高いです。
異常 = 悪いではなく、「通常と異なる」という意味です。
推奨アクション:
・VIP顧客として特別対応
・ロイヤリティプログラムへの招待
・個別の担当者をつける
このように、異常検知の結果は文脈を考慮して解釈する必要があります。
総合演習
Irisデータセットで同様の分析(標準化→PCA→K-means→クラスタの可視化)を行ってください。
📝 STEP 21 のまとめ
- 教師なし学習の統合ワークフロー:前処理→次元削減→クラスタリング→異常検知
- 顧客セグメンテーション:RFM分析とK-meansの組み合わせ
- クラスタの解釈:特徴量平均の比較、ビジネス意味付け
- 異常検知の活用:特殊な顧客の発見と個別対応
- レポート作成:分析結果を施策に落とし込む
教師なし学習のPart 5が完了しました!クラスタリング、次元削減、異常検知を実践的なプロジェクトで統合できるようになりました。
次のPart 6では、モデル評価と改善を学びます。交差検証、バイアス-バリアンストレードオフ、ハイパーパラメータチューニングなど、モデルの性能を最大化するテクニックを習得しましょう!
❓ よくある質問
・Recency(最終購入日からの経過日数)
・Frequency(購入頻度)
・Monetary(購入金額)
この3つの指標で顧客を分類します。
ビジネス要件:施策を実行できるセグメント数
両方を考慮して決定します。多すぎると施策が煩雑に、少なすぎると顧客の違いが見えなくなります。
・プロダクト:セグメント別の商品推薦
・カスタマーサクセス:離脱リスク顧客への対応
・経営:顧客ポートフォリオの可視化
・モデルを再学習(fit)
・新規顧客にはtransform/predict
・クラスタの遷移を追跡(どのクラスタからどのクラスタに移動したか)
・lifetimes:顧客のLTV予測
・pyod:異常検知のアンサンブル
・plotly:インタラクティブな可視化
学習メモ
機械学習入門 - Step 21