STEP 3:分析プロジェクトの進め方

🎯 STEP 3: 分析プロジェクトの進め方

データ分析を成功させる6つのステップを習得しよう

📋 このステップで学ぶこと

  • データ分析プロジェクトの全体像
  • 6つのステップ(課題理解→データ収集→前処理→分析→解釈→アクションプラン)
  • 各ステップでやるべきこと・避けるべき落とし穴
  • プロジェクト管理の基本(スケジュール、タスク管理)
  • ステークホルダーとのコミュニケーション術

🎯 1. データ分析プロジェクトとは

なぜ「プロジェクト」として進めるのか?

データ分析を「なんとなく」始めると、どうなるでしょうか?

  • 途中で「何をやっているかわからなくなる」
  • いつまでも終わらない
  • 結局、何も成果が出ない

これを防ぐために、「プロジェクト」として体系的に進めることが大切です。

📝 旅行で例えてみましょう

❌ 計画なしの旅行

  • どこに行くか決めずに出発
  • 気の向くままに移動
  • 時間とお金を無駄にする
  • 結局、行きたかった場所に行けなかった…

✅ 計画的な旅行

  • 目的地を決める:京都に行きたい
  • 交通手段を調べる:新幹線で2時間
  • 観光ルートを計画:金閣寺→清水寺→嵐山
  • 予算とスケジュールを管理
  • → 効率的に楽しめた!

データ分析プロジェクトも同じです!
ゴールを決めて、計画を立てて、順序立てて進めることで、確実に成果を出せます。

データ分析プロジェクトの4つの特徴

データ分析をプロジェクトとして進めるとき、意識すべき4つの特徴があります。

1️⃣ 明確なゴールがある

何のため:「何を明らかにしたいか」「何を改善したいか」を最初に定義します。

なぜ重要:ゴールがないと、何を分析すればいいかわからず、迷子になります。

2️⃣ 期限がある

何のため:「いつまでに結果を出すか」を決めます。

なぜ重要:期限がないと、ダラダラ続けてしまい、いつまでも終わりません。

3️⃣ ステップが決まっている

何のため:データ収集→分析→レポート作成など、順序立てて進めます。

なぜ重要:いきなり分析を始めると、必要なデータがなくて手戻りが発生します。

4️⃣ チームで協力する

何のため:一人で完結せず、関係者と協力して進めます。

なぜ重要:データ提供者、依頼者、実行者など、様々な人の協力が必要です。

💭 一人でやる場合も「プロジェクト」の考え方は有効

たとえ一人で分析する場合でも、「ゴール」「期限」「ステップ」を意識することで、効率的に成果を出せます。自分自身をマネジメントするためのフレームワークとして活用しましょう。

📊 2. データ分析の6つのステップ

データ分析プロジェクトは、6つのステップで進めます。

これは業界標準のフレームワークで、どんなプロジェクトにも応用できます。STEP 1で学んだ「バリューチェーン」と似ていますが、より実務的な手順に落とし込んだものです。

1️⃣
課題理解
何を解決したいのか明確にする
2️⃣
データ収集
必要なデータを集める
3️⃣
データ前処理
データをきれいに整える
4️⃣
データ分析
データを計算・可視化して洞察を得る
5️⃣
結果の解釈
分析結果から「だから何?」を考える
6️⃣
アクションプラン
具体的な行動計画を立てて実行
💡 6つのステップは「順番」が大切

いきなりステップ4「データ分析」から始めるのはNGです!

まず「何を解決したいか」(ステップ1)を明確にしないと、「何のために分析しているのか」がわからなくなり、無駄な分析をしてしまいます。

必ず1→2→3→4→5→6の順番で進めましょう。

各ステップの時間配分の目安

「分析」が一番時間がかかると思いがちですが、実はそうではありません。

ステップ 時間配分 1週間プロジェクトの場合
1. 課題理解 10% 約4時間
2. データ収集 15% 約6時間
3. データ前処理 30% 約12時間
4. データ分析 20% 約8時間
5. 結果の解釈 10% 約4時間
6. アクションプラン 15% 約6時間
⚠️ 初心者がよくやる間違い

間違い1:前処理を軽視する

「データ分析」に時間をかけすぎて、前処理を雑にしてしまう。実際は、前処理が全体の30%を占めます。地味だけど超重要!

間違い2:アクションプランを作らない

分析結果をまとめて満足してしまい、「で、どうする?」が抜けている。分析で終わらず、必ず行動につなげましょう

1️⃣ ステップ1:課題理解

このステップでやること

「何を解決したいのか」「なぜそれが重要なのか」を明確にします。

これが曖昧だと、後で必ず迷子になります。「何を分析すればいいかわからない」「分析したけど、結局何がしたかったんだっけ?」という状態を防ぐためのステップです。

✅ 課題理解でやるべきこと
  • 依頼者にヒアリングする:何を知りたいのか、なぜ今なのか、背景は何か
  • ゴールを明確化する:「売上を増やす」ではなく「新規顧客を20%増やす」など具体的に
  • 制約条件を確認する:期限、予算、利用可能なデータ、技術的な制約
  • 成功の定義を決める:何ができたら「成功」と言えるのか

良い課題定義 vs 悪い課題定義

課題定義の良し悪しで、プロジェクトの成否が決まります。

❌ 悪い課題定義の例

「売上を増やしたい」

→ 曖昧すぎる。いつまでに?どれくらい?どうやって?

「データを見て何かわかることを教えて」

→ ゴールが不明。何を知りたいの?

「とりあえず分析してほしい」

→ 目的がない。時間の無駄になる可能性大。

✅ 良い課題定義の例

「3ヶ月以内に新規顧客を20%増やすため、どのマーケティングチャネルに予算を配分すべきか知りたい」

→ 期限、目標、知りたいことが明確。

「顧客の解約率が高い原因を特定し、リテンション施策を提案してほしい」

→ 課題と期待するアウトプットが明確。

課題理解シート(テンプレート)

以下のテンプレートを使って、課題を整理しましょう。

【課題理解シート】 ■ プロジェクト名  (例)新規顧客獲得チャネル最適化プロジェクト ■ 背景・きっかけ  なぜこの分析が必要になったのか?  (例)新規顧客数が前年比で10%減少している ■ 解決したい課題  何を明らかにしたいのか?  (例)どのマーケティングチャネルに予算を配分すべきか ■ ゴール(SMART形式で)  具体的な目標は?  (例)3ヶ月以内に新規顧客を月間100人→120人に増やす ■ 成功の定義  何ができたら成功か?  (例)予算配分の最適化により、CPA(顧客獲得単価)を20%削減 ■ 期限  いつまでに完了させるか?  (例)2週間後にレポート提出 ■ 制約条件  予算、データ、技術的な制約は?  (例)予算は現状維持、使えるデータは過去1年分のみ ■ ステークホルダー  誰が関わるか?  (例)依頼者:マーケティング部長、協力者:営業部、IT部

SMARTの法則

良いゴール設定の基準として、「SMART」という有名なフレームワークがあります。

📐 SMARTの法則とは

S – Specific(具体的)

何を、誰が、いつまでに、どうやって、を明確に。
❌「売上を上げる」 → ✅「ECサイトの売上を上げる」

M – Measurable(測定可能)

数値で測れる目標にする。
❌「たくさん売る」 → ✅「月間100件売る」

A – Achievable(達成可能)

現実的に達成できる目標にする。
❌「売上を10倍にする」 → ✅「売上を20%増やす」

R – Relevant(関連性)

ビジネス目標と一致している。
❌「とにかくPV数を増やす」 → ✅「購入につながるPV数を増やす」

T – Time-bound(期限)

いつまでに達成するかを決める。
❌「いつか達成する」 → ✅「3ヶ月以内に達成する」

💡 課題理解に時間をかける価値

「早くデータ分析を始めたい!」と焦る気持ちはわかります。でも、課題理解を疎かにすると、後で大きな手戻りが発生します。「急がば回れ」です。最初の10%の時間をしっかり使って、ゴールを明確にしましょう。

2️⃣ ステップ2:データ収集

このステップでやること

課題解決に必要なデータを集めます

「どんなデータが必要か」「どこにデータがあるか」「どうやって取得するか」を計画し、実際にデータを入手します。

✅ データ収集でやるべきこと
  • 必要なデータを洗い出す:売上データ、顧客データ、アクセスログなど、課題解決に必要なデータは何か
  • データの所在を確認する:どのシステムにあるか、誰が管理しているか
  • データへのアクセス権を取得する:必要なら申請。個人情報には注意
  • データを取得する:CSV、Excel、API、SQLなどで抽出
  • データの質を確認する:欠損、古さ、信頼性をチェック

データの種類と取得方法

データの種類 具体例 取得方法
内部データ 売上、在庫、顧客情報、アクセスログ 社内データベース、CRM、POSシステム、Google Analytics
外部データ 競合価格、市場データ、天気、人口統計 公開データ(e-Stat等)、API、Webスクレイピング、有料データ購入
アンケート 顧客満足度、購買動機、ニーズ Googleフォーム、SurveyMonkey、対面調査
実験データ A/Bテスト結果、トライアル販売 テストツール(Google Optimize等)、手動記録

データ収集でよくある落とし穴

⚠️ データ収集で起こりがちな問題

問題1:データがない

必要なデータが存在しない、または記録されていない。
対策:早めに確認し、なければ代替データを探すか、今から記録を始める。

問題2:アクセス権がない

データはあるが、見る権限がない。
対策:早めに申請。承認に時間がかかることがある。

問題3:データが古い

最新のデータが取得できず、古いデータしかない。
対策:データの鮮度を確認し、古すぎる場合は分析の限界として明記。

問題4:フォーマットがバラバラ

Excelファイルごとに列名や形式が違う。
対策:前処理で統一する。次回からはフォーマットを統一してもらうよう依頼。

問題5:データが大きすぎる

Excelで開けない(100万行超)。
対策:PythonやSQLを使うか、サンプルデータで分析。

📋 データ収集チェックリスト
  • ☑ 必要なデータがすべて揃っているか
  • ☑ データの期間は十分か(最低3ヶ月、できれば1年以上)
  • ☑ データの粒度は適切か(日次、週次、月次など)
  • ☑ データの質は問題ないか(欠損率、異常値の有無)
  • ☑ 個人情報保護のルールを守っているか
  • ☑ データの定義は明確か(「売上」の定義は?税込?税抜?)

3️⃣ ステップ3:データ前処理

このステップでやること

集めたデータを分析できる状態に整えます

「データクリーニング」とも呼ばれる、地味だけど全体の30%の時間を占める重要なステップです。料理で言えば「下ごしらえ」。これを怠ると、美味しい料理(正確な分析)はできません。

✅ データ前処理でやるべきこと
  • 欠損値の処理:空白セルをどうするか(削除?補完?)
  • 重複データの削除:同じデータが複数回入っていないか
  • データ型の統一:日付形式、数値形式などを統一
  • 異常値の検出と処理:明らかにおかしいデータを見つけて対処
  • データの統合:複数のファイルを1つにまとめる
  • 列名の統一:わかりやすい名前に変更

前処理の具体例

実際のデータがどのように「汚い」状態から「きれい」な状態になるか見てみましょう。

【前処理の実例】 ■ 元データ(問題だらけ) 日付 商品名 売上額 顧客名 2024/1/1 りんご 1000 田中 2024-1-2 リンゴ 佐藤 ← 売上額が空白、商品名の表記ゆれ 2024/1/3 りんご 2000 田中 2024/1/3 りんご 2000 田中 ← 重複データ 2024/1/4 バナナ 9999999 鈴木 ← 異常値(明らかにおかしい) ■ 問題点 1. 日付形式がバラバラ(「2024/1/1」と「2024-1-2」) 2. 商品名の表記ゆれ(「りんご」と「リンゴ」) 3. 欠損値(売上額が空白) 4. 重複データ 5. 異常値(売上額が9999999) ■ 前処理後(きれいに整った) 日付 商品名 売上額 顧客名 2024-01-01 りんご 1000 田中 2024-01-02 りんご 1500 佐藤 ← 欠損値を平均で補完 2024-01-03 りんご 2000 田中 ← 重複削除 2024-01-04 バナナ 3000 鈴木 ← 異常値を修正(または削除)

欠損値の処理方法

データに空白(欠損値)がある場合、いくつかの処理方法があります。状況に応じて最適な方法を選びましょう。

処理方法 説明 使う場面
削除 欠損がある行を丸ごと削除 データ量が十分にある場合
平均値で補完 数値データの場合、平均値で埋める 簡単に処理したい場合
中央値で補完 平均値より異常値の影響を受けにくい 外れ値がある場合
前後の値で補完 前後の値から推定して埋める 時系列データの場合
最頻値で補完 最も多く出現する値で埋める カテゴリデータ(性別など)の場合
「不明」として扱う 欠損を明示的に「不明」カテゴリにする 欠損自体に意味がある場合
💡 前処理の4つの原則

原則1:元データは必ず保存する

前処理前のデータをバックアップ。「元に戻したい」ときのため。

原則2:処理内容を記録する

何をしたか後でわかるように。他の人が再現できるように。

原則3:自動化できるものは自動化

PythonスクリプトやExcelマクロで、同じ処理を繰り返せるように。

原則4:処理後のデータを確認する

意図しない変更がないか、データの件数が減りすぎていないか確認。

4️⃣ ステップ4:データ分析

このステップでやること

整えたデータを計算・集計・可視化して、洞察を引き出します。

最も「分析らしい」ステップですが、実は全体の20%程度の時間です。前処理がしっかりできていれば、分析自体はスムーズに進みます。

✅ データ分析でやるべきこと
  • 基本統計量を計算する:平均、合計、最大、最小、標準偏差など
  • グラフを作成する:折れ線、棒、円グラフなどで可視化
  • セグメント別に分析する:年代別、地域別、商品カテゴリ別など
  • トレンドを把握する:増加傾向なのか、減少傾向なのか
  • 相関を確認する:2つの変数の関係を調べる
  • 仮説を検証する:予想通りか、意外な発見はないか

分析の基本フロー

データ分析は、以下の順番で進めると効率的です。

📊 分析の4ステップ

ステップ1:全体像を把握

まず、データ全体の傾向を見ます。
例:売上全体の推移をグラフ化、主要KPIの確認

ステップ2:詳細に分解

全体を細かく分けて、どこに問題があるか探します。
例:商品別、顧客別、地域別に分析

ステップ3:比較する

基準となるものと比較して、良い/悪いを判断します。
例:前年同期比、前月比、計画比、競合他社比較

ステップ4:パターンを探す

データの中に隠れた規則性を見つけます。
例:季節性、曜日パターン、相関関係

よく使う分析手法

📊 記述統計

平均、中央値、標準偏差など。データの特徴を数値で表します。

使う場面:「平均客単価は3,000円」「売上のばらつきは大きい」など

📈 可視化

グラフで表現。一目でわかるのが利点。

使う場面:売上推移の折れ線グラフ、商品別売上の棒グラフなど

🔍 セグメント分析

グループごとに分けて比較。違いを見つけます。

使う場面:年代別の購入率比較、地域別の売上比較など

🔗 相関分析

2つの変数の関係を調べます。関連性を発見。

使う場面:広告費と売上の関係、気温とアイス売上の関係など

⚠️ 分析の落とし穴

落とし穴1:分析のやりすぎ

いろんな分析をしすぎて、結局何が重要かわからなくなる。
対策:課題に直接関係する分析に集中する。

落とし穴2:相関と因果の混同

相関があっても、因果関係があるとは限らない。
例:アイスの売上と水難事故は相関するが、アイスが事故を起こすわけではない(両方とも「暑さ」が原因)。
対策:「相関がある」と「原因である」は区別する。

落とし穴3:サンプルサイズ不足

データが少なすぎると、結論が信頼できない。
対策:最低でも30件以上のデータが必要。重要な分析は100件以上推奨。

5️⃣ ステップ5:結果の解釈

このステップでやること

分析結果から「だから何?」(So What?)を考えます。

数字やグラフは「事実」を示しますが、それだけでは行動につながりません。「この事実が、ビジネスにとって何を意味するのか」を考えるのがこのステップです。

✅ 結果の解釈でやるべきこと
  • So What?(だから何?)を考える:この数字が意味することは何か
  • Why So?(なぜそうなる?)を考える:なぜこの結果になったのか
  • ビジネスへの影響を考える:売上、利益、顧客満足にどう影響するか
  • 複数の解釈を検討する:他の可能性はないか
  • データの限界を認識する:この分析では言えないこと、確実でないこと

So What? の実例

「事実」から「解釈」への変換例を見てみましょう。

📊 事実 → So What? → アクションの流れ

例1:

事実:先月の売上が前月比10%減少

So What?(だから何?):このままでは今月も減少する可能性が高い。原因を特定し、対策を打つ必要がある。

→ アクション:原因を調査し、対策を立てる

例2:

事実:20代顧客の購入率が他の年代より30%高い

So What?(だから何?):20代にターゲットを絞ったマーケティングを強化すれば、効率的に売上を伸ばせる。

→ アクション:20代向け広告を増やす

例3:

事実:金曜日の夕方5〜7時の売上が一番多い

So What?(だから何?):この時間帯のリソースを強化すれば、さらに売上を伸ばせる。逆に他の時間帯は効率化の余地がある。

→ アクション:金曜夕方のスタッフを増員、品揃えを強化

Why So? で深掘りする

「なぜそうなったか」を繰り返し問うことで、根本原因にたどり着けます。

【Why So? の例】 売上が10%減少した(事実)  ↓ Why So?(なぜ?) 客数が減っているから  ↓ Why So?(なぜ客数が減った?) 新規顧客が減っているから  ↓ Why So?(なぜ新規が減った?) 広告費を削減したから  ↓ Why So?(なぜ広告費を削減した?) コスト削減の指示があったから  ↓ So What?(だから何をすべき?) 広告費を戻せば、新規顧客が戻る可能性が高い もしくは、広告以外の新規獲得方法を検討する
💡 良い解釈の4つの条件
  • 具体的である:「改善が必要」ではなく「20代向け広告を2倍に増やすべき」
  • アクション可能である:実際に行動に移せる内容
  • 根拠が明確である:データのどの部分から導いたかわかる
  • ビジネスインパクトを示す:売上、利益、顧客満足への影響を明示

6️⃣ ステップ6:アクションプラン

このステップでやること

解釈をもとに具体的な行動計画を立てます。

これがないと、分析が「やっただけ」で終わってしまいます。データ分析の最終ゴールは「行動を変えること」です。

✅ アクションプランでやるべきこと
  • 具体的な施策を提案する:誰が、何を、いつまでに
  • 優先順位をつける:インパクトと実行難易度で判断
  • KPI(成功指標)を設定する:何が改善されたら成功か
  • 予算・リソースを見積もる:実行に必要なもの
  • 効果測定の方法を決める:どうやって検証するか

アクションプランのテンプレート

【アクションプランシート】 ■ 施策名  20代向けSNS広告キャンペーン ■ 背景・根拠  分析の結果、20代顧客の購入率が他年代より30%高いことが判明 ■ 具体的な内容  ・Instagram広告を月間予算50万円で実施  ・クリエイティブは20代が好むデザインに変更  ・ターゲティング:20〜29歳、都市部在住 ■ 担当者  マーケティング部 田中 ■ 期限  2週間以内に開始、3ヶ月間実施 ■ KPI(成功指標)  ・20代新規顧客:月間50人→80人(+60%)  ・CPA(顧客獲得単価):5,000円以下 ■ 必要リソース  ・予算:月間50万円  ・人員:デザイナー1名、広告運用担当1名 ■ 効果測定方法  ・Google Analyticsで年齢別の新規顧客数を追跡  ・2週間ごとにレビュー会議を実施 ■ リスクと対策  ・リスク:思ったより反応がない  ・対策:1ヶ月で効果が出なければ、クリエイティブを変更

優先順位のつけ方

複数の施策がある場合、どれから始めるべきでしょうか?「インパクト」と「実行難易度」の2軸で判断します。

実行が簡単 実行が難しい
インパクト大 🥇 最優先
すぐ実行!
🥈 中期的に実行
計画的に準備
インパクト小 🥉 余裕があれば
簡単なのでやっても良い
❌ 後回し
優先度低い
💡 アクションプランの4つの原則

原則1:SMARTであること

具体的、測定可能、達成可能、関連性、期限のあるゴール

原則2:小さく始める

いきなり大規模にやらず、テストしてから拡大

原則3:効果測定を必ず行う

やりっぱなしにしない。結果を測定して次に活かす

原則4:PDCAサイクルを回す

Plan(計画)→ Do(実行)→ Check(測定)→ Act(改善)を繰り返す

🤝 3. ステークホルダーとのコミュニケーション

ステークホルダーとは?

ステークホルダーとは、プロジェクトに関わる人・影響を受ける人のことです。

データ分析は一人では完結しません。様々な人と協力し、コミュニケーションを取りながら進める必要があります。

👔 依頼者(スポンサー)

分析を依頼した人。経営層、部門長など。

役割:最終的な意思決定者。予算を承認する人。

💾 データ提供者

データを持っている人。IT部門、営業部門など。

役割:データを提供してもらう。協力が不可欠。

🏃 実行者

アクションプランを実行する人。現場スタッフなど。

役割:施策を実行してもらう。納得感が大切。

👥 チームメンバー

一緒にプロジェクトを進める人。

役割:協力して作業。役割分担が重要。

コミュニケーションの3つのタイミング

✅ 効果的なコミュニケーション術

1. 初期段階:期待値を合わせる

  • 何ができて、何ができないかを明確に伝える
  • スケジュールと必要なリソースを事前に共有
  • 「魔法のような分析」を期待されないよう注意

2. プロジェクト中:こまめに報告

  • 週1回など、定期的に進捗を共有
  • 問題があれば早めに相談(悪いニュースほど早く)
  • 「中間報告」で方向性を確認

3. 最終報告:わかりやすく伝える

  • 結論を先に伝える(エグゼクティブサマリー)
  • グラフや図を使って視覚的に
  • 専門用語を避ける、または説明する
  • アクションプランを必ず提示

相手に合わせた説明の仕方

相手 説明のポイント
経営層 結論とビジネスインパクトを1分で説明。詳細は求められたら。「売上が10%増える見込み」など数値で示す
現場担当者 「なぜそうなるか」の根拠を丁寧に説明。実行する側なので納得感が大切
技術者 分析手法や技術的な詳細も含めて説明。データの質、サンプルサイズなども気にする
非専門家 専門用語を使わず、例え話で説明。「つまり、こういうことです」と要約
⚠️ コミュニケーションのNG例
  • 専門用語の乱用:「p値が0.05未満で有意差が…」→ 相手が理解できない
  • 結論を言わない:分析結果だけ見せて、「どうすべきか」を言わない
  • 一方的に話す:相手の反応を見ず、延々と説明
  • 問題点だけ指摘:批判だけして、解決策を提案しない
  • 報告が遅い:期限ギリギリまで何も言わず、間に合わない

📝 STEP 3 のまとめ

✅ このステップで学んだこと

1. データ分析プロジェクトの6つのステップ

  1. 課題理解:何を解決したいのか明確にする
  2. データ収集:必要なデータを集める
  3. データ前処理:データをきれいに整える(全体の30%)
  4. データ分析:計算・可視化して洞察を得る
  5. 結果の解釈:「So What?」を考える
  6. アクションプラン:具体的な行動計画を立てる

2. 各ステップのポイント

  • 必ず1→6の順番で進める(飛ばさない)
  • 前処理に十分な時間をかける
  • 分析で終わらず、必ずアクションプランまで作る

3. ステークホルダーコミュニケーション

  • 初期に期待値を合わせる
  • 途中でこまめに報告する
  • 相手に合わせた説明をする
💡 最も大切なポイント

データ分析プロジェクトの成功は、「技術力」よりも「プロジェクト管理力」で決まります。

いくら高度な分析ができても、期限に間に合わない、結論が出ない、行動につながらないでは意味がありません。

6つのステップを順番通りに、着実に進めることが成功の鍵です。

🎯 次のステップの予告

次のSTEP 4では、「ビジネス課題の発見と定義」を学びます。正しい課題を見つけ、構造化する方法(MECE、ロジックツリー、SMART)を習得しましょう!

📝 理解度チェック

学んだ内容を確認しましょう。解答を見る前に、まず自分で考えてみてください。

問題 1 基礎

データ分析プロジェクトの6つのステップを順番に答えてください。

【解答】
  1. 課題理解:何を解決したいのか明確にする
  2. データ収集:必要なデータを集める
  3. データ前処理:データをきれいに整える
  4. データ分析:データを計算・可視化して洞察を得る
  5. 結果の解釈:分析結果から「だから何?」を考える
  6. アクションプラン:具体的な行動計画を立てて実行

覚え方のコツ:「課題 → 収集 → 前処理 → 分析 → 解釈 → アクション」。最初の「課題」と最後の「アクション」を特に意識。目的なしに始めない、分析で終わらせない。

問題 2 基礎

データ前処理が全体の何%の時間を占めると言われていますか?また、なぜそれほど時間がかかるのですか?

【解答】

時間配分:約30%(全体の約3分の1)

時間がかかる理由:

  • 欠損値の処理:空白セルをどう埋めるか検討・実行
  • 重複データの削除:同じデータがないか確認・削除
  • データ型の統一:日付形式、数値形式などがバラバラ
  • 異常値の検出と処理:明らかにおかしいデータを見つけて対処
  • 複数ファイルの統合:形式が違うデータを1つにまとめる

補足:「Garbage In, Garbage Out(ゴミを入れればゴミが出る)」という格言があるように、前処理を怠ると分析結果が間違ってしまいます。地味だけど超重要!

問題 3 応用

「売上を増やしたい」という課題は、なぜ良い課題定義ではないのですか?また、SMARTの法則に沿って改善してください。

【解答】

なぜ良くないか:

  • 曖昧すぎる(いつまでに、どれくらい増やすのか不明)
  • 測定可能でない(具体的な数値目標がない)
  • アクションにつながらない(どうやって増やすかわからない)

SMARTに沿った改善例:

3ヶ月以内(T)に、新規顧客を20%増やす(M)ことで、月間売上を500万円から600万円に増やす(S, M)。これは事業計画の売上目標達成(R)に貢献し、現状のリソースで達成可能(A)」

  • Specific:新規顧客を増やすことで売上増
  • Measurable:20%増、売上600万円
  • Achievable:現実的な目標
  • Relevant:事業計画と一致
  • Time-bound:3ヶ月以内
問題 4 応用

データに欠損値(空白セル)がある場合の処理方法を3つ挙げ、それぞれどんな場面で使うか説明してください。

【解答例】
  1. 削除
    欠損がある行を丸ごと削除する。
    使う場面:データ量が十分にある場合。削除しても残りのデータで分析できる場合。
  2. 平均値で補完
    数値データの場合、その列の平均値で埋める。
    使う場面:データの分布が正規分布に近く、外れ値が少ない場合。
  3. 中央値で補完
    平均値より異常値の影響を受けにくい中央値で埋める。
    使う場面:外れ値(異常に大きい/小さい値)がある場合。
  4. 最頻値で補完
    最も多く出現する値で埋める。
    使う場面:カテゴリデータ(性別、地域など)の場合。
  5. 前後の値で補完
    時系列データで、前後の値から推定して埋める。
    使う場面:日次データなど、時間の流れがあるデータ。

※3つ以上挙げていますが、いずれか3つで正解です。

問題 5 発展

あなたがカフェの店長だとします。「最近売上が下がっている」という課題を、6つのステップでどう進めるか、具体的に考えてください。

【解答例】

1️⃣ 課題理解

  • 課題:過去3ヶ月で売上が15%減少。原因を特定し、1ヶ月以内に改善策を実行したい
  • ゴール(SMART):2週間で原因を特定し、翌月の売上を前月比10%回復させる
  • 成功の定義:原因が特定でき、効果的な改善策を1つ以上実行できる

2️⃣ データ収集

  • レジの売上データ(日付、時間、商品、金額)を過去1年分収集
  • 顧客数データ(時間帯別)
  • 天気データ(外部データ)
  • 近隣の競合情報(口コミ、価格など)

3️⃣ データ前処理

  • Excelにまとめて、日付形式を統一(YYYY-MM-DD)
  • 曜日・時間帯の列を追加
  • 重複データを削除
  • 欠損値を確認(あれば処理)

4️⃣ データ分析

  • 月別売上推移グラフを作成 → どこから減り始めたか
  • 曜日別・時間帯別の売上分析 → いつ減っているか
  • 商品別売上ランキング → 何が売れなくなったか
  • 発見:平日の午後2〜5時の売上が40%減少している

5️⃣ 結果の解釈

  • So What?:平日午後の客数が減っている
  • Why So?:3ヶ月前に近くに競合カフェがオープンした → 平日午後の客を奪われている可能性
  • ビジネスインパクト:このままでは年間売上が100万円以上減少する見込み

6️⃣ アクションプラン

  • 施策:「平日午後限定のお得なセット(ケーキ+ドリンク500円)」を来週から開始
  • 担当者:店長(自分)
  • KPI:午後の客数を1日20人→30人に増やす
  • 効果測定:毎日の客数を記録し、1週間ごとに効果を確認。2週間効果がなければ別の施策を検討

❓ よくある質問

Q1: プロジェクトの期限はどう決めればいいですか?

依頼者と相談して、現実的な期限を設定しましょう。

目安として:

  • 簡単な分析(既存データの集計):1週間
  • 中規模の分析(複数データの統合、基本的な予測):2〜4週間
  • 大規模な分析(新しいデータ収集、高度な予測モデル):1〜3ヶ月

ただし、データの入手に時間がかかる場合は、それを考慮して期限を延ばしましょう。「急ぎの依頼」でも、最低1週間は確保することを推奨します。

Q2: データ前処理に時間がかかりすぎて、分析が進みません…

それは正常です。前処理は全体の30%を占めます。

時間を短縮する対策:

  • 自動化する:Pythonのpandasライブラリを使えば、繰り返し作業を自動化できる
  • スクリプト化する:よく使う前処理は、スクリプトとして保存して再利用
  • 完璧を求めない:80%できたら次に進む。完璧なデータは存在しない
  • データ提供者に協力を求める:次回から「きれいなデータ」で提供してもらうよう依頼

前処理スキルは、経験を積むほど速くなります。最初は時間がかかっても大丈夫です。

Q3: 分析結果が「意外な発見」ではなく、「当たり前のこと」だった場合、どうすればいいですか?

「当たり前」でも価値があります。

「思っていた通りだ」という結果でも、データで裏付けられたことに意味があります。

例えば:

  • 「やっぱり20代に人気だった」→ データで証明できたので、自信を持って20代向け施策を実行できる
  • 「思ったほど効果がなかった」→ 無駄な投資を避けられた

「当たり前」を数値で示すことで、社内の合意形成がしやすくなります。また、「意外な発見」を求めすぎると、偶然の結果を過大評価してしまう危険もあります。

Q4: ステークホルダーが多すぎて、全員の要望に応えられません…

優先順位をつけましょう。

全員の要望を100%満たすことは不可能です。以下の基準で優先順位を決めます:

  1. 意思決定者(スポンサー)の要望を最優先
  2. プロジェクトのゴールに直結する要望を優先
  3. それ以外は「できれば対応」または「次回対応」

また、プロジェクトの最初に「スコープ(範囲)」を明確にして、「これはやる、これはやらない」を合意しておくことが大切です。「あれもこれも」と欲張ると、何も完成しません。

Q5: プロジェクトの途中で、新しいデータが見つかりました。最初からやり直すべきですか?

状況によります。判断基準は「インパクト」と「残り時間」です。

判断フロー:

  1. 新しいデータで、結論が大きく変わる可能性がある → やり直しを検討
  2. 結論が変わらない、または微修正で済む → 現在の分析を続ける
  3. 期限が迫っている → 今回は既存データで進めて、次回改善

依頼者に相談して、「新しいデータを使うと、こういうメリットがあるが、〇日遅れる」と説明し、判断を仰ぎましょう。データ分析は「完璧」を目指すのではなく、「期限内にベストを尽くす」ことが大切です。

Q6: 一人でプロジェクトを進める場合、どうすればいいですか?

一人でも6つのステップは同じです。

一人で進める場合のポイント:

  • 自分自身で課題理解シートを作成:ゴールと期限を明確にする
  • タスクを細分化:「今日は前処理」「明日は分析」など、日ごとの目標を設定
  • 定期的に振り返り:週1回、進捗を確認。遅れていたらスケジュール調整
  • 誰かに報告する機会を作る:上司や同僚に進捗を報告することで、モチベーション維持と品質向上

一人だからこそ、「なんとなく」進めてしまいがち。意識的にプロジェクト管理をしましょう。

📝

学習メモ

ビジネスデータ分析・意思決定 - Step 3

📋 過去のメモ一覧
#artnasekai #学習メモ
LINE