Step 47:データクレンジング総合演習

🧹 Step 47: データクレンジング総合演習

汚いデータを綺麗にして、分析できる状態にしよう!

📋 このステップで学ぶこと

  • データクレンジングとは何か
  • 重複データの検出と削除
  • 欠損値(空白)の処理方法
  • 外れ値の検出と対処
  • データ型の統一
  • 表記ゆれの修正
  • 実践的なクレンジング手順

📝 1. データクレンジングとは?

データクレンジングは、汚いデータを綺麗にする作業です。データ分析の準備として最も重要な工程です。

📋 データクレンジングが必要な理由(※横スクロールできます)

【データクレンジングが必要な理由】 ■ 現実のデータは汚い ・手入力によるミス ・システム連携のエラー ・フォーマットの不統一 ・重複データの存在 ・欠損値(空白) ・外れ値(異常値) ■ 汚いデータのまま分析すると… ❌ 計算結果が間違う ❌ グラフが正しく表示されない ❌ 集計値がおかしくなる ❌ 意思決定を誤る ■ データクレンジングの目的 ✓ 正確な分析ができる ✓ 信頼できる結果が得られる ✓ 効率的に処理できる ✓ 他の人も使いやすい データクレンジングに全体の70%の時間を使う! ↓ これが一番重要な作業
🔑 データクレンジングの基本原則

1. 元データは残す
→ 必ず別シートやファイルにコピーして作業

2. 記録を残す
→ どんな処理をしたか記録する

3. 段階的に進める
→ 一度にすべて処理せず、1つずつ確認

4. 検証する
→ 処理後のデータが正しいか必ず確認

5. 自動化を考える
→ 同じ作業を繰り返すなら関数や機能を活用

🗂️ 汚いデータの例

❌ クレンジング前(問題だらけ)
顧客名 電話番号 売上
株式会社ABC 03-1234-5678 ¥1,000,000
株式会社ABC 0312345678 1500000
(株)ABC 2,000,000円
株式会社XYZ 090-9999-9999 999999999
問題点:
✗ 同じ会社なのに表記が違う(重複)
✗ 余分なスペースがある
✗ 電話番号の形式がバラバラ
✗ 空白セルがある(欠損値)
✗ 売上の表記が統一されていない
✗ 明らかに異常な値(外れ値)
✅ クレンジング後(綺麗)
顧客名 電話番号 売上
株式会社ABC 03-1234-5678 1,000,000
株式会社ABC 03-1234-5678 1,500,000
株式会社XYZ 090-9999-9999 (削除)
改善点:
✓ 会社名が統一された
✓ 余分なスペースが削除された
✓ 電話番号の形式が統一された
✓ 欠損値は元データから確認・補完
✓ 売上は数値型で統一
✓ 明らかに異常な値は削除

🔍 2. 重複データの検出と削除

重複データは、同じデータが2回以上入力されている状態です。集計やカウントを狂わせる原因になります。

📋 重複データの検出方法(※横スクロールできます)

【重複データの検出方法】 ■ 方法1: 重複の強調表示(条件付き書式) 1. データ範囲を選択 2. [ホーム] → [条件付き書式] 3. [セルの強調表示ルール] → [重複する値] 4. 書式を選択(例: 薄い赤の塗りつぶし) メリット: 削除せずに確認できる 用途: まず重複を見つけたい時 ■ 方法2: 重複の削除機能 1. データ範囲を選択 2. [データ] タブ → [重複の削除] 3. 重複を判定する列を選択 4. [OK] 注意: 元に戻せないので、事前にバックアップ! ■ 方法3: 関数で重複チェック(COUNTIF) 数式: =COUNTIF($A$2:A2, A2)>1 説明: ・自分より上のセルまでを検索 ・2回目以降の出現でTRUEになる 用途: 重複を見つけて別処理したい時

📊 重複データの削除手順(※横スクロールできます)

【重複データの削除手順】 ■ 実践例: 顧客リストの重複削除 元データ: 顧客名 メール 田中太郎 tanaka@example.com 佐藤花子 sato@example.com 田中太郎 tanaka@example.com 鈴木一郎 suzuki@example.com 手順: 1. データ全体を選択(A1:B5) 2. [データ] → [重複の削除] 3. 列の選択: ☑ 顧客名 ☑ メール 4. [OK] 結果: 顧客名 メール 田中太郎 tanaka@example.com 佐藤花子 sato@example.com 鈴木一郎 suzuki@example.com 3行目の重複が削除された! メッセージ: 「1個の重複する値が見つかり削除されました。 3個の一意の値が残りました。」

⚠️ 重複判定の注意点(※横スクロールできます)

【重複判定の注意点】 ■ ケース1: 完全一致のみ重複とする 顧客名だけで判定: 「田中太郎」= 「田中太郎」 → 重複 ✓ ■ ケース2: 大文字小文字の違い Excelは大文字小文字を区別しない: 「ABC」= 「abc」 → 重複 ✓ ■ ケース3: 前後のスペース 「田中太郎」≠ 「 田中太郎 」→ 重複ではない ✗ 先にTRIM関数でスペース削除が必要! ■ ケース4: 全角半角の違い 「ABC」≠ 「ABC」→ 重複ではない ✗ ASC/JIS関数で統一が必要! ■ ケース5: 複数列の組み合わせ 姓名が同じで住所も同じ → 重複 ✓ 姓名が同じで住所が違う → 別人 ✗ 重複削除の前に、データの表記を統一する!
⚠️ 重複削除の注意事項

必ずバックアップ: 元データを別シートにコピー
削除基準を明確に: どの列で重複を判定するか
最初の行が残る: 2回目以降が削除される
データの確認: 削除後、件数が正しいか確認
本当に重複か?: 同姓同名など、別人の可能性も考慮

📊 3. 欠損値(空白)の処理方法

欠損値は、データが入っていない空白セルのことです。計算やグラフ作成に影響します。

📋 欠損値の検出方法(※横スクロールできます)

【欠損値の検出方法】 ■ 方法1: 空白セルの選択 1. データ範囲を選択 2. [ホーム] → [検索と選択] 3. [条件を選択してジャンプ] 4. [空白セル] を選択 5. [OK] 結果: すべての空白セルが選択される →色を付けると分かりやすい ■ 方法2: フィルターで空白を表示 1. データ範囲を選択 2. [データ] → [フィルター] 3. 列のフィルターをクリック 4. [(空白セル)] にチェック 結果: 空白セルのある行だけが表示 ■ 方法3: 関数で欠損値をチェック 数式: =ISBLANK(A1) または: =A1=”” 結果: 空白ならTRUE、データがあればFALSE カウント: =COUNTBLANK(A1:A100) 結果: 空白セルの個数

📊 欠損値の処理方法(※横スクロールできます)

【欠損値の処理方法】 ■ パターン1: 削除する いつ使う: 欠損値が多すぎて補完できない場合 手順: 1. フィルターで空白行を表示 2. 該当行を選択 3. 右クリック → [削除] 注意: 他の列に重要なデータがないか確認! ■ パターン2: 前の値で埋める(前方補完) いつ使う: 項目名などが繰り返される場合 例: カテゴリ 商品 食品 りんご バナナ ← 「食品」で埋める みかん ← 「食品」で埋める 飲料 水 お茶 ← 「飲料」で埋める 手順: 1. 空白セルに数式: =IF(A2=””,A1,A2) 2. 下にコピー 3. 値のみ貼り付けで確定 ■ パターン3: 平均値や中央値で埋める いつ使う: 数値データで欠損が少ない場合 例: 月 売上 1月 100万 2月 (空白) ← 平均値で埋める 3月 120万 数式: =AVERAGE(B:B) または =MEDIAN(B:B) ■ パターン4: 「不明」「未入力」などの文字で埋める いつ使う: 空白と入力忘れを区別したい場合 手順: 1. 空白セルを選択 2. 「不明」と入力 3. Ctrl+Enter で一括入力 ■ パターン5: 手動で調査・入力 いつ使う: 重要なデータで、正確な値が必要な場合 手順: 1. 元データを確認 2. 関係者に問い合わせ 3. 正しい値を入力
💡 欠損値処理の判断基準

欠損率が高い(30%以上):
→ その列全体を削除するか、データ収集をやり直す

欠損率が低い(10%以下):
→ 平均値や前方補完で埋める、または行を削除

重要なデータ:
→ 推測で埋めず、元データを確認・調査

重要でないデータ:
→ 「不明」「N/A」などで埋めるか、削除

原則: 適当に埋めるより、空白のままか削除の方が安全!

⚠️ 4. 外れ値の検出と対処

外れ値は、他のデータと大きく異なる値のことです。入力ミスや異常値の可能性があります。

📋 外れ値の検出方法(※横スクロールできます)

【外れ値の検出方法】 ■ 方法1: 並べ替えで確認 1. データを昇順/降順に並べ替え 2. 最小値と最大値を確認 3. 明らかにおかしい値を見つける 例: 売上データを降順にソート 9,999,999,999円 ← 明らかに異常! 1,500,000円 1,200,000円 ■ 方法2: 条件付き書式で強調 上位10%または下位10%を色付け: 1. [ホーム] → [条件付き書式] 2. [上位/下位ルール] → [上位10項目] 3. 色を選択 ■ 方法3: 統計的手法(四分位範囲) 外れ値の定義: Q1 – 1.5×IQR より小さい または Q3 + 1.5×IQR より大きい 用語: Q1: 第1四分位数(25パーセンタイル) Q3: 第3四分位数(75パーセンタイル) IQR: 四分位範囲(Q3 – Q1) 数式例: =QUARTILE.INC(A:A,1) – 1.5*(QUARTILE.INC(A:A,3)-QUARTILE.INC(A:A,1)) ■ 方法4: 標準偏差を使う 平均値 ± 3σ(標準偏差)の範囲外を外れ値とする 数式例: 外れ値判定: =ABS(A2-AVERAGE($A:$A))>3*STDEV($A:$A)

📊 外れ値の対処方法(※横スクロールできます)

【外れ値の対処方法】 ■ パターン1: 入力ミスなら修正 例: 売上: 10000000000円 → 1000000円(桁を間違えた) 手順: 1. 元データを確認 2. 正しい値に修正 ■ パターン2: 削除する いつ使う: 明らかに異常で、修正不可能な場合 例: 年齢: 999歳 → 削除 (入力ミスで、正しい値が不明) ■ パターン3: 上限/下限で置き換え いつ使う: 極端な値を抑えたい場合 例: 売上の上限を500万円にする: =MIN(A2, 5000000) ■ パターン4: そのまま残す いつ使う: 本当に特殊なケースの場合 例: 大口顧客の売上: 5000万円 → 外れ値だが、実際の値なので残す 記録: 「A社は大口顧客のため高額」 ■ パターン5: 別途分析 いつ使う: 外れ値が重要な意味を持つ場合 例: 不良品率が突然上昇 → 製造工程の問題の可能性 → 削除せず、原因を調査
🎯 外れ値処理の判断フローチャート

Step 1: 外れ値を検出

Step 2: 入力ミスか確認
→ YES: 正しい値に修正
→ NO: Step 3へ

Step 3: 実際に起こりうる値か?
→ YES: そのまま残す(理由を記録)
→ NO: Step 4へ

Step 4: 修正可能か?
→ YES: 元データを確認して修正
→ NO: 削除(削除した理由を記録)

🔤 5. データ型の統一

データ型の統一は、同じ列のデータを同じ形式にすることです。計算やソートが正しく動作するために必要です。

📋 よくあるデータ型の問題(※横スクロールできます)

【よくあるデータ型の問題】 ■ 問題1: 数値が文字列になっている 見た目: 売上 100000 ← 実は文字列 150000 ← 実は文字列 判別方法: ・左寄せになっている(数値は右寄せ) ・セルの左上に緑の三角マーク ・SUM関数で合計できない 原因: ・CSVから取り込んだデータ ・先頭に「’」がついている ・全角数字が混じっている ■ 問題2: 日付が文字列になっている 見た目: 日付 2025/11/15 ← 実は文字列 判別方法: ・日付として認識されない ・並べ替えが正しくできない ■ 問題3: 全角半角の混在 見た目: 電話番号 03-1234-5678 ← 半角 03-1234-5678 ← 全角 問題: ・検索で見つからない ・重複として認識されない

📊 データ型統一の方法(※横スクロールできます)

【データ型統一の方法】 ■ 文字列を数値に変換 方法1: エラーマークから変換 1. セル左上の緑の三角をクリック 2. [数値に変換する] を選択 方法2: 数式で変換 =VALUE(A1) または =A1*1 方法3: 「区切り位置」機能 1. 列を選択 2. [データ] → [区切り位置] 3. [完了] をクリック → 文字列が数値に変換される ■ 文字列を日付に変換 =DATEVALUE(A1) または 1. 列を選択 2. [データ] → [区切り位置] 3. [完了] ■ 全角を半角に変換 =ASC(A1) ■ 半角を全角に変換 =JIS(A1) ■ 表示形式の統一 1. 列を選択 2. [ホーム] → [表示形式] 3. 適切な形式を選択: – 数値 – 通貨 – 日付 – パーセンテージ
🔑 データ型統一のチェックリスト

数値列: すべて数値型か?(文字列が混じっていないか)
日付列: 日付型として認識されているか?
全角半角: 統一されているか?
表示形式: 通貨、%など適切に設定されているか?
計算確認: SUM、AVERAGEなどが正しく動作するか?
並べ替え確認: 正しい順序でソートされるか?

✏️ 6. 表記ゆれの修正

表記ゆれは、同じ意味なのに表記が異なるデータのことです。集計やグループ化の際に問題になります。

📋 表記ゆれの例(※横スクロールできます)

【表記ゆれの例】 ■ 会社名 株式会社ABC (株)ABC ABC株式会社 ABC ㈱ABC → すべて同じ会社なのに、集計すると5社になる! ■ 商品名 アイフォン iPhone iphone I-phone → すべて同じ商品なのに、別商品として扱われる! ■ 住所 東京都千代田区 千代田区 東京都 千代田区 東京 千代田区 ■ 単位 円 ¥ ¥ YEN

📊 表記ゆれの修正方法(※横スクロールできます)

【表記ゆれの修正方法】 ■ 方法1: 検索と置換 1. [ホーム] → [検索と選択] → [置換] 2. 検索する文字列: (株) 3. 置換後の文字列: 株式会社 4. [すべて置換] 応用: 複数パターンを一度に置換 (株) → 株式会社 ㈱ → 株式会社 ■ 方法2: SUBSTITUTE関数 =SUBSTITUTE(A1,”(株)”,”株式会社”) 複数置換: =SUBSTITUTE(SUBSTITUTE(A1,”(株)”,”株式会社”),”㈱”,”株式会社”) ■ 方法3: マスタテーブルを使う 準備: 元の表記 正しい表記 iPhone iPhone アイフォン iPhone iphone iPhone I-phone iPhone 数式: =VLOOKUP(A1,マスタ範囲,2,FALSE) メリット: 一元管理できる ■ 方法4: 手動で確認・修正 重要データの場合: 1. ユニークな値を抽出(UNIQUE関数またはピボット) 2. 1つずつ確認 3. 正しい表記に統一
💡 表記ゆれを防ぐ工夫

1. 入力規則を設定
リストから選択式にする → 表記ゆれが起きない

2. マスタデータを用意
正式名称のリストを作り、VLOOKUPで参照

3. 入力ルールを決める
「株式会社は正式名称で、(株)は使わない」など

4. 定期的にチェック
ピボットテーブルでユニーク値を確認

予防が一番大事!入力時点で正しく入れる仕組みを作る

🔧 7. 実践的なクレンジング手順

実際の業務では、以下の標準的な手順でデータクレンジングを進めます。

📋 データクレンジングの標準手順(※横スクロールできます)

【データクレンジングの標準手順】 ステップ1: データの全体確認(10分) □ データの行数・列数を確認 □ 各列のデータ型を確認 □ 明らかな異常値がないか確認 □ サンプルとして最初と最後の数行を確認 ステップ2: バックアップ(1分) □ 元データを別シートにコピー □ シート名: 「元データ」「作業用」など ステップ3: 基本的なクレンジング(30分) □ 余分なスペースの削除(TRIM関数) □ 全角半角の統一(ASC/JIS関数) □ 大文字小文字の統一(UPPER/LOWER/PROPER関数) □ 改行コードの削除 ステップ4: 重複チェック(15分) □ 重複の検出(条件付き書式) □ 重複の確認(本当に重複か?) □ 重複の削除(必要に応じて) ステップ5: 欠損値の処理(20分) □ 空白セルの検出 □ 欠損値の処理方針決定 ・削除/補完/「不明」記入 □ 処理の実行と記録 ステップ6: データ型の統一(15分) □ 数値型への変換 □ 日付型への変換 □ 表示形式の統一 ステップ7: 外れ値のチェック(20分) □ 並べ替えで確認 □ 統計量で確認(最大、最小、平均) □ 外れ値の処理 ステップ8: 表記ゆれの修正(30分) □ ユニーク値の抽出 □ 表記ゆれの発見 □ 検索置換またはSUBSTITUTE関数で修正 ステップ9: 最終確認(15分) □ サマリー統計を確認 □ ピボットテーブルで集計確認 □ サンプルデータで目視確認 □ データ件数の確認(減っていないか?) ステップ10: ドキュメント化(10分) □ 何をしたかを記録 □ 削除したデータの記録 □ 補完・修正したデータの記録 合計: 約2.5~3時間(データ量による)

📊 実践例: 顧客データのクレンジング(※横スクロールできます)

【実践例: 顧客データのクレンジング】 元データ(1000行): 問題だらけのデータ クレンジング実施: 【ステップ1: 確認】 ・1000行、10列 ・顧客名、住所、電話、メール、購入額など ・明らかな異常値: 購入額に9999999999円 【ステップ2: バックアップ】 ・シート「元データ」にコピー ・作業はシート「クレンジング中」で実施 【ステップ3: 基本クレンジング】 ・補助列で =TRIM(A2) を実行 ・全角数字を半角に =ASC(E2) ・メールアドレスを小文字に =LOWER(D2) 【ステップ4: 重複チェック】 ・顧客名+メールで重複検出 ・50件の重複を発見 ・確認後、重複を削除 → 950行 【ステップ5: 欠損値処理】 ・電話番号の空白: 50件 → 「未登録」と記入 ・住所の空白: 5件 → 顧客台帳から確認して入力 【ステップ6: データ型統一】 ・購入額を数値型に変換 ・購入日を日付型に変換 ・電話番号を文字列型に統一 【ステップ7: 外れ値チェック】 ・購入額の最大値: 9999999999円 → 異常 → 元データ確認: 999,999円の入力ミス → 修正 【ステップ8: 表記ゆれ修正】 ・都道府県名: 「東京都」「東京」「Tokyo」→「東京都」に統一 ・会社名: 「(株)」「㈱」→「株式会社」に統一 【ステップ9: 最終確認】 ・データ件数: 950行(重複50件を削除) ・購入額の合計: 正常値 ・ピボットテーブルで都道府県別集計 → OK 【ステップ10: ドキュメント化】 記録: – 重複50件削除 – 電話番号の空白50件は「未登録」 – 住所の空白5件は台帳から補完 – 購入額の外れ値1件を修正 – 表記ゆれを統一(都道府県、会社名) 完了!

📝 練習問題

練習 1
初級

余分なスペースを削除してください

データ: 顧客名 ” 田中太郎 ” (前後にスペース) “佐藤 花子” (間に2つスペース) “鈴木一郎” 要件: TRIM関数を使ってすべてのスペースを適切に削除

手順:

1. 補助列(B列)を作成 2. B2に数式: =TRIM(A2) 3. B2をB4までコピー 結果: B2: “田中太郎” (前後のスペース削除) B3: “佐藤 花子” (間のスペースは1つに) B4: “鈴木一郎” (変更なし) 4. B列をコピー 5. A列を選択 6. [ホーム] → [貼り付け] → [値のみ貼り付け] 7. B列を削除

TRIM関数のポイント:

TRIM関数は以下を実行します:
✓ 先頭のスペースを削除
✓ 末尾のスペースを削除
✓ 単語間の連続スペースを1つに削減

データクレンジングの最初の一手として必ず実行しましょう!

練習 2
中級

重複データを見つけて削除してください

データ: 顧客名 メール 田中太郎 tanaka@example.com 佐藤花子 sato@example.com 田中太郎 tanaka@example.com 鈴木一郎 suzuki@example.com 佐藤花子 sato@example.com 要件: 1. 重複を色で強調 2. 重複を削除(最初のデータを残す)

手順:

【重複の強調】 1. データ範囲(A2:B6)を選択 2. [ホーム] → [条件付き書式] 3. [セルの強調表示ルール] → [重複する値] 4. 書式: 薄い赤の塗りつぶし 5. [OK] 結果: 田中太郎の2行が赤く 佐藤花子の2行が赤く表示される 【重複の削除】 6. データ範囲(A1:B6 ヘッダー含む)を選択 7. [データ] → [重複の削除] 8. 列の選択: ☑ 顧客名 ☑ メール 9. [OK] メッセージ: 「2個の重複する値が見つかり削除されました。 3個の一意の値が残りました。」 最終結果: 顧客名 メール 田中太郎 tanaka@example.com 佐藤花子 sato@example.com 鈴木一郎 suzuki@example.com 3行のみ残る(重複2件削除)

注意点:

重複削除は元に戻せません!必ず以下を確認:
✓ バックアップを取った
✓ 本当に重複か確認した(同姓同名の別人ではないか)
✓ 最初のデータを残すルールで問題ないか

練習 3
中級

表記ゆれを修正してください

データ: 会社名 株式会社ABC (株)ABC ㈱ABC ABC株式会社 要件: すべて「株式会社ABC」に統一してください

手順:

【方法1: 検索と置換】 1. Ctrl+H で「検索と置換」を開く 2. 検索: (株)ABC → 置換: 株式会社ABC → すべて置換 3. 検索: ㈱ABC → 置換: 株式会社ABC → すべて置換 4. 検索: ABC株式会社 → 置換: 株式会社ABC → すべて置換 【方法2: SUBSTITUTE関数】 補助列に以下の数式を入力: =SUBSTITUTE( SUBSTITUTE( SUBSTITUTE( SUBSTITUTE(A2,”(株)ABC”,”株式会社ABC”), “㈱ABC”,”株式会社ABC”), “ABC株式会社”,”株式会社ABC”), “(株)ABC”,”株式会社ABC”) 結果: すべて「株式会社ABC」に統一される

ポイント:

SUBSTITUTEをネストすると、複数パターンを一度に置換できます。
ただし、複雑になりすぎる場合は「検索と置換」を複数回実行する方がわかりやすいこともあります。

練習 4
上級

総合クレンジング:複数の問題を一度に解決してください

データ: 商品名 売上 在庫 ” iPhone ” “1000000” 50 アイフォン 1500000 I-Phone “2000000” 999999 iPhone 1200000 30 問題: 1. 商品名に余分なスペース 2. 商品名の表記ゆれ 3. 売上が文字列と数値が混在 4. 在庫に明らかな外れ値 5. 在庫の欠損値 要件: すべての問題を修正して、綺麗なデータにしてください

総合クレンジング手順:

【準備】 1. 元データを別シートにコピー 2. 作業用シートで以下を実施 【ステップ1: 商品名のクレンジング】 補助列(D列)に数式: =SUBSTITUTE( SUBSTITUTE( SUBSTITUTE(TRIM(A2),”アイフォン”,”iPhone”), “I-Phone”,”iPhone”), ” “,””) 結果: D2: iPhone D3: iPhone D4: iPhone D5: iPhone 【ステップ2: 売上の数値化】 補助列(E列)に数式: =VALUE(B2) または、B列全体を選択して: [データ] → [区切り位置] → [完了] 結果: E2: 1000000 (数値) E3: 1500000 (数値) E4: 2000000 (数値) E5: 1200000 (数値) 【ステップ3: 在庫の外れ値処理】 補助列(F列)に数式: =IF(C2>10000,”エラー”,C2) 結果: F2: 50 F3: (空白) → 手動で「0」または平均値 F4: エラー → 元データ確認後修正 F5: 30 【ステップ4: データの確定】 1. D列をコピー → A列に値貼り付け 2. E列をコピー → B列に値貼り付け 3. F列の値を確認・修正後 → C列に値貼り付け 4. 補助列(D, E, F)を削除 【最終結果】 商品名 売上 在庫 iPhone 1,000,000 50 iPhone 1,500,000 0 (補完) iPhone 2,000,000 50 (修正後) iPhone 1,200,000 30 【検証】 ✓ 商品名: すべて「iPhone」に統一 ✓ 売上: すべて数値型 ✓ 在庫: 外れ値を修正、欠損値を補完 ✓ データ型: 適切に設定 ✓ SUM(B:B) が正しく計算できる

クレンジングのポイント:

■ 複雑な処理は補助列で段階的に
→ 一度にすべて処理せず、確認しながら

■ 処理後は必ず検証
→ サンプルで目視確認
→ SUM, AVERAGEなどで計算確認
→ ピボットテーブルで集計確認

■ 記録を残す
→ 何をどう修正したか記録する

📝 Step 47 のまとめ

✅ このステップで学んだこと
  • データクレンジングの重要性: 分析の70%を占める重要工程
  • 重複データ処理: 検出、確認、削除の手順
  • 欠損値処理: 削除、補完、記録の方法
  • 外れ値検出: 統計的手法と対処方法
  • データ型統一: 文字列→数値、全角→半角など
  • 表記ゆれ修正: SUBSTITUTE、検索置換の活用
  • 実践的な手順: 10ステップの標準プロセス
🎯 実務での重要ポイント

1. 元データは必ず残す
→ バックアップなしにクレンジングしない

2. 記録を残す
→ 何をどう処理したか必ずメモ

3. 段階的に進める
→ 一度にすべて処理せず、確認しながら

4. 検証を怠らない
→ 処理後のデータが正しいか必ず確認

5. 予防が最重要
→ 入力時点で正しいデータを入れる仕組みを作る
🎯 次のステップの予告

データクレンジングの総合演習をマスターしました!次のSTEP 48では、「Googleスプレッドシート固有機能(QUERY/IMPORTRANGE)」を学びます。SQLのような強力な関数を習得します。

❓ よくある質問

Q1: データクレンジングにどれくらい時間をかけるべきですか?
データ分析全体の70%程度をクレンジングに使うのが一般的です。

目安:
・簡単なデータ(100行): 30分~1時間
・中規模データ(1,000行): 2~3時間
・大規模データ(10,000行以上): 1日以上

クレンジングに時間をかければかけるほど、後の分析が楽になります。
Q2: 元データは必ず残すべきですか?
はい、必ず残してください!

理由:
✓ クレンジングで間違えた場合に戻れる
✓ 処理内容を後で確認できる
✓ 他の方法を試したい時に使える
✓ 上司や同僚に元データを見せる必要がある

方法: 別シートにコピー(シート名「元データ」)
Q3: 自動化できますか?
ある程度は可能ですが、完全自動化は難しいです。

自動化できる部分:
・TRIM関数でスペース削除
・VALUE関数で数値化
・SUBSTITUTE関数で置換
・重複の削除

人間の判断が必要な部分:
・外れ値が本当に異常か?
・欠損値をどう処理するか?
・表記ゆれのパターン発見
Q4: クレンジング済みかどうか確認する方法は?
以下のチェックリストで確認してください:

□ 重複がない(または意図的に残している)
□ 空白セルが処理されている
□ 外れ値がない(または理由が明確)
□ データ型が統一されている
□ 表記ゆれがない
□ 余分なスペースがない
□ SUM、AVERAGEなどが正しく計算できる
□ 並べ替えが正しく動作する

すべて✓なら、クレンジング完了です!
Q5: クレンジングのスキルを上げるには?
実践あるのみ!数をこなすことが一番の上達法です。

おすすめの練習:
1. Kaggleなどの公開データセットを使う
2. 自分の業務データで練習する
3. わざと汚いデータを作って練習
4. 他の人のクレンジング方法を見る

クレンジングスキルは、データ分析の最重要スキルです!
Q6: GoogleスプレッドシートでもExcelと同じ方法でクレンジングできますか?
はい、基本的には同じです。

共通で使える機能:
✓ TRIM、VALUE、SUBSTITUTE関数
✓ ASC関数(全角→半角)
✓ 条件付き書式
✓ フィルター機能

Googleスプレッドシート特有:
✓ 重複削除:「データ」→「データクリーンアップ」→「重複を削除」
✓ UNIQUE関数が標準で使える
✓ QUERY関数でSQL的なクレンジングも可能
Q7: 大量データ(10万行以上)のクレンジングはExcelでできますか?
できますが、注意が必要です。

Excel/Googleスプレッドシートの限界:
・Excelの行数上限: 約104万行
・大量の関数は処理が重くなる
・メモリ不足でクラッシュの可能性

大量データの場合の対処:
✓ データを分割して処理
✓ 関数ではなく「区切り位置」機能を使う
✓ Power Query(Excel)を使う
✓ PythonやRなどのプログラミング言語を検討

10万行を超える場合は、専用ツールの検討をおすすめします。
📝

学習メモ

Excel・Googleスプレッドシート完全マスター - Step 47

📋 過去のメモ一覧
#artnasekai #学習メモ
LINE