🧹 Step 47: データクレンジング総合演習

汚いデータを綺麗にして、分析できる状態にしよう!

📋 このステップで学ぶこと

データクレンジングとは何か
重複データの検出と削除
欠損値（空白）の処理方法
外れ値の検出と対処
データ型の統一
表記ゆれの修正
実践的なクレンジング手順

📝 1. データクレンジングとは?

データクレンジングは、汚いデータを綺麗にする作業です。データ分析の準備として最も重要な工程です。

📋 データクレンジングが必要な理由（※横スクロールできます）

【データクレンジングが必要な理由】

■ 現実のデータは汚い
・手入力によるミス
・システム連携のエラー
・フォーマットの不統一
・重複データの存在
・欠損値（空白）
・外れ値（異常値）

■ 汚いデータのまま分析すると…
❌ 計算結果が間違う
❌ グラフが正しく表示されない
❌ 集計値がおかしくなる
❌ 意思決定を誤る

■ データクレンジングの目的
✓ 正確な分析ができる
✓ 信頼できる結果が得られる
✓ 効率的に処理できる
✓ 他の人も使いやすい

データクレンジングに全体の70%の時間を使う!
↓
これが一番重要な作業

🔑 データクレンジングの基本原則

1. 元データは残す
→ 必ず別シートやファイルにコピーして作業

2. 記録を残す
→ どんな処理をしたか記録する

3. 段階的に進める
→ 一度にすべて処理せず、1つずつ確認

4. 検証する
→ 処理後のデータが正しいか必ず確認

5. 自動化を考える
→ 同じ作業を繰り返すなら関数や機能を活用

🗂️ 汚いデータの例

❌ クレンジング前（問題だらけ）

顧客名	電話番号	売上
株式会社ABC	03-1234-5678	￥1,000,000
株式会社ABC	0312345678	1500000
（株）ABC		2,000,000円
株式会社XYZ	090-9999-9999	999999999

問題点:
✗ 同じ会社なのに表記が違う（重複）
✗ 余分なスペースがある
✗ 電話番号の形式がバラバラ
✗ 空白セルがある（欠損値）
✗ 売上の表記が統一されていない
✗ 明らかに異常な値（外れ値）

✅ クレンジング後（綺麗）

顧客名	電話番号	売上
株式会社ABC	03-1234-5678	1,000,000
株式会社ABC	03-1234-5678	1,500,000
株式会社XYZ	090-9999-9999	（削除）

改善点:
✓ 会社名が統一された
✓ 余分なスペースが削除された
✓ 電話番号の形式が統一された
✓ 欠損値は元データから確認・補完
✓ 売上は数値型で統一
✓ 明らかに異常な値は削除

🔍 2. 重複データの検出と削除

重複データは、同じデータが2回以上入力されている状態です。集計やカウントを狂わせる原因になります。

📋 重複データの検出方法（※横スクロールできます）

【重複データの検出方法】

■ 方法1: 重複の強調表示（条件付き書式）
1. データ範囲を選択
2. [ホーム] → [条件付き書式]
3. [セルの強調表示ルール] → [重複する値]
4. 書式を選択（例: 薄い赤の塗りつぶし）

メリット: 削除せずに確認できる
用途: まず重複を見つけたい時

■ 方法2: 重複の削除機能
1. データ範囲を選択
2. [データ] タブ → [重複の削除]
3. 重複を判定する列を選択
4. [OK]

注意: 元に戻せないので、事前にバックアップ!

■ 方法3: 関数で重複チェック（COUNTIF）
数式: =COUNTIF($A$2:A2, A2)>1

説明:
・自分より上のセルまでを検索
・2回目以降の出現でTRUEになる

用途: 重複を見つけて別処理したい時

📊 重複データの削除手順（※横スクロールできます）

【重複データの削除手順】

■ 実践例: 顧客リストの重複削除

元データ:
  顧客名           メール
  田中太郎         tanaka@example.com
  佐藤花子         sato@example.com
  田中太郎         tanaka@example.com
  鈴木一郎         suzuki@example.com

手順:
1. データ全体を選択（A1:B5）
2. [データ] → [重複の削除]
3. 列の選択:
   ☑ 顧客名
   ☑ メール
4. [OK]

結果:
  顧客名           メール
  田中太郎         tanaka@example.com
  佐藤花子         sato@example.com
  鈴木一郎         suzuki@example.com

3行目の重複が削除された!

メッセージ: 
「1個の重複する値が見つかり削除されました。
 3個の一意の値が残りました。」

⚠️ 重複判定の注意点（※横スクロールできます）

【重複判定の注意点】

■ ケース1: 完全一致のみ重複とする
顧客名だけで判定:
「田中太郎」= 「田中太郎」 → 重複 ✓

■ ケース2: 大文字小文字の違い
Excelは大文字小文字を区別しない:
「ABC」= 「abc」 → 重複 ✓

■ ケース3: 前後のスペース
「田中太郎」≠ 「 田中太郎 」→ 重複ではない ✗
先にTRIM関数でスペース削除が必要!

■ ケース4: 全角半角の違い
「ABC」≠ 「ABC」→ 重複ではない ✗
ASC/JIS関数で統一が必要!

■ ケース5: 複数列の組み合わせ
姓名が同じで住所も同じ → 重複 ✓
姓名が同じで住所が違う → 別人 ✗

重複削除の前に、データの表記を統一する!

⚠️ 重複削除の注意事項

✓ 必ずバックアップ: 元データを別シートにコピー
✓ 削除基準を明確に: どの列で重複を判定するか
✓ 最初の行が残る: 2回目以降が削除される
✓ データの確認: 削除後、件数が正しいか確認
✓ 本当に重複か?: 同姓同名など、別人の可能性も考慮

📊 3. 欠損値（空白）の処理方法

欠損値は、データが入っていない空白セルのことです。計算やグラフ作成に影響します。

📋 欠損値の検出方法（※横スクロールできます）

【欠損値の検出方法】

■ 方法1: 空白セルの選択
1. データ範囲を選択
2. [ホーム] → [検索と選択]
3. [条件を選択してジャンプ]
4. [空白セル] を選択
5. [OK]

結果: すべての空白セルが選択される
      →色を付けると分かりやすい

■ 方法2: フィルターで空白を表示
1. データ範囲を選択
2. [データ] → [フィルター]
3. 列のフィルターをクリック
4. [(空白セル)] にチェック

結果: 空白セルのある行だけが表示

■ 方法3: 関数で欠損値をチェック
数式: =ISBLANK(A1)
または: =A1=””

結果: 空白ならTRUE、データがあればFALSE

カウント: =COUNTBLANK(A1:A100)
結果: 空白セルの個数

📊 欠損値の処理方法（※横スクロールできます）

【欠損値の処理方法】

■ パターン1: 削除する
いつ使う: 欠損値が多すぎて補完できない場合

手順:
1. フィルターで空白行を表示
2. 該当行を選択
3. 右クリック → [削除]

注意: 他の列に重要なデータがないか確認!

■ パターン2: 前の値で埋める（前方補完）
いつ使う: 項目名などが繰り返される場合

例:
  カテゴリ  商品
  食品      りんご
            バナナ  ← 「食品」で埋める
            みかん  ← 「食品」で埋める
  飲料      水
            お茶    ← 「飲料」で埋める

手順:
1. 空白セルに数式: =IF(A2=””,A1,A2)
2. 下にコピー
3. 値のみ貼り付けで確定

■ パターン3: 平均値や中央値で埋める
いつ使う: 数値データで欠損が少ない場合

例:
  月   売上
  1月  100万
  2月  (空白) ← 平均値で埋める
  3月  120万

数式: =AVERAGE(B:B) または =MEDIAN(B:B)

■ パターン4: 「不明」「未入力」などの文字で埋める
いつ使う: 空白と入力忘れを区別したい場合

手順:
1. 空白セルを選択
2. 「不明」と入力
3. Ctrl+Enter で一括入力

■ パターン5: 手動で調査・入力
いつ使う: 重要なデータで、正確な値が必要な場合

手順:
1. 元データを確認
2. 関係者に問い合わせ
3. 正しい値を入力

💡 欠損値処理の判断基準

欠損率が高い（30%以上）:
→ その列全体を削除するか、データ収集をやり直す

欠損率が低い（10%以下）:
→ 平均値や前方補完で埋める、または行を削除

重要なデータ:
→ 推測で埋めず、元データを確認・調査

重要でないデータ:
→ 「不明」「N/A」などで埋めるか、削除

原則: 適当に埋めるより、空白のままか削除の方が安全!

⚠️ 4. 外れ値の検出と対処

外れ値は、他のデータと大きく異なる値のことです。入力ミスや異常値の可能性があります。

📋 外れ値の検出方法（※横スクロールできます）

【外れ値の検出方法】

■ 方法1: 並べ替えで確認
1. データを昇順/降順に並べ替え
2. 最小値と最大値を確認
3. 明らかにおかしい値を見つける

例:
売上データを降順にソート
  9,999,999,999円 ← 明らかに異常!
  1,500,000円
  1,200,000円

■ 方法2: 条件付き書式で強調
上位10%または下位10%を色付け:
1. [ホーム] → [条件付き書式]
2. [上位/下位ルール] → [上位10項目]
3. 色を選択

■ 方法3: 統計的手法（四分位範囲）
外れ値の定義:
  Q1 – 1.5×IQR より小さい
  または
  Q3 + 1.5×IQR より大きい

用語:
Q1: 第1四分位数（25パーセンタイル）
Q3: 第3四分位数（75パーセンタイル）
IQR: 四分位範囲（Q3 – Q1）

数式例:
=QUARTILE.INC(A:A,1) – 1.5*(QUARTILE.INC(A:A,3)-QUARTILE.INC(A:A,1))

■ 方法4: 標準偏差を使う
平均値 ± 3σ（標準偏差）の範囲外を外れ値とする

数式例:
外れ値判定: =ABS(A2-AVERAGE($A:$A))>3*STDEV($A:$A)

📊 外れ値の対処方法（※横スクロールできます）

【外れ値の対処方法】

■ パターン1: 入力ミスなら修正
例:
売上: 10000000000円 → 1000000円（桁を間違えた）

手順:
1. 元データを確認
2. 正しい値に修正

■ パターン2: 削除する
いつ使う: 明らかに異常で、修正不可能な場合

例:
年齢: 999歳 → 削除
（入力ミスで、正しい値が不明）

■ パターン3: 上限/下限で置き換え
いつ使う: 極端な値を抑えたい場合

例:
売上の上限を500万円にする:
=MIN(A2, 5000000)

■ パターン4: そのまま残す
いつ使う: 本当に特殊なケースの場合

例:
大口顧客の売上: 5000万円
→ 外れ値だが、実際の値なので残す

記録: 「A社は大口顧客のため高額」

■ パターン5: 別途分析
いつ使う: 外れ値が重要な意味を持つ場合

例:
不良品率が突然上昇
→ 製造工程の問題の可能性
→ 削除せず、原因を調査

🎯 外れ値処理の判断フローチャート

Step 1: 外れ値を検出
↓
Step 2: 入力ミスか確認
→ YES: 正しい値に修正
→ NO: Step 3へ
↓
Step 3: 実際に起こりうる値か?
→ YES: そのまま残す（理由を記録）
→ NO: Step 4へ
↓
Step 4: 修正可能か?
→ YES: 元データを確認して修正
→ NO: 削除（削除した理由を記録）

🔤 5. データ型の統一

データ型の統一は、同じ列のデータを同じ形式にすることです。計算やソートが正しく動作するために必要です。

📋 よくあるデータ型の問題（※横スクロールできます）

【よくあるデータ型の問題】

■ 問題1: 数値が文字列になっている
見た目:
  売上
  100000   ← 実は文字列
  150000   ← 実は文字列

判別方法:
・左寄せになっている（数値は右寄せ）
・セルの左上に緑の三角マーク
・SUM関数で合計できない

原因:
・CSVから取り込んだデータ
・先頭に「’」がついている
・全角数字が混じっている

■ 問題2: 日付が文字列になっている
見た目:
  日付
  2025/11/15  ← 実は文字列

判別方法:
・日付として認識されない
・並べ替えが正しくできない

■ 問題3: 全角半角の混在
見た目:
  電話番号
  03-1234-5678  ← 半角
  03-1234-5678 ← 全角

問題:
・検索で見つからない
・重複として認識されない

📊 データ型統一の方法（※横スクロールできます）

【データ型統一の方法】

■ 文字列を数値に変換

方法1: エラーマークから変換
1. セル左上の緑の三角をクリック
2. [数値に変換する] を選択

方法2: 数式で変換
=VALUE(A1)
または
=A1*1

方法3: 「区切り位置」機能
1. 列を選択
2. [データ] → [区切り位置]
3. [完了] をクリック
   → 文字列が数値に変換される

■ 文字列を日付に変換
=DATEVALUE(A1)

または
1. 列を選択
2. [データ] → [区切り位置]
3. [完了]

■ 全角を半角に変換
=ASC(A1)

■ 半角を全角に変換
=JIS(A1)

■ 表示形式の統一
1. 列を選択
2. [ホーム] → [表示形式]
3. 適切な形式を選択:
   – 数値
   – 通貨
   – 日付
   – パーセンテージ

🔑 データ型統一のチェックリスト

□ 数値列: すべて数値型か?（文字列が混じっていないか）
□ 日付列: 日付型として認識されているか?
□ 全角半角: 統一されているか?
□ 表示形式: 通貨、%など適切に設定されているか?
□ 計算確認: SUM、AVERAGEなどが正しく動作するか?
□ 並べ替え確認: 正しい順序でソートされるか?

✏️ 6. 表記ゆれの修正

表記ゆれは、同じ意味なのに表記が異なるデータのことです。集計やグループ化の際に問題になります。

📋 表記ゆれの例（※横スクロールできます）

【表記ゆれの例】

■ 会社名
株式会社ABC
(株)ABC
ABC株式会社
ABC
㈱ABC

→ すべて同じ会社なのに、集計すると5社になる!

■ 商品名
アイフォン
iPhone
iphone
I-phone

→ すべて同じ商品なのに、別商品として扱われる!

■ 住所
東京都千代田区
千代田区
東京都 千代田区
東京  千代田区

■ 単位
円
¥
￥
YEN

📊 表記ゆれの修正方法（※横スクロールできます）

【表記ゆれの修正方法】

■ 方法1: 検索と置換
1. [ホーム] → [検索と選択] → [置換]
2. 検索する文字列: (株)
3. 置換後の文字列: 株式会社
4. [すべて置換]

応用: 複数パターンを一度に置換
(株) → 株式会社
㈱   → 株式会社

■ 方法2: SUBSTITUTE関数
=SUBSTITUTE(A1,”(株)”,”株式会社”)

複数置換:
=SUBSTITUTE(SUBSTITUTE(A1,”(株)”,”株式会社”),”㈱”,”株式会社”)

■ 方法3: マスタテーブルを使う
準備:
  元の表記    正しい表記
  iPhone      iPhone
  アイフォン   iPhone
  iphone      iPhone
  I-phone     iPhone

数式:
=VLOOKUP(A1,マスタ範囲,2,FALSE)

メリット: 一元管理できる

■ 方法4: 手動で確認・修正
重要データの場合:
1. ユニークな値を抽出（UNIQUE関数またはピボット）
2. 1つずつ確認
3. 正しい表記に統一

💡 表記ゆれを防ぐ工夫

1. 入力規則を設定
リストから選択式にする → 表記ゆれが起きない

2. マスタデータを用意
正式名称のリストを作り、VLOOKUPで参照

3. 入力ルールを決める
「株式会社は正式名称で、(株)は使わない」など

4. 定期的にチェック
ピボットテーブルでユニーク値を確認

予防が一番大事!入力時点で正しく入れる仕組みを作る

🔧 7. 実践的なクレンジング手順

実際の業務では、以下の標準的な手順でデータクレンジングを進めます。

📋 データクレンジングの標準手順（※横スクロールできます）

【データクレンジングの標準手順】

ステップ1: データの全体確認（10分）
□ データの行数・列数を確認
□ 各列のデータ型を確認
□ 明らかな異常値がないか確認
□ サンプルとして最初と最後の数行を確認

ステップ2: バックアップ（1分）
□ 元データを別シートにコピー
□ シート名: 「元データ」「作業用」など

ステップ3: 基本的なクレンジング（30分）
□ 余分なスペースの削除（TRIM関数）
□ 全角半角の統一（ASC/JIS関数）
□ 大文字小文字の統一（UPPER/LOWER/PROPER関数）
□ 改行コードの削除

ステップ4: 重複チェック（15分）
□ 重複の検出（条件付き書式）
□ 重複の確認（本当に重複か?）
□ 重複の削除（必要に応じて）

ステップ5: 欠損値の処理（20分）
□ 空白セルの検出
□ 欠損値の処理方針決定
  ・削除/補完/「不明」記入
□ 処理の実行と記録

ステップ6: データ型の統一（15分）
□ 数値型への変換
□ 日付型への変換
□ 表示形式の統一

ステップ7: 外れ値のチェック（20分）
□ 並べ替えで確認
□ 統計量で確認（最大、最小、平均）
□ 外れ値の処理

ステップ8: 表記ゆれの修正（30分）
□ ユニーク値の抽出
□ 表記ゆれの発見
□ 検索置換またはSUBSTITUTE関数で修正

ステップ9: 最終確認（15分）
□ サマリー統計を確認
□ ピボットテーブルで集計確認
□ サンプルデータで目視確認
□ データ件数の確認（減っていないか?）

ステップ10: ドキュメント化（10分）
□ 何をしたかを記録
□ 削除したデータの記録
□ 補完・修正したデータの記録

合計: 約2.5～3時間（データ量による）

📊 実践例: 顧客データのクレンジング（※横スクロールできます）

【実践例: 顧客データのクレンジング】

元データ（1000行）:
問題だらけのデータ

クレンジング実施:

【ステップ1: 確認】
・1000行、10列
・顧客名、住所、電話、メール、購入額など
・明らかな異常値: 購入額に9999999999円

【ステップ2: バックアップ】
・シート「元データ」にコピー
・作業はシート「クレンジング中」で実施

【ステップ3: 基本クレンジング】
・補助列で =TRIM(A2) を実行
・全角数字を半角に =ASC(E2)
・メールアドレスを小文字に =LOWER(D2)

【ステップ4: 重複チェック】
・顧客名+メールで重複検出
・50件の重複を発見
・確認後、重複を削除 → 950行

【ステップ5: 欠損値処理】
・電話番号の空白: 50件
  → 「未登録」と記入
・住所の空白: 5件
  → 顧客台帳から確認して入力

【ステップ6: データ型統一】
・購入額を数値型に変換
・購入日を日付型に変換
・電話番号を文字列型に統一

【ステップ7: 外れ値チェック】
・購入額の最大値: 9999999999円 → 異常
  → 元データ確認: 999,999円の入力ミス
  → 修正

【ステップ8: 表記ゆれ修正】
・都道府県名:
  「東京都」「東京」「Tokyo」→「東京都」に統一
・会社名:
  「(株)」「㈱」→「株式会社」に統一

【ステップ9: 最終確認】
・データ件数: 950行（重複50件を削除）
・購入額の合計: 正常値
・ピボットテーブルで都道府県別集計 → OK

【ステップ10: ドキュメント化】
記録:
– 重複50件削除
– 電話番号の空白50件は「未登録」
– 住所の空白5件は台帳から補完
– 購入額の外れ値1件を修正
– 表記ゆれを統一（都道府県、会社名）

完了!

📝 練習問題

練習 1

初級

余分なスペースを削除してください

データ:
  顧客名
  ” 田中太郎 ”   (前後にスペース)
  “佐藤  花子”   (間に2つスペース)
  “鈴木一郎”

要件:
TRIM関数を使ってすべてのスペースを適切に削除

手順:

1. 補助列(B列)を作成
2. B2に数式: =TRIM(A2)
3. B2をB4までコピー

結果:
B2: “田中太郎”   (前後のスペース削除)
B3: “佐藤 花子”  (間のスペースは1つに)
B4: “鈴木一郎”   (変更なし)

4. B列をコピー
5. A列を選択
6. [ホーム] → [貼り付け] → [値のみ貼り付け]
7. B列を削除

TRIM関数のポイント:

TRIM関数は以下を実行します:
✓ 先頭のスペースを削除
✓ 末尾のスペースを削除
✓ 単語間の連続スペースを1つに削減

データクレンジングの最初の一手として必ず実行しましょう!

練習 2

中級

重複データを見つけて削除してください

データ:
  顧客名       メール
  田中太郎     tanaka@example.com
  佐藤花子     sato@example.com
  田中太郎     tanaka@example.com
  鈴木一郎     suzuki@example.com
  佐藤花子     sato@example.com

要件:
1. 重複を色で強調
2. 重複を削除（最初のデータを残す）

手順:

【重複の強調】
1. データ範囲（A2:B6）を選択
2. [ホーム] → [条件付き書式]
3. [セルの強調表示ルール] → [重複する値]
4. 書式: 薄い赤の塗りつぶし
5. [OK]

結果:
田中太郎の2行が赤く
佐藤花子の2行が赤く表示される

【重複の削除】
6. データ範囲（A1:B6 ヘッダー含む）を選択
7. [データ] → [重複の削除]
8. 列の選択:
   ☑ 顧客名
   ☑ メール
9. [OK]

メッセージ:
「2個の重複する値が見つかり削除されました。
 3個の一意の値が残りました。」

最終結果:
  顧客名       メール
  田中太郎     tanaka@example.com
  佐藤花子     sato@example.com
  鈴木一郎     suzuki@example.com

3行のみ残る（重複2件削除）

注意点:

重複削除は元に戻せません!必ず以下を確認:
✓ バックアップを取った
✓ 本当に重複か確認した（同姓同名の別人ではないか）
✓ 最初のデータを残すルールで問題ないか

練習 3

中級

表記ゆれを修正してください

データ:
  会社名
  株式会社ABC
  (株)ABC
  ㈱ABC
  ABC株式会社

要件:
すべて「株式会社ABC」に統一してください

手順:

【方法1: 検索と置換】
1. Ctrl+H で「検索と置換」を開く
2. 検索: (株)ABC → 置換: 株式会社ABC → すべて置換
3. 検索: ㈱ABC → 置換: 株式会社ABC → すべて置換
4. 検索: ABC株式会社 → 置換: 株式会社ABC → すべて置換

【方法2: SUBSTITUTE関数】
補助列に以下の数式を入力:

=SUBSTITUTE(
  SUBSTITUTE(
    SUBSTITUTE(
      SUBSTITUTE(A2,”(株)ABC”,”株式会社ABC”),
      “㈱ABC”,”株式会社ABC”),
    “ABC株式会社”,”株式会社ABC”),
  “（株）ABC”,”株式会社ABC”)

結果:
すべて「株式会社ABC」に統一される

ポイント:

SUBSTITUTEをネストすると、複数パターンを一度に置換できます。
ただし、複雑になりすぎる場合は「検索と置換」を複数回実行する方がわかりやすいこともあります。

練習 4

上級

総合クレンジング:複数の問題を一度に解決してください

データ:
  商品名        売上         在庫
  ” iPhone ”   “1000000”     50
  アイフォン     1500000
  I-Phone      “2000000”    999999
  iPhone        1200000     30

問題:
1. 商品名に余分なスペース
2. 商品名の表記ゆれ
3. 売上が文字列と数値が混在
4. 在庫に明らかな外れ値
5. 在庫の欠損値

要件:
すべての問題を修正して、綺麗なデータにしてください

総合クレンジング手順:

【準備】
1. 元データを別シートにコピー
2. 作業用シートで以下を実施

【ステップ1: 商品名のクレンジング】
補助列(D列)に数式:
=SUBSTITUTE(
  SUBSTITUTE(
    SUBSTITUTE(TRIM(A2),”アイフォン”,”iPhone”),
    “I-Phone”,”iPhone”),
  ” “,””)

結果:
D2: iPhone
D3: iPhone
D4: iPhone
D5: iPhone

【ステップ2: 売上の数値化】
補助列(E列)に数式:
=VALUE(B2)

または、B列全体を選択して:
[データ] → [区切り位置] → [完了]

結果:
E2: 1000000 (数値)
E3: 1500000 (数値)
E4: 2000000 (数値)
E5: 1200000 (数値)

【ステップ3: 在庫の外れ値処理】
補助列(F列)に数式:
=IF(C2>10000,”エラー”,C2)

結果:
F2: 50
F3: (空白) → 手動で「0」または平均値
F4: エラー  → 元データ確認後修正
F5: 30

【ステップ4: データの確定】
1. D列をコピー → A列に値貼り付け
2. E列をコピー → B列に値貼り付け
3. F列の値を確認・修正後 → C列に値貼り付け
4. 補助列(D, E, F)を削除

【最終結果】
  商品名    売上        在庫
  iPhone   1,000,000     50
  iPhone   1,500,000      0  (補完)
  iPhone   2,000,000     50  (修正後)
  iPhone   1,200,000     30

【検証】
✓ 商品名: すべて「iPhone」に統一
✓ 売上: すべて数値型
✓ 在庫: 外れ値を修正、欠損値を補完
✓ データ型: 適切に設定
✓ SUM(B:B) が正しく計算できる

クレンジングのポイント:

■ 複雑な処理は補助列で段階的に
→ 一度にすべて処理せず、確認しながら

■ 処理後は必ず検証
→ サンプルで目視確認
→ SUM, AVERAGEなどで計算確認
→ ピボットテーブルで集計確認

■ 記録を残す
→ 何をどう修正したか記録する

📝 Step 47 のまとめ

✅ このステップで学んだこと

データクレンジングの重要性: 分析の70%を占める重要工程
重複データ処理: 検出、確認、削除の手順
欠損値処理: 削除、補完、記録の方法
外れ値検出: 統計的手法と対処方法
データ型統一: 文字列→数値、全角→半角など
表記ゆれ修正: SUBSTITUTE、検索置換の活用
実践的な手順: 10ステップの標準プロセス

🎯 実務での重要ポイント

1. 元データは必ず残す
→ バックアップなしにクレンジングしない

2. 記録を残す
→ 何をどう処理したか必ずメモ

3. 段階的に進める
→ 一度にすべて処理せず、確認しながら

4. 検証を怠らない
→ 処理後のデータが正しいか必ず確認

5. 予防が最重要
→ 入力時点で正しいデータを入れる仕組みを作る

🎯 次のステップの予告

データクレンジングの総合演習をマスターしました！次のSTEP 48では、「Googleスプレッドシート固有機能（QUERY/IMPORTRANGE）」を学びます。SQLのような強力な関数を習得します。

❓ よくある質問

Q1: データクレンジングにどれくらい時間をかけるべきですか?

データ分析全体の70%程度をクレンジングに使うのが一般的です。

目安:
・簡単なデータ(100行): 30分～1時間
・中規模データ(1,000行): 2～3時間
・大規模データ(10,000行以上): 1日以上

クレンジングに時間をかければかけるほど、後の分析が楽になります。

Q2: 元データは必ず残すべきですか?

はい、必ず残してください!

理由:
✓ クレンジングで間違えた場合に戻れる
✓ 処理内容を後で確認できる
✓ 他の方法を試したい時に使える
✓ 上司や同僚に元データを見せる必要がある

方法: 別シートにコピー（シート名「元データ」）

Q3: 自動化できますか?

ある程度は可能ですが、完全自動化は難しいです。

自動化できる部分:
・TRIM関数でスペース削除
・VALUE関数で数値化
・SUBSTITUTE関数で置換
・重複の削除

人間の判断が必要な部分:
・外れ値が本当に異常か?
・欠損値をどう処理するか?
・表記ゆれのパターン発見

Q4: クレンジング済みかどうか確認する方法は?

以下のチェックリストで確認してください:

□ 重複がない（または意図的に残している）
□ 空白セルが処理されている
□ 外れ値がない（または理由が明確）
□ データ型が統一されている
□ 表記ゆれがない
□ 余分なスペースがない
□ SUM、AVERAGEなどが正しく計算できる
□ 並べ替えが正しく動作する

すべて✓なら、クレンジング完了です!

Q5: クレンジングのスキルを上げるには?

実践あるのみ!数をこなすことが一番の上達法です。

おすすめの練習:
1. Kaggleなどの公開データセットを使う
2. 自分の業務データで練習する
3. わざと汚いデータを作って練習
4. 他の人のクレンジング方法を見る

クレンジングスキルは、データ分析の最重要スキルです!

Q6: GoogleスプレッドシートでもExcelと同じ方法でクレンジングできますか?

はい、基本的には同じです。

共通で使える機能:
✓ TRIM、VALUE、SUBSTITUTE関数
✓ ASC関数（全角→半角）
✓ 条件付き書式
✓ フィルター機能

Googleスプレッドシート特有:
✓ 重複削除:「データ」→「データクリーンアップ」→「重複を削除」
✓ UNIQUE関数が標準で使える
✓ QUERY関数でSQL的なクレンジングも可能

Q7: 大量データ（10万行以上）のクレンジングはExcelでできますか?

できますが、注意が必要です。

Excel/Googleスプレッドシートの限界:
・Excelの行数上限: 約104万行
・大量の関数は処理が重くなる
・メモリ不足でクラッシュの可能性

大量データの場合の対処:
✓ データを分割して処理
✓ 関数ではなく「区切り位置」機能を使う
✓ Power Query（Excel）を使う
✓ PythonやRなどのプログラミング言語を検討

10万行を超える場合は、専用ツールの検討をおすすめします。

📝

学習メモ

Excel・Googleスプレッドシート完全マスター - Step 47

📋 過去のメモ一覧 ▼