📋 このステップで学ぶこと
- データクレンジングとは何か
- 重複データの検出と削除
- 欠損値(空白)の処理方法
- 外れ値の検出と対処
- データ型の統一
- 表記ゆれの修正
- 実践的なクレンジング手順
📝 1. データクレンジングとは?
データクレンジングは、汚いデータを綺麗にする作業です。データ分析の準備として最も重要な工程です。
📋 データクレンジングが必要な理由(※横スクロールできます)
【データクレンジングが必要な理由】
■ 現実のデータは汚い
・手入力によるミス
・システム連携のエラー
・フォーマットの不統一
・重複データの存在
・欠損値(空白)
・外れ値(異常値)
■ 汚いデータのまま分析すると…
❌ 計算結果が間違う
❌ グラフが正しく表示されない
❌ 集計値がおかしくなる
❌ 意思決定を誤る
■ データクレンジングの目的
✓ 正確な分析ができる
✓ 信頼できる結果が得られる
✓ 効率的に処理できる
✓ 他の人も使いやすい
データクレンジングに全体の70%の時間を使う!
↓
これが一番重要な作業
🔑 データクレンジングの基本原則
1. 元データは残す
→ 必ず別シートやファイルにコピーして作業
2. 記録を残す
→ どんな処理をしたか記録する
3. 段階的に進める
→ 一度にすべて処理せず、1つずつ確認
4. 検証する
→ 処理後のデータが正しいか必ず確認
5. 自動化を考える
→ 同じ作業を繰り返すなら関数や機能を活用
🗂️ 汚いデータの例
❌ クレンジング前(問題だらけ)
| 顧客名 |
電話番号 |
売上 |
| 株式会社ABC |
03-1234-5678 |
¥1,000,000 |
| 株式会社ABC |
0312345678 |
1500000 |
| (株)ABC |
|
2,000,000円 |
| 株式会社XYZ |
090-9999-9999 |
999999999 |
問題点:
✗ 同じ会社なのに表記が違う(重複)
✗ 余分なスペースがある
✗ 電話番号の形式がバラバラ
✗ 空白セルがある(欠損値)
✗ 売上の表記が統一されていない
✗ 明らかに異常な値(外れ値)
✅ クレンジング後(綺麗)
| 顧客名 |
電話番号 |
売上 |
| 株式会社ABC |
03-1234-5678 |
1,000,000 |
| 株式会社ABC |
03-1234-5678 |
1,500,000 |
| 株式会社XYZ |
090-9999-9999 |
(削除) |
改善点:
✓ 会社名が統一された
✓ 余分なスペースが削除された
✓ 電話番号の形式が統一された
✓ 欠損値は元データから確認・補完
✓ 売上は数値型で統一
✓ 明らかに異常な値は削除
🔍 2. 重複データの検出と削除
重複データは、同じデータが2回以上入力されている状態です。集計やカウントを狂わせる原因になります。
📋 重複データの検出方法(※横スクロールできます)
【重複データの検出方法】
■ 方法1: 重複の強調表示(条件付き書式)
1. データ範囲を選択
2. [ホーム] → [条件付き書式]
3. [セルの強調表示ルール] → [重複する値]
4. 書式を選択(例: 薄い赤の塗りつぶし)
メリット: 削除せずに確認できる
用途: まず重複を見つけたい時
■ 方法2: 重複の削除機能
1. データ範囲を選択
2. [データ] タブ → [重複の削除]
3. 重複を判定する列を選択
4. [OK]
注意: 元に戻せないので、事前にバックアップ!
■ 方法3: 関数で重複チェック(COUNTIF)
数式: =COUNTIF($A$2:A2, A2)>1
説明:
・自分より上のセルまでを検索
・2回目以降の出現でTRUEになる
用途: 重複を見つけて別処理したい時
📊 重複データの削除手順(※横スクロールできます)
【重複データの削除手順】
■ 実践例: 顧客リストの重複削除
元データ:
顧客名 メール
田中太郎 tanaka@example.com
佐藤花子 sato@example.com
田中太郎 tanaka@example.com
鈴木一郎 suzuki@example.com
手順:
1. データ全体を選択(A1:B5)
2. [データ] → [重複の削除]
3. 列の選択:
☑ 顧客名
☑ メール
4. [OK]
結果:
顧客名 メール
田中太郎 tanaka@example.com
佐藤花子 sato@example.com
鈴木一郎 suzuki@example.com
3行目の重複が削除された!
メッセージ:
「1個の重複する値が見つかり削除されました。
3個の一意の値が残りました。」
⚠️ 重複判定の注意点(※横スクロールできます)
【重複判定の注意点】
■ ケース1: 完全一致のみ重複とする
顧客名だけで判定:
「田中太郎」= 「田中太郎」 → 重複 ✓
■ ケース2: 大文字小文字の違い
Excelは大文字小文字を区別しない:
「ABC」= 「abc」 → 重複 ✓
■ ケース3: 前後のスペース
「田中太郎」≠ 「 田中太郎 」→ 重複ではない ✗
先にTRIM関数でスペース削除が必要!
■ ケース4: 全角半角の違い
「ABC」≠ 「ABC」→ 重複ではない ✗
ASC/JIS関数で統一が必要!
■ ケース5: 複数列の組み合わせ
姓名が同じで住所も同じ → 重複 ✓
姓名が同じで住所が違う → 別人 ✗
重複削除の前に、データの表記を統一する!
⚠️ 重複削除の注意事項
✓ 必ずバックアップ: 元データを別シートにコピー
✓ 削除基準を明確に: どの列で重複を判定するか
✓ 最初の行が残る: 2回目以降が削除される
✓ データの確認: 削除後、件数が正しいか確認
✓ 本当に重複か?: 同姓同名など、別人の可能性も考慮
📊 3. 欠損値(空白)の処理方法
欠損値は、データが入っていない空白セルのことです。計算やグラフ作成に影響します。
📋 欠損値の検出方法(※横スクロールできます)
【欠損値の検出方法】
■ 方法1: 空白セルの選択
1. データ範囲を選択
2. [ホーム] → [検索と選択]
3. [条件を選択してジャンプ]
4. [空白セル] を選択
5. [OK]
結果: すべての空白セルが選択される
→色を付けると分かりやすい
■ 方法2: フィルターで空白を表示
1. データ範囲を選択
2. [データ] → [フィルター]
3. 列のフィルターをクリック
4. [(空白セル)] にチェック
結果: 空白セルのある行だけが表示
■ 方法3: 関数で欠損値をチェック
数式: =ISBLANK(A1)
または: =A1=””
結果: 空白ならTRUE、データがあればFALSE
カウント: =COUNTBLANK(A1:A100)
結果: 空白セルの個数
📊 欠損値の処理方法(※横スクロールできます)
【欠損値の処理方法】
■ パターン1: 削除する
いつ使う: 欠損値が多すぎて補完できない場合
手順:
1. フィルターで空白行を表示
2. 該当行を選択
3. 右クリック → [削除]
注意: 他の列に重要なデータがないか確認!
■ パターン2: 前の値で埋める(前方補完)
いつ使う: 項目名などが繰り返される場合
例:
カテゴリ 商品
食品 りんご
バナナ ← 「食品」で埋める
みかん ← 「食品」で埋める
飲料 水
お茶 ← 「飲料」で埋める
手順:
1. 空白セルに数式: =IF(A2=””,A1,A2)
2. 下にコピー
3. 値のみ貼り付けで確定
■ パターン3: 平均値や中央値で埋める
いつ使う: 数値データで欠損が少ない場合
例:
月 売上
1月 100万
2月 (空白) ← 平均値で埋める
3月 120万
数式: =AVERAGE(B:B) または =MEDIAN(B:B)
■ パターン4: 「不明」「未入力」などの文字で埋める
いつ使う: 空白と入力忘れを区別したい場合
手順:
1. 空白セルを選択
2. 「不明」と入力
3. Ctrl+Enter で一括入力
■ パターン5: 手動で調査・入力
いつ使う: 重要なデータで、正確な値が必要な場合
手順:
1. 元データを確認
2. 関係者に問い合わせ
3. 正しい値を入力
💡 欠損値処理の判断基準
欠損率が高い(30%以上):
→ その列全体を削除するか、データ収集をやり直す
欠損率が低い(10%以下):
→ 平均値や前方補完で埋める、または行を削除
重要なデータ:
→ 推測で埋めず、元データを確認・調査
重要でないデータ:
→ 「不明」「N/A」などで埋めるか、削除
原則: 適当に埋めるより、空白のままか削除の方が安全!
⚠️ 4. 外れ値の検出と対処
外れ値は、他のデータと大きく異なる値のことです。入力ミスや異常値の可能性があります。
📋 外れ値の検出方法(※横スクロールできます)
【外れ値の検出方法】
■ 方法1: 並べ替えで確認
1. データを昇順/降順に並べ替え
2. 最小値と最大値を確認
3. 明らかにおかしい値を見つける
例:
売上データを降順にソート
9,999,999,999円 ← 明らかに異常!
1,500,000円
1,200,000円
■ 方法2: 条件付き書式で強調
上位10%または下位10%を色付け:
1. [ホーム] → [条件付き書式]
2. [上位/下位ルール] → [上位10項目]
3. 色を選択
■ 方法3: 統計的手法(四分位範囲)
外れ値の定義:
Q1 – 1.5×IQR より小さい
または
Q3 + 1.5×IQR より大きい
用語:
Q1: 第1四分位数(25パーセンタイル)
Q3: 第3四分位数(75パーセンタイル)
IQR: 四分位範囲(Q3 – Q1)
数式例:
=QUARTILE.INC(A:A,1) – 1.5*(QUARTILE.INC(A:A,3)-QUARTILE.INC(A:A,1))
■ 方法4: 標準偏差を使う
平均値 ± 3σ(標準偏差)の範囲外を外れ値とする
数式例:
外れ値判定: =ABS(A2-AVERAGE($A:$A))>3*STDEV($A:$A)
📊 外れ値の対処方法(※横スクロールできます)
【外れ値の対処方法】
■ パターン1: 入力ミスなら修正
例:
売上: 10000000000円 → 1000000円(桁を間違えた)
手順:
1. 元データを確認
2. 正しい値に修正
■ パターン2: 削除する
いつ使う: 明らかに異常で、修正不可能な場合
例:
年齢: 999歳 → 削除
(入力ミスで、正しい値が不明)
■ パターン3: 上限/下限で置き換え
いつ使う: 極端な値を抑えたい場合
例:
売上の上限を500万円にする:
=MIN(A2, 5000000)
■ パターン4: そのまま残す
いつ使う: 本当に特殊なケースの場合
例:
大口顧客の売上: 5000万円
→ 外れ値だが、実際の値なので残す
記録: 「A社は大口顧客のため高額」
■ パターン5: 別途分析
いつ使う: 外れ値が重要な意味を持つ場合
例:
不良品率が突然上昇
→ 製造工程の問題の可能性
→ 削除せず、原因を調査
🎯 外れ値処理の判断フローチャート
Step 1: 外れ値を検出
↓
Step 2: 入力ミスか確認
→ YES: 正しい値に修正
→ NO: Step 3へ
↓
Step 3: 実際に起こりうる値か?
→ YES: そのまま残す(理由を記録)
→ NO: Step 4へ
↓
Step 4: 修正可能か?
→ YES: 元データを確認して修正
→ NO: 削除(削除した理由を記録)
🔤 5. データ型の統一
データ型の統一は、同じ列のデータを同じ形式にすることです。計算やソートが正しく動作するために必要です。
📋 よくあるデータ型の問題(※横スクロールできます)
【よくあるデータ型の問題】
■ 問題1: 数値が文字列になっている
見た目:
売上
100000 ← 実は文字列
150000 ← 実は文字列
判別方法:
・左寄せになっている(数値は右寄せ)
・セルの左上に緑の三角マーク
・SUM関数で合計できない
原因:
・CSVから取り込んだデータ
・先頭に「’」がついている
・全角数字が混じっている
■ 問題2: 日付が文字列になっている
見た目:
日付
2025/11/15 ← 実は文字列
判別方法:
・日付として認識されない
・並べ替えが正しくできない
■ 問題3: 全角半角の混在
見た目:
電話番号
03-1234-5678 ← 半角
03-1234-5678 ← 全角
問題:
・検索で見つからない
・重複として認識されない
📊 データ型統一の方法(※横スクロールできます)
【データ型統一の方法】
■ 文字列を数値に変換
方法1: エラーマークから変換
1. セル左上の緑の三角をクリック
2. [数値に変換する] を選択
方法2: 数式で変換
=VALUE(A1)
または
=A1*1
方法3: 「区切り位置」機能
1. 列を選択
2. [データ] → [区切り位置]
3. [完了] をクリック
→ 文字列が数値に変換される
■ 文字列を日付に変換
=DATEVALUE(A1)
または
1. 列を選択
2. [データ] → [区切り位置]
3. [完了]
■ 全角を半角に変換
=ASC(A1)
■ 半角を全角に変換
=JIS(A1)
■ 表示形式の統一
1. 列を選択
2. [ホーム] → [表示形式]
3. 適切な形式を選択:
– 数値
– 通貨
– 日付
– パーセンテージ
🔑 データ型統一のチェックリスト
□ 数値列: すべて数値型か?(文字列が混じっていないか)
□ 日付列: 日付型として認識されているか?
□ 全角半角: 統一されているか?
□ 表示形式: 通貨、%など適切に設定されているか?
□ 計算確認: SUM、AVERAGEなどが正しく動作するか?
□ 並べ替え確認: 正しい順序でソートされるか?
✏️ 6. 表記ゆれの修正
表記ゆれは、同じ意味なのに表記が異なるデータのことです。集計やグループ化の際に問題になります。
📋 表記ゆれの例(※横スクロールできます)
【表記ゆれの例】
■ 会社名
株式会社ABC
(株)ABC
ABC株式会社
ABC
㈱ABC
→ すべて同じ会社なのに、集計すると5社になる!
■ 商品名
アイフォン
iPhone
iphone
I-phone
→ すべて同じ商品なのに、別商品として扱われる!
■ 住所
東京都千代田区
千代田区
東京都 千代田区
東京 千代田区
■ 単位
円
¥
¥
YEN
📊 表記ゆれの修正方法(※横スクロールできます)
【表記ゆれの修正方法】
■ 方法1: 検索と置換
1. [ホーム] → [検索と選択] → [置換]
2. 検索する文字列: (株)
3. 置換後の文字列: 株式会社
4. [すべて置換]
応用: 複数パターンを一度に置換
(株) → 株式会社
㈱ → 株式会社
■ 方法2: SUBSTITUTE関数
=SUBSTITUTE(A1,”(株)”,”株式会社”)
複数置換:
=SUBSTITUTE(SUBSTITUTE(A1,”(株)”,”株式会社”),”㈱”,”株式会社”)
■ 方法3: マスタテーブルを使う
準備:
元の表記 正しい表記
iPhone iPhone
アイフォン iPhone
iphone iPhone
I-phone iPhone
数式:
=VLOOKUP(A1,マスタ範囲,2,FALSE)
メリット: 一元管理できる
■ 方法4: 手動で確認・修正
重要データの場合:
1. ユニークな値を抽出(UNIQUE関数またはピボット)
2. 1つずつ確認
3. 正しい表記に統一
💡 表記ゆれを防ぐ工夫
1. 入力規則を設定
リストから選択式にする → 表記ゆれが起きない
2. マスタデータを用意
正式名称のリストを作り、VLOOKUPで参照
3. 入力ルールを決める
「株式会社は正式名称で、(株)は使わない」など
4. 定期的にチェック
ピボットテーブルでユニーク値を確認
予防が一番大事!入力時点で正しく入れる仕組みを作る
🔧 7. 実践的なクレンジング手順
実際の業務では、以下の標準的な手順でデータクレンジングを進めます。
📋 データクレンジングの標準手順(※横スクロールできます)
【データクレンジングの標準手順】
ステップ1: データの全体確認(10分)
□ データの行数・列数を確認
□ 各列のデータ型を確認
□ 明らかな異常値がないか確認
□ サンプルとして最初と最後の数行を確認
ステップ2: バックアップ(1分)
□ 元データを別シートにコピー
□ シート名: 「元データ」「作業用」など
ステップ3: 基本的なクレンジング(30分)
□ 余分なスペースの削除(TRIM関数)
□ 全角半角の統一(ASC/JIS関数)
□ 大文字小文字の統一(UPPER/LOWER/PROPER関数)
□ 改行コードの削除
ステップ4: 重複チェック(15分)
□ 重複の検出(条件付き書式)
□ 重複の確認(本当に重複か?)
□ 重複の削除(必要に応じて)
ステップ5: 欠損値の処理(20分)
□ 空白セルの検出
□ 欠損値の処理方針決定
・削除/補完/「不明」記入
□ 処理の実行と記録
ステップ6: データ型の統一(15分)
□ 数値型への変換
□ 日付型への変換
□ 表示形式の統一
ステップ7: 外れ値のチェック(20分)
□ 並べ替えで確認
□ 統計量で確認(最大、最小、平均)
□ 外れ値の処理
ステップ8: 表記ゆれの修正(30分)
□ ユニーク値の抽出
□ 表記ゆれの発見
□ 検索置換またはSUBSTITUTE関数で修正
ステップ9: 最終確認(15分)
□ サマリー統計を確認
□ ピボットテーブルで集計確認
□ サンプルデータで目視確認
□ データ件数の確認(減っていないか?)
ステップ10: ドキュメント化(10分)
□ 何をしたかを記録
□ 削除したデータの記録
□ 補完・修正したデータの記録
合計: 約2.5~3時間(データ量による)
📊 実践例: 顧客データのクレンジング(※横スクロールできます)
【実践例: 顧客データのクレンジング】
元データ(1000行):
問題だらけのデータ
クレンジング実施:
【ステップ1: 確認】
・1000行、10列
・顧客名、住所、電話、メール、購入額など
・明らかな異常値: 購入額に9999999999円
【ステップ2: バックアップ】
・シート「元データ」にコピー
・作業はシート「クレンジング中」で実施
【ステップ3: 基本クレンジング】
・補助列で =TRIM(A2) を実行
・全角数字を半角に =ASC(E2)
・メールアドレスを小文字に =LOWER(D2)
【ステップ4: 重複チェック】
・顧客名+メールで重複検出
・50件の重複を発見
・確認後、重複を削除 → 950行
【ステップ5: 欠損値処理】
・電話番号の空白: 50件
→ 「未登録」と記入
・住所の空白: 5件
→ 顧客台帳から確認して入力
【ステップ6: データ型統一】
・購入額を数値型に変換
・購入日を日付型に変換
・電話番号を文字列型に統一
【ステップ7: 外れ値チェック】
・購入額の最大値: 9999999999円 → 異常
→ 元データ確認: 999,999円の入力ミス
→ 修正
【ステップ8: 表記ゆれ修正】
・都道府県名:
「東京都」「東京」「Tokyo」→「東京都」に統一
・会社名:
「(株)」「㈱」→「株式会社」に統一
【ステップ9: 最終確認】
・データ件数: 950行(重複50件を削除)
・購入額の合計: 正常値
・ピボットテーブルで都道府県別集計 → OK
【ステップ10: ドキュメント化】
記録:
– 重複50件削除
– 電話番号の空白50件は「未登録」
– 住所の空白5件は台帳から補完
– 購入額の外れ値1件を修正
– 表記ゆれを統一(都道府県、会社名)
完了!
📝 練習問題
練習 1
初級
余分なスペースを削除してください
データ:
顧客名
” 田中太郎 ” (前後にスペース)
“佐藤 花子” (間に2つスペース)
“鈴木一郎”
要件:
TRIM関数を使ってすべてのスペースを適切に削除
手順:
1. 補助列(B列)を作成
2. B2に数式: =TRIM(A2)
3. B2をB4までコピー
結果:
B2: “田中太郎” (前後のスペース削除)
B3: “佐藤 花子” (間のスペースは1つに)
B4: “鈴木一郎” (変更なし)
4. B列をコピー
5. A列を選択
6. [ホーム] → [貼り付け] → [値のみ貼り付け]
7. B列を削除
TRIM関数のポイント:
TRIM関数は以下を実行します:
✓ 先頭のスペースを削除
✓ 末尾のスペースを削除
✓ 単語間の連続スペースを1つに削減
データクレンジングの最初の一手として必ず実行しましょう!
練習 2
中級
重複データを見つけて削除してください
データ:
顧客名 メール
田中太郎 tanaka@example.com
佐藤花子 sato@example.com
田中太郎 tanaka@example.com
鈴木一郎 suzuki@example.com
佐藤花子 sato@example.com
要件:
1. 重複を色で強調
2. 重複を削除(最初のデータを残す)
手順:
【重複の強調】
1. データ範囲(A2:B6)を選択
2. [ホーム] → [条件付き書式]
3. [セルの強調表示ルール] → [重複する値]
4. 書式: 薄い赤の塗りつぶし
5. [OK]
結果:
田中太郎の2行が赤く
佐藤花子の2行が赤く表示される
【重複の削除】
6. データ範囲(A1:B6 ヘッダー含む)を選択
7. [データ] → [重複の削除]
8. 列の選択:
☑ 顧客名
☑ メール
9. [OK]
メッセージ:
「2個の重複する値が見つかり削除されました。
3個の一意の値が残りました。」
最終結果:
顧客名 メール
田中太郎 tanaka@example.com
佐藤花子 sato@example.com
鈴木一郎 suzuki@example.com
3行のみ残る(重複2件削除)
注意点:
重複削除は元に戻せません!必ず以下を確認:
✓ バックアップを取った
✓ 本当に重複か確認した(同姓同名の別人ではないか)
✓ 最初のデータを残すルールで問題ないか
練習 3
中級
表記ゆれを修正してください
データ:
会社名
株式会社ABC
(株)ABC
㈱ABC
ABC株式会社
要件:
すべて「株式会社ABC」に統一してください
手順:
【方法1: 検索と置換】
1. Ctrl+H で「検索と置換」を開く
2. 検索: (株)ABC → 置換: 株式会社ABC → すべて置換
3. 検索: ㈱ABC → 置換: 株式会社ABC → すべて置換
4. 検索: ABC株式会社 → 置換: 株式会社ABC → すべて置換
【方法2: SUBSTITUTE関数】
補助列に以下の数式を入力:
=SUBSTITUTE(
SUBSTITUTE(
SUBSTITUTE(
SUBSTITUTE(A2,”(株)ABC”,”株式会社ABC”),
“㈱ABC”,”株式会社ABC”),
“ABC株式会社”,”株式会社ABC”),
“(株)ABC”,”株式会社ABC”)
結果:
すべて「株式会社ABC」に統一される
ポイント:
SUBSTITUTEをネストすると、複数パターンを一度に置換できます。
ただし、複雑になりすぎる場合は「検索と置換」を複数回実行する方がわかりやすいこともあります。
練習 4
上級
総合クレンジング:複数の問題を一度に解決してください
データ:
商品名 売上 在庫
” iPhone ” “1000000” 50
アイフォン 1500000
I-Phone “2000000” 999999
iPhone 1200000 30
問題:
1. 商品名に余分なスペース
2. 商品名の表記ゆれ
3. 売上が文字列と数値が混在
4. 在庫に明らかな外れ値
5. 在庫の欠損値
要件:
すべての問題を修正して、綺麗なデータにしてください
総合クレンジング手順:
【準備】
1. 元データを別シートにコピー
2. 作業用シートで以下を実施
【ステップ1: 商品名のクレンジング】
補助列(D列)に数式:
=SUBSTITUTE(
SUBSTITUTE(
SUBSTITUTE(TRIM(A2),”アイフォン”,”iPhone”),
“I-Phone”,”iPhone”),
” “,””)
結果:
D2: iPhone
D3: iPhone
D4: iPhone
D5: iPhone
【ステップ2: 売上の数値化】
補助列(E列)に数式:
=VALUE(B2)
または、B列全体を選択して:
[データ] → [区切り位置] → [完了]
結果:
E2: 1000000 (数値)
E3: 1500000 (数値)
E4: 2000000 (数値)
E5: 1200000 (数値)
【ステップ3: 在庫の外れ値処理】
補助列(F列)に数式:
=IF(C2>10000,”エラー”,C2)
結果:
F2: 50
F3: (空白) → 手動で「0」または平均値
F4: エラー → 元データ確認後修正
F5: 30
【ステップ4: データの確定】
1. D列をコピー → A列に値貼り付け
2. E列をコピー → B列に値貼り付け
3. F列の値を確認・修正後 → C列に値貼り付け
4. 補助列(D, E, F)を削除
【最終結果】
商品名 売上 在庫
iPhone 1,000,000 50
iPhone 1,500,000 0 (補完)
iPhone 2,000,000 50 (修正後)
iPhone 1,200,000 30
【検証】
✓ 商品名: すべて「iPhone」に統一
✓ 売上: すべて数値型
✓ 在庫: 外れ値を修正、欠損値を補完
✓ データ型: 適切に設定
✓ SUM(B:B) が正しく計算できる
クレンジングのポイント:
■ 複雑な処理は補助列で段階的に
→ 一度にすべて処理せず、確認しながら
■ 処理後は必ず検証
→ サンプルで目視確認
→ SUM, AVERAGEなどで計算確認
→ ピボットテーブルで集計確認
■ 記録を残す
→ 何をどう修正したか記録する
📝 Step 47 のまとめ
✅ このステップで学んだこと
- データクレンジングの重要性: 分析の70%を占める重要工程
- 重複データ処理: 検出、確認、削除の手順
- 欠損値処理: 削除、補完、記録の方法
- 外れ値検出: 統計的手法と対処方法
- データ型統一: 文字列→数値、全角→半角など
- 表記ゆれ修正: SUBSTITUTE、検索置換の活用
- 実践的な手順: 10ステップの標準プロセス
🎯 実務での重要ポイント
1. 元データは必ず残す
→ バックアップなしにクレンジングしない
2. 記録を残す
→ 何をどう処理したか必ずメモ
3. 段階的に進める
→ 一度にすべて処理せず、確認しながら
4. 検証を怠らない
→ 処理後のデータが正しいか必ず確認
5. 予防が最重要
→ 入力時点で正しいデータを入れる仕組みを作る
🎯 次のステップの予告
データクレンジングの総合演習をマスターしました!次のSTEP 48では、「Googleスプレッドシート固有機能(QUERY/IMPORTRANGE)」を学びます。SQLのような強力な関数を習得します。
❓ よくある質問
Q1: データクレンジングにどれくらい時間をかけるべきですか?
データ分析全体の70%程度をクレンジングに使うのが一般的です。
目安:
・簡単なデータ(100行): 30分~1時間
・中規模データ(1,000行): 2~3時間
・大規模データ(10,000行以上): 1日以上
クレンジングに時間をかければかけるほど、後の分析が楽になります。
Q2: 元データは必ず残すべきですか?
はい、必ず残してください!
理由:
✓ クレンジングで間違えた場合に戻れる
✓ 処理内容を後で確認できる
✓ 他の方法を試したい時に使える
✓ 上司や同僚に元データを見せる必要がある
方法: 別シートにコピー(シート名「元データ」)
Q3: 自動化できますか?
ある程度は可能ですが、完全自動化は難しいです。
自動化できる部分:
・TRIM関数でスペース削除
・VALUE関数で数値化
・SUBSTITUTE関数で置換
・重複の削除
人間の判断が必要な部分:
・外れ値が本当に異常か?
・欠損値をどう処理するか?
・表記ゆれのパターン発見
Q4: クレンジング済みかどうか確認する方法は?
以下のチェックリストで確認してください:
□ 重複がない(または意図的に残している)
□ 空白セルが処理されている
□ 外れ値がない(または理由が明確)
□ データ型が統一されている
□ 表記ゆれがない
□ 余分なスペースがない
□ SUM、AVERAGEなどが正しく計算できる
□ 並べ替えが正しく動作する
すべて✓なら、クレンジング完了です!
Q5: クレンジングのスキルを上げるには?
実践あるのみ!数をこなすことが一番の上達法です。
おすすめの練習:
1. Kaggleなどの公開データセットを使う
2. 自分の業務データで練習する
3. わざと汚いデータを作って練習
4. 他の人のクレンジング方法を見る
クレンジングスキルは、データ分析の最重要スキルです!
Q6: GoogleスプレッドシートでもExcelと同じ方法でクレンジングできますか?
はい、基本的には同じです。
共通で使える機能:
✓ TRIM、VALUE、SUBSTITUTE関数
✓ ASC関数(全角→半角)
✓ 条件付き書式
✓ フィルター機能
Googleスプレッドシート特有:
✓ 重複削除:「データ」→「データクリーンアップ」→「重複を削除」
✓ UNIQUE関数が標準で使える
✓ QUERY関数でSQL的なクレンジングも可能
Q7: 大量データ(10万行以上)のクレンジングはExcelでできますか?
できますが、注意が必要です。
Excel/Googleスプレッドシートの限界:
・Excelの行数上限: 約104万行
・大量の関数は処理が重くなる
・メモリ不足でクラッシュの可能性
大量データの場合の対処:
✓ データを分割して処理
✓ 関数ではなく「区切り位置」機能を使う
✓ Power Query(Excel)を使う
✓ PythonやRなどのプログラミング言語を検討
10万行を超える場合は、専用ツールの検討をおすすめします。
artnasekai
#artnasekai #学習メモ