Step 31:重複の削除と空白セルの処理

🧹 Step 31: 重複の削除と空白セルの処理

データをクリーンアップして品質を向上させよう!

📋 このステップで学ぶこと

  • データクレンジングの基本概念と重要性
  • 条件付き書式で重複データを検出する方法
  • 重複の削除機能の使い方と注意点
  • 空白セルの検索と3つの処理方法
  • 実務での活用例とよくある間違い

🎯 1. データクレンジングとは

データクレンジングとは、データの誤りや不要な情報を取り除き、データの品質を高める作業です。重複データや空白セルがあると、正確な分析ができません。

🔑 データクレンジングを一言で言うと

汚れたデータをきれいにする」作業です。洗濯物を洗濯するように、データも「洗う」ことで使いやすくなります。
📊 データクレンジングの必要性
❌ クレンジング前(問題あり)
名前 部署 売上高
田中 営業 1500
田中 営業 1500
佐藤 1200
鈴木 営業
発生する問題
  • 🔄 重複データ(田中が2回)
  • ⚪ 空白セル(部署・売上高)
  • 📊 合計が不正確になる
  • 🔍 検索・分析が困難
⬇ データクレンジング実行
✅ クレンジング後(正常)
名前 部署 売上高
田中 営業 1500
佐藤 開発 1200
鈴木 営業 2000
改善された点
  • ✓ 重複が削除された
  • ✓ 空白が補完された
  • ✓ 正確な集計が可能
  • ✓ 分析しやすいデータ
💡 日常生活での例

名簿を整理するときを想像してください。同じ人が2回登録されていたり、住所が空欄だったりすると困りますよね。データクレンジングは、そうした不備を見つけて修正する作業です。

📝 2. 重複データの検出

まず、データに重複があるかどうかを視覚的に確認します。条件付き書式を使うと、重複しているセルを自動で色付けできます。

📌 重複を強調表示する手順

1. データ範囲を選択
2. ホームタブ → 条件付き書式
3. セルの強調表示ルール → 重複する値
4. 書式を選択(デフォルトは薄い赤の塗りつぶし)
5. OK

→ 重複しているセルが色付けされる
📊 重複の強調表示イメージ
商品コード 商品名 価格
A001 ノートPC 80000
A001 ノートPC 80000
A002 デスクトップ 60000
A001 ノートPC 80000
🔄 赤く表示 = 重複データ
A001が3回登場しています
🎯 重複検出のメリット

いきなり削除するのではなく、まず「どこに重複があるか」を目で確認できます。意図しないデータを削除してしまうリスクを減らせます。

📝 3. 重複の削除

重複データを自動的に削除する機能です。最初に見つかった行が残り、それ以降の重複行が削除されます。

📌 重複の削除手順

1. データ範囲を選択(ヘッダー含む)
2. データタブ → 重複の削除
3. 重複チェックに使用する列を選択(通常は全列を選択)
4. 「先頭行をデータの見出しとして使用する」にチェック
5. OK

→ 重複行が削除され、何件削除されたか表示される
📊 重複削除の動作イメージ
削除前(5件)
名前 メール
田中太郎 tanaka@example.com
田中太郎 tanaka@example.com
佐藤花子 sato@example.com
田中太郎 tanaka@example.com
鈴木一郎 suzuki@example.com
⬇ 重複の削除実行
削除後(3件)
名前 メール
田中太郎 tanaka@example.com
佐藤花子 sato@example.com
鈴木一郎 suzuki@example.com
削除結果
2個の重複する値が見つかり、削除されました
⚠️ 重要な注意点

重複の削除は元に戻せません(Ctrl+Zで戻せるのは直後のみ)。実行前に必ずデータのバックアップを取るか、別のシートにコピーしてから作業してください。最初に見つかった行が残り、それ以降の重複行が削除されます。

📝 4. 特定列だけで重複判定

全ての列ではなく、特定の列だけで重複判定することもできます。例えば「メールアドレスが同じなら重複」と判定したい場合に使います。

📝 特定列での重複判定の例(※横スクロールできます)

【例:メールアドレスだけで重複判定】 データ: A列 B列 C列 +———-+—————-+——–+ 1 | 名前 | メール | 部署 | +———-+—————-+——–+ 2 | 田中太郎 | tanaka@ex.com | 営業 | +———-+—————-+——–+ 3 | 田中太郎 | tanaka@ex.com | 開発 | ← メールが同じ +———-+—————-+——–+ 4 | 佐藤花子 | sato@ex.com | 総務 | +———-+—————-+——–+ ■ 「メール」列だけで重複判定した場合: → 行3が削除される(メールアドレスが重複) ■ 全列で重複判定した場合: → 削除されない(名前・メールは同じだが部署が違う)
📊 重複判定の列選択
重複の削除ダイアログ
重複チェックに使用する列:
💡 メール列だけで判定 → 同じメールアドレスの行が削除される
🎯 列選択のポイント

全列を選択:完全に同じ行だけを削除
特定列を選択:その列の値が同じなら削除(他の列が違っても)

どちらを使うかは、データの性質と目的によって決めましょう。

📝 5. 空白セルの検索

データに空白セルがあるかどうかを見つける方法です。「条件を選択してジャンプ」機能を使います。

📌 空白セルの検索手順

1. データ範囲を選択
2. ホームタブ → 検索と選択 → 条件を選択してジャンプ
3. 空白セルを選択
4. OK

→ 空白セルがすべて選択される
📊 空白セルの検索イメージ
名前 部署 電話番号
田中 営業 03-1234-5678
佐藤 03-2345-6789
鈴木 開発
伊藤 総務 03-3456-7890
検索結果
2個の空白セルが見つかりました
💡 ショートカットキー

Ctrl + G → 「セル選択」→「空白セル」でも同じ操作ができます。
Googleスプレッドシートでは、フィルター機能を使って空白セルを表示します。

📝 6. 空白セルの処理方法

見つけた空白セルを処理する3つの方法を学びます。状況に応じて使い分けましょう。

📊 空白セル処理の3つの方法
方法1:固定値で埋める
1. 空白セルを選択(条件を選択してジャンプ)
2. 「不明」または「0」などと入力
3. Ctrl + Enter で一括入力
→ すべての空白セルに同じ値が入る
方法2:上のセルの値をコピー
1. 空白セルを選択
2. =(イコール)を入力
3. 上のセルを参照(例:=A1)
4. Ctrl + Enter
→ 上のセルの値が自動入力される
方法3:空白行を削除
1. データタブ → フィルター
2. 該当列の▼ → 空白のみ表示
3. 表示された行を選択して削除
4. フィルターを解除
→ 空白のある行が完全に削除される

📝 実例:部署の空白を「未配属」で埋める(※横スクロールできます)

【手順】 1. データ範囲を選択(B2:B10など) 2. ホームタブ → 検索と選択 → 条件を選択してジャンプ 3. 空白セル → OK 4. 「未配属」と入力(最初の空白セルに入力される) 5. Ctrl + Enter(選択中のすべての空白セルに入力) 【結果】 全ての空白セルに「未配属」が入力される 【Before】 【After】 名前 部署 名前 部署 田中 営業 田中 営業 佐藤 (空白) → 佐藤 未配属 鈴木 開発 鈴木 開発 伊藤 (空白) 伊藤 未配属
🎯 Ctrl + Enter のすごいところ

通常のEnterは1つのセルにしか入力できませんが、Ctrl + Enterを使うと、選択中のすべてのセルに同じ値を一括入力できます。100個の空白セルも一瞬で埋められます!

📝 7. 実務での活用例

データクレンジングは、さまざまなビジネスシーンで活用されています。

📊 実務での活用シーン
📦 商品マスタの整備
課題:同じ商品コードのデータが重複している
対応:商品コード列で重複削除
効果:在庫管理が正確になる
👥 顧客データの統合
課題:複数のファイルを統合したら重複が発生
対応:顧客ID列で重複削除
効果:正確な顧客数を把握できる
📊 売上データの補完
課題:一部の日付データが空白
対応:空白セルを検索して手動で確認・入力
効果:正確な売上分析が可能

⚠️ 8. よくある間違いと注意点

📝 よくある間違い(※横スクロールできます)

【よくある間違い】 ❌ 間違い1:バックアップを取らずに重複削除 → 元に戻せない ✅ 正しい: 削除前に必ずデータをコピーまたはファイルを保存 ❌ 間違い2:全列で判定すべきところを一部の列だけで判定 → 必要なデータまで削除される ✅ 正しい: どの列で重複判定するか慎重に決める ❌ 間違い3:空白セルに何でも0を入れる → 「データがない」と「0」は意味が違う ✅ 正しい: 空白の意味を考えて適切な値を入力 (不明、未入力、N/A、-(ハイフン)など) ❌ 間違い4:数式で作った空白セルが検出されない → 数式が入っているセルは「空白」ではない ✅ 対応: =IF(A1=””,””,A1) のように数式が入っている場合、 見た目は空白でも実際には数式が入っている → 値貼り付けで数式を値に変換してから検索
⚠️ 削除は慎重に

重複削除や行削除は元に戻せません(直後のCtrl+Zを除く)。特に重要なデータの場合は、まず別のシートにコピーしてから作業するか、削除前にファイル全体をバックアップしてください。
💡 「空白」と「0」の違いを理解しよう

空白(データなし):まだ入力されていない、情報がない
0(ゼロ):数値として「0」という値がある

例えば売上データで「空白」は「未記録」、「0」は「売上なし」を意味します。状況に応じて適切な値を選びましょう。

📝 練習問題

練習 1
初級

条件付き書式を使って重複データを赤色で強調表示してください

📝 表(※横スクロールできます)

A列 1 商品コード 2 A001 3 A002 4 A001 5 A003 6 A002

操作手順:

  1. A2:A6を選択
  2. ホームタブ → 条件付き書式
  3. セルの強調表示ルール → 重複する値
  4. 書式を選択(デフォルトの赤)
  5. OK

結果:

A001とA002が赤く表示されます(それぞれ2回ずつ登場するため)。A003は1回だけなので色がつきません。

練習 2
中級

メールアドレス列だけで重複を判定して削除してください

📝 表(※横スクロールできます)

A列 B列 1 名前 メール 2 田中 tanaka@ex.com 3 佐藤 tanaka@ex.com 4 鈴木 suzuki@ex.com

操作手順:

  1. A1:B4を選択
  2. データタブ → 重複の削除
  3. 「先頭行をデータの見出しとして使用する」にチェック
  4. 「メール」列だけにチェックを入れる(「名前」のチェックを外す)
  5. OK

結果:

A列 B列 1 名前 メール 2 田中 tanaka@ex.com 4 鈴木 suzuki@ex.com

解説:

行3(佐藤)が削除されます。メールアドレスが田中と同じため、重複と判定されました。名前が違っても、メール列だけで判定しているので削除されます。

練習 3
中級

部署列の空白セルをすべて「未配属」で埋めてください

📝 表(※横スクロールできます)

A列 B列 1 名前 部署 2 田中 営業 3 佐藤 (空白) 4 鈴木 開発 5 伊藤 (空白)

操作手順:

  1. B2:B5を選択
  2. ホームタブ → 検索と選択 → 条件を選択してジャンプ
  3. 空白セルを選択 → OK
  4. 「未配属」と入力
  5. Ctrl + Enter

結果:

A列 B列 1 名前 部署 2 田中 営業 3 佐藤 未配属 4 鈴木 開発 5 伊藤 未配属

解説:

B3とB5の空白セルに「未配属」が一括入力されました。Ctrl + Enterで選択中のすべてのセルに同じ値を入力できます。

練習 4
上級

空白セルに上のセルと同じ値を入力してください

📝 表(※横スクロールできます)

A列 B列 1 カテゴリ 商品名 2 家電 テレビ 3 (空白) 冷蔵庫 4 (空白) 洗濯機 5 食品 パン 6 (空白) 牛乳

操作手順:

  1. A2:A6を選択
  2. ホームタブ → 検索と選択 → 条件を選択してジャンプ
  3. 空白セルを選択 → OK
  4. 「=A2」と入力(最初の空白セルA3に対して、上のセルA2を参照)
  5. Ctrl + Enter

結果:

A列 B列 1 カテゴリ 商品名 2 家電 テレビ 3 家電 冷蔵庫 4 家電 洗濯機 5 食品 パン 6 食品 牛乳

解説:

各空白セルに上のセルの値がコピーされました。これは「空白を上のセルの値で埋める」典型的なパターンです。データが結合されていたり、カテゴリごとに一度だけ値が入力されている場合に便利です。

練習 5
上級

重複を検出して削除し、さらに空白セルを「N/A」で埋めてください

📝 表(※横スクロールできます)

A列 B列 C列 1 ID 名前 電話番号 2 001 田中 03-1234-5678 3 002 佐藤 (空白) 4 001 田中 03-1234-5678 5 003 鈴木 03-3456-7890

操作手順:

Step 1:重複の削除

  1. A1:C5を選択
  2. データタブ → 重複の削除
  3. すべての列にチェック → OK

Step 2:空白セルの処理

  1. A2:C4を選択(データ部分のみ)
  2. ホームタブ → 検索と選択 → 条件を選択してジャンプ
  3. 空白セルを選択 → OK
  4. 「N/A」と入力
  5. Ctrl + Enter

結果:

A列 B列 C列 1 ID 名前 電話番号 2 001 田中 03-1234-5678 3 002 佐藤 N/A 5 003 鈴木 03-3456-7890

解説:

まず重複(行4)が削除され、次に空白セル(佐藤の電話番号)に「N/A」が入力されました。この順序で作業することで、クリーンなデータが完成します。

📝 Step 31 のまとめ

✅ このステップで学んだこと

🧹 データクレンジング
データの品質を高める作業。重複や空白を除去
🔍 重複の検出
条件付き書式で重複セルを色付けして視覚的に確認
🗑️ 重複の削除
データタブ → 重複の削除で一括削除(要バックアップ)
⬜ 空白セルの検索
条件を選択してジャンプ → 空白セルで一括選択
📝 空白セルの処理
固定値入力、上セルコピー、行削除の3つの方法
⚠️ 注意点
削除前にバックアップ。「空白」と「0」は意味が違う
🎯 次のステップへ

重複の削除と空白セルの処理をマスターしました!次のStep 32では、VLOOKUPの基本構文を学びます。実務で最も使われる重要な関数を習得します。

❓ よくある質問

Q1: 重複削除でどの行が残りますか?
最初に見つかった行が残り、それ以降の重複行が削除されます。そのため、重要なデータを含む行を上に配置しておくと安全です。
Q2: 数式が入っているセルは空白セルとして検出されますか?
いいえ、検出されません。=IF(A1="","",A1)のように数式が入っている場合、見た目は空白でも「空白セル」ではありません。このような場合は、まず値貼り付けで数式を値に変換してから検索する必要があります。
Q3: 重複削除を元に戻す方法はありますか?
Ctrl+Zで元に戻せますが、他の操作をした後は戻せません。そのため、必ず削除前にデータをバックアップ(別シートにコピー、ファイル保存など)してください。
Q4: 大文字小文字を区別して重複判定できますか?
Excelの重複削除機能は大文字小文字を区別しません。”ABC”と”abc”は同じとみなされます。大文字小文字を区別したい場合は、EXACT関数などを使った別の方法が必要です。
Q5: 空白セルを0で埋めてもいいですか?
慎重に判断してください。「データがない(空白)」と「0」は意味が異なります。例えば売上が「空白」は未記録、「0」は売上なしを意味します。状況に応じて「不明」「N/A」「-」なども検討しましょう。
Q6: Googleスプレッドシートでも同じ操作ができますか?
はい、ほぼ同じように使えます。重複の削除は「データ」→「データクリーンアップ」→「重複を削除」です。空白セルの検索は、フィルター機能を使って「(空白)」を選択して表示します。
Q7: 重複を削除せずに、重複の数だけ知りたい場合は?
COUNTIF関数を使います。=COUNTIF(A:A, A2)で、A2の値がA列に何回出現するかカウントできます。2以上なら重複していることがわかります。
📝

学習メモ

Excel・Googleスプレッドシート完全マスター - Step 31

📋 過去のメモ一覧
#artnasekai #学習メモ
LINE