データクレンジングとは？意味と目的をわかりやすく解説【IPA試験対策】

2026年4月29日

情報処理試験を勉強していると、「データクレンジングって、ただのデータ修正と何が違うの？」と疑問に思うことがあるはずです。

この記事では、データクレンジングの意味と目的を日常の例え話で噛み砕き、試験で問われるポイントまで一気に整理します。

目次 [ close ]

対象試験と出題頻度

データクレンジングは、ITパスポート・基本情報技術者・応用情報技術者のいずれでも出題されるテーマです。

データサイエンスやデータウェアハウス構築に関連した出題の中で、他の用語との違いを正確に選べるかが問われます。

詳細をクリックして確認

対象試験：
ITパスポート
基本情報技術者
応用情報技術者

出題頻度：
★★★☆☆
ランクB（標準）覚えておくと有利

用語の定義

データクレンジング（Data Cleansing）とは、一言で言うと

　「データの重複・表記ゆれ・欠損値・異常値などを検出し、修正・統一してデータ品質を高める処理」

のことです。

イメージとしては、「引っ越し前の荷物整理」です。

押入れに詰め込んだダンボール箱の中には、同じ物が2つ入っていたり、ラベルが剥がれて中身が分からなくなった箱があったりします。

新居に運ぶ前に、重複を捨て、ラベルを貼り直し、壊れた物は修理する。この「整理・修正」の作業がデータクレンジングに当たります。

📊 データクレンジングの基本情報

項目	内容
英語名	Data Cleansing（Data Scrubbing とも呼ばれる）
和訳	データ洗浄
分類	テクノロジ系＞データベース＞データベース応用
主な対象	重複データ、表記ゆれ、欠損値、異常値、コード体系の不統一

解説

企業が長年運用してきた業務システムには、部署ごとに異なるコード体系で登録された商品データや、全角・半角が混在した住所データなどが大量に蓄積されています。

こうした「汚れた」データをそのまま分析に使うと、集計結果が狂い、意思決定を誤る原因になります。

この問題を解決するのがデータクレンジングです。具体的には、次の4つの作業を行います。

作業	内容	具体例
データ形式の統一	異なるフォーマットを1つに揃える	日付が「2025/01/01」と「20250101」で混在 → 統一
欠損値の補完	抜け落ちた値を適切な方法で埋める	郵便番号が空欄 → 住所から逆引きして補完
重複の排除	同一データが複数存在する状態を解消する	「山田太郎」と「ヤマダタロウ」が別人として二重登録 → 統合
異常値の処理	明らかに不正な値を除去または修正する	年齢欄に「999」→ 削除または正しい値に修正

図解：データクレンジングの処理フロー

データクレンジングの処理イメージ

汚れたデータ

・重複あり
・表記ゆれ
・欠損値
・異常値

→

クレンジング処理

・形式の統一
・欠損値の補完
・重複の排除
・異常値の除去

→

整ったデータ

・統一フォーマット
・欠損なし
・重複なし
・分析可能な状態

▲ 複数システムから抽出した生データを、分析やデータウェアハウスに格納できる状態に変換する

ETL処理との関係

データウェアハウスの構築現場では、ETL（Extract・Transform・Load）という3ステップでデータを移行します。

Extract（抽出）で複数のシステムからデータを取り出し、Transform（変換）の工程でデータクレンジングを実施し、Load（書き出し）でデータウェアハウスに格納します。

つまり、データクレンジングはETLの「T」に含まれる中心作業です。

ETLとデータクレンジングの関係

Extract
（抽出）

→

Transform
（変換・加工）

← ここでクレンジング

→

Load
（書き出し）

では、この用語が試験でどのように出題されるか見ていきましょう。

💡 データクレンジングの核心を3行で

・データの重複・表記ゆれ・欠損値・異常値を修正し、品質を高める処理
・データウェアハウス構築時にはETLのTransform工程で実施される
・「データの形式統一」「欠損値の補完」「コード体系の統一」がキーワード

試験ではこう出る！

データクレンジングは、AP・DB試験の午前問題でデータウェアハウス関連の問題として繰り返し出題されています。IPでは不正解選択肢として登場する形式が確認されています。

📊 過去問での出題実績

試験回	出題内容	問われたポイント
AP H22秋午前問28	データウェアハウス構築のためにデータ属性やコード体系を統一する処理を選ぶ問題	・正解が「データクレンジング」・ダイス、ドリルダウン、ロールアップがひっかけ
DB H24春午前II 問20	上記AP H22秋問28と同一構成の問題（流用）	・クラスタリング、スライシング、ダイシングがひっかけ・APとDBで同じ問題が出回る典型例
AP H24秋午前問29	データウェアハウスへの取り込みツール（ETL）を選ぶ問題	・解説でTransform工程＝クレンジングと明記・ETLとの関係を理解しているか問う
IP R6 問63	SSDの全データ消去方法を選ぶ問題	・不正解選択肢としてデータクレンジングが登場・「データ消去」と「データ洗浄」を区別できるか

📝 IPA試験での出題パターン

パターン1：「データウェアハウス構築時の処理名を選べ」
「データ属性やコード体系を統一する処理は何か」と問われ、正解がデータクレンジング。ダイス・スライス・ドリルダウン・ロールアップなどOLAP操作系の用語がひっかけとして並ぶ。ここだけは確実に押さえてください。

パターン2：「不正解選択肢として登場」
IP R6 問63のように、別の用語が正解の問題で不正解選択肢として登場するパターン。「データの消去」と「データの洗浄」は全く別の処理であるため、文脈を読んで判断する。

試験ではここまででOKです。クレンジングの具体的な手法（名寄せアルゴリズムなど）まで問われることはないので、深追いは不要です。

【確認テスト】理解度チェック

ここまでの内容を理解できたか、簡単なクイズで確認してみましょう。

Q. 業務系のデータベースから抽出したデータをデータウェアハウスに格納するために、データ属性やコード体系を統一する処理として、最も適切なものはどれでしょうか？

A. データの重複・表記ゆれ・欠損値などを修正し、データ形式やコード体系を統一する処理である。
B. 多次元データベースの中から縦軸と横軸を指定して、2次元の表を作成する操作である。
C. 多次元データベースにおいて、集計レベルを詳細な方向に展開していく操作である。

正解と解説を見る

正解：A

解説：
データクレンジングは、複数の業務システムに蓄積されたバラバラな形式のデータを、分析やデータウェアハウスで使える状態に整える処理です。AP H22秋午前問28やDB H24春午前II問20で繰り返し出題されています。

選択肢Bはダイシング（Dicing）の説明です。多次元データベースの軸を入れ替えて違う切り口の表を作る操作であり、データの品質を改善する処理ではありません。選択肢Cはドリルダウン（Drill Down）の説明です。集計単位を四半期→月→日のように細かくしていく操作であり、こちらもデータの修正・統一とは無関係です。

よくある質問（FAQ）

Q. データクレンジングと名寄せは同じ意味ですか？

名寄せは、データクレンジングの作業の一部です。名寄せは「同一の人物・企業が異なる表記で複数登録されているものを統合する」処理を指します。たとえば「（株）ABC」と「株式会社ABC」を同一企業として統合する作業が名寄せです。データクレンジングは名寄せに加え、欠損値の補完や異常値の除去なども含む、より広い概念です。

Q. データクレンジングとデータマイグレーションの違いは何ですか？

データマイグレーション（Data Migration）は、あるシステムから別のシステムへデータを移行する作業全体を指します。データクレンジングは移行前にデータ品質を高める工程であり、マイグレーション全体の中の一ステップに位置づけられます。マイグレーション＝「引っ越し全体」、クレンジング＝「引っ越し前の荷物整理」と考えると区別しやすいです。

Q. 実務ではデータクレンジングにどのくらいの工数がかかりますか？

一般に、データ分析プロジェクト全体の60〜80%の工数がデータの収集と前処理（クレンジングを含む）に費やされると言われています。分析アルゴリズムの選定やモデル構築よりも、データを「使える状態にする」作業のほうが圧倒的に時間がかかるのが実務の現実です。IPA試験の範囲では深掘りされませんが、実務に携わる際には覚えておくと役立ちます。

Q. ダイス・スライス・ドリルダウン・ロールアップとの違いを一言で教えてください。

これらはすべてOLAP（多次元データベースの分析操作）に関する用語です。ダイスは軸の切り替え、スライスは断面の切り出し、ドリルダウンは詳細への掘り下げ、ロールアップは集計の粗粒度化を指します。データクレンジングは「データの品質を高める前処理」であり、分析操作であるこれらとは目的が根本的に異なります。