情報処理試験を勉強していると、「データクレンジングって、ただのデータ修正と何が違うの?」と疑問に思うことがあるはずです。

この記事では、データクレンジングの意味と目的を日常の例え話で噛み砕き、試験で問われるポイントまで一気に整理します。

対象試験と出題頻度

データクレンジングは、ITパスポート・基本情報技術者・応用情報技術者のいずれでも出題されるテーマです。

データサイエンスデータウェアハウス構築に関連した出題の中で、他の用語との違いを正確に選べるかが問われます。

詳細をクリックして確認
対象試験:
ITパスポート
基本情報技術者
応用情報技術者
出題頻度:
★★★☆☆
ランクB(標準)覚えておくと有利

用語の定義

データクレンジング(Data Cleansing)とは、一言で言うと

 「データの重複・表記ゆれ・欠損値・異常値などを検出し、修正・統一してデータ品質を高める処理

のことです。

イメージとしては、引っ越し前の荷物整理です。

押入れに詰め込んだダンボール箱の中には、同じ物が2つ入っていたり、ラベルが剥がれて中身が分からなくなった箱があったりします。

新居に運ぶ前に、重複を捨て、ラベルを貼り直し、壊れた物は修理する。この「整理・修正」の作業がデータクレンジングに当たります。

📊 データクレンジングの基本情報

項目 内容
英語名 Data Cleansing(Data Scrubbing とも呼ばれる)
和訳 データ洗浄
分類 テクノロジ系 > データベース > データベース応用
主な対象 重複データ、表記ゆれ、欠損値、異常値、コード体系の不統一

解説

企業が長年運用してきた業務システムには、部署ごとに異なるコード体系で登録された商品データや、全角・半角が混在した住所データなどが大量に蓄積されています。

こうした「汚れた」データをそのまま分析に使うと、集計結果が狂い、意思決定を誤る原因になります。

この問題を解決するのがデータクレンジングです。具体的には、次の4つの作業を行います。

作業 内容 具体例
データ形式の統一 異なるフォーマットを1つに揃える 日付が「2025/01/01」と「20250101」で混在 → 統一
欠損値の補完 抜け落ちた値を適切な方法で埋める 郵便番号が空欄 → 住所から逆引きして補完
重複の排除 同一データが複数存在する状態を解消する 「山田太郎」と「ヤマダタロウ」が別人として二重登録 → 統合
異常値の処理 明らかに不正な値を除去または修正する 年齢欄に「999」→ 削除または正しい値に修正

図解:データクレンジングの処理フロー

データクレンジングの処理イメージ

汚れたデータ

・重複あり
・表記ゆれ
・欠損値
・異常値

クレンジング処理

・形式の統一
・欠損値の補完
・重複の排除
・異常値の除去

整ったデータ

・統一フォーマット
・欠損なし
・重複なし
・分析可能な状態

▲ 複数システムから抽出した生データを、分析やデータウェアハウスに格納できる状態に変換する

ETL処理との関係

データウェアハウスの構築現場では、ETL(Extract・Transform・Load)という3ステップでデータを移行します。

Extract(抽出)で複数のシステムからデータを取り出し、Transform(変換)の工程でデータクレンジングを実施し、Load(書き出し)でデータウェアハウスに格納します。

つまり、データクレンジングはETLの「T」に含まれる中心作業です。

ETLとデータクレンジングの関係

E

Extract
(抽出)

T

Transform
(変換・加工)

← ここでクレンジング

L

Load
(書き出し)

では、この用語が試験でどのように出題されるか見ていきましょう。

💡 データクレンジングの核心を3行で

・データの重複・表記ゆれ・欠損値・異常値を修正し、品質を高める処理
・データウェアハウス構築時にはETLのTransform工程で実施される
・「データの形式統一」「欠損値の補完」「コード体系の統一」がキーワード


試験ではこう出る!

データクレンジングは、AP・DB試験の午前問題でデータウェアハウス関連の問題として繰り返し出題されています。IPでは不正解選択肢として登場する形式が確認されています。

📊 過去問での出題実績

試験回 出題内容 問われたポイント
AP H22秋
午前 問28
データウェアハウス構築のためにデータ属性やコード体系を統一する処理を選ぶ問題 ・正解が「データクレンジング」
・ダイス、ドリルダウン、ロールアップがひっかけ
DB H24春
午前II 問20
上記AP H22秋 問28と同一構成の問題(流用) ・クラスタリング、スライシング、ダイシングがひっかけ
・APとDBで同じ問題が出回る典型例
AP H24秋
午前 問29
データウェアハウスへの取り込みツール(ETL)を選ぶ問題 ・解説でTransform工程=クレンジングと明記
・ETLとの関係を理解しているか問う
IP R6
問63
SSDの全データ消去方法を選ぶ問題 ・不正解選択肢としてデータクレンジングが登場
・「データ消去」と「データ洗浄」を区別できるか

📝 IPA試験での出題パターン

パターン1:「データウェアハウス構築時の処理名を選べ」
「データ属性やコード体系を統一する処理は何か」と問われ、正解がデータクレンジング。ダイス・スライス・ドリルダウン・ロールアップなどOLAP操作系の用語がひっかけとして並ぶ。ここだけは確実に押さえてください。

 

パターン2:「不正解選択肢として登場」
IP R6 問63のように、別の用語が正解の問題で不正解選択肢として登場するパターン。「データの消去」と「データの洗浄」は全く別の処理であるため、文脈を読んで判断する。

 

試験ではここまででOKです。クレンジングの具体的な手法(名寄せアルゴリズムなど)まで問われることはないので、深追いは不要です。


【確認テスト】理解度チェック

ここまでの内容を理解できたか、簡単なクイズで確認してみましょう。


Q. 業務系のデータベースから抽出したデータをデータウェアハウスに格納するために、データ属性やコード体系を統一する処理として、最も適切なものはどれでしょうか?

  • A. データの重複・表記ゆれ・欠損値などを修正し、データ形式やコード体系を統一する処理である。
  • B. 多次元データベースの中から縦軸と横軸を指定して、2次元の表を作成する操作である。
  • C. 多次元データベースにおいて、集計レベルを詳細な方向に展開していく操作である。

正解と解説を見る

正解:A

解説:
データクレンジングは、複数の業務システムに蓄積されたバラバラな形式のデータを、分析やデータウェアハウスで使える状態に整える処理です。AP H22秋 午前問28やDB H24春 午前II問20で繰り返し出題されています。

選択肢Bはダイシング(Dicing)の説明です。多次元データベースの軸を入れ替えて違う切り口の表を作る操作であり、データの品質を改善する処理ではありません。選択肢Cはドリルダウン(Drill Down)の説明です。集計単位を四半期→月→日のように細かくしていく操作であり、こちらもデータの修正・統一とは無関係です。


よくある質問(FAQ)

Q. データクレンジングと名寄せは同じ意味ですか?

名寄せは、データクレンジングの作業の一部です。名寄せは「同一の人物・企業が異なる表記で複数登録されているものを統合する」処理を指します。たとえば「(株)ABC」と「株式会社ABC」を同一企業として統合する作業が名寄せです。データクレンジングは名寄せに加え、欠損値の補完や異常値の除去なども含む、より広い概念です。

Q. データクレンジングとデータマイグレーションの違いは何ですか?

データマイグレーション(Data Migration)は、あるシステムから別のシステムへデータを移行する作業全体を指します。データクレンジングは移行前にデータ品質を高める工程であり、マイグレーション全体の中の一ステップに位置づけられます。マイグレーション=「引っ越し全体」、クレンジング=「引っ越し前の荷物整理」と考えると区別しやすいです。

Q. 実務ではデータクレンジングにどのくらいの工数がかかりますか?

一般に、データ分析プロジェクト全体の60〜80%の工数がデータの収集と前処理(クレンジングを含む)に費やされると言われています。分析アルゴリズムの選定やモデル構築よりも、データを「使える状態にする」作業のほうが圧倒的に時間がかかるのが実務の現実です。IPA試験の範囲では深掘りされませんが、実務に携わる際には覚えておくと役立ちます。

Q. ダイス・スライス・ドリルダウン・ロールアップとの違いを一言で教えてください。

これらはすべてOLAP(多次元データベースの分析操作)に関する用語です。ダイスは軸の切り替え、スライスは断面の切り出し、ドリルダウンは詳細への掘り下げ、ロールアップは集計の粗粒度化を指します。データクレンジングは「データの品質を高める前処理」であり、分析操作であるこれらとは目的が根本的に異なります。