情報処理試験を勉強していると、「データクレンジングって、ただのデータ修正と何が違うの?」と疑問に思うことがあるはずです。
この記事では、データクレンジングの意味と目的を日常の例え話で噛み砕き、試験で問われるポイントまで一気に整理します。
対象試験と出題頻度
データクレンジングは、ITパスポート・基本情報技術者・応用情報技術者のいずれでも出題されるテーマです。
データサイエンスやデータウェアハウス構築に関連した出題の中で、他の用語との違いを正確に選べるかが問われます。
詳細をクリックして確認
ITパスポート
基本情報技術者
応用情報技術者
★★★☆☆
ランクB(標準)覚えておくと有利
用語の定義
データクレンジング(Data Cleansing)とは、一言で言うと
「データの重複・表記ゆれ・欠損値・異常値などを検出し、修正・統一してデータ品質を高める処理」
のことです。
イメージとしては、「引っ越し前の荷物整理」です。
押入れに詰め込んだダンボール箱の中には、同じ物が2つ入っていたり、ラベルが剥がれて中身が分からなくなった箱があったりします。
新居に運ぶ前に、重複を捨て、ラベルを貼り直し、壊れた物は修理する。この「整理・修正」の作業がデータクレンジングに当たります。
📊 データクレンジングの基本情報
| 項目 | 内容 |
|---|---|
| 英語名 | Data Cleansing(Data Scrubbing とも呼ばれる) |
| 和訳 | データ洗浄 |
| 分類 | テクノロジ系 > データベース > データベース応用 |
| 主な対象 | 重複データ、表記ゆれ、欠損値、異常値、コード体系の不統一 |
解説
企業が長年運用してきた業務システムには、部署ごとに異なるコード体系で登録された商品データや、全角・半角が混在した住所データなどが大量に蓄積されています。
こうした「汚れた」データをそのまま分析に使うと、集計結果が狂い、意思決定を誤る原因になります。
この問題を解決するのがデータクレンジングです。具体的には、次の4つの作業を行います。
| 作業 | 内容 | 具体例 |
|---|---|---|
| データ形式の統一 | 異なるフォーマットを1つに揃える | 日付が「2025/01/01」と「20250101」で混在 → 統一 |
| 欠損値の補完 | 抜け落ちた値を適切な方法で埋める | 郵便番号が空欄 → 住所から逆引きして補完 |
| 重複の排除 | 同一データが複数存在する状態を解消する | 「山田太郎」と「ヤマダタロウ」が別人として二重登録 → 統合 |
| 異常値の処理 | 明らかに不正な値を除去または修正する | 年齢欄に「999」→ 削除または正しい値に修正 |
図解:データクレンジングの処理フロー
データクレンジングの処理イメージ
汚れたデータ
・重複あり
・表記ゆれ
・欠損値
・異常値
クレンジング処理
・形式の統一
・欠損値の補完
・重複の排除
・異常値の除去
整ったデータ
・統一フォーマット
・欠損なし
・重複なし
・分析可能な状態
▲ 複数システムから抽出した生データを、分析やデータウェアハウスに格納できる状態に変換する
ETL処理との関係
データウェアハウスの構築現場では、ETL(Extract・Transform・Load)という3ステップでデータを移行します。
Extract(抽出)で複数のシステムからデータを取り出し、Transform(変換)の工程でデータクレンジングを実施し、Load(書き出し)でデータウェアハウスに格納します。
つまり、データクレンジングはETLの「T」に含まれる中心作業です。
ETLとデータクレンジングの関係
E
Extract
(抽出)
T
Transform
(変換・加工)
← ここでクレンジング
L
Load
(書き出し)
では、この用語が試験でどのように出題されるか見ていきましょう。
💡 データクレンジングの核心を3行で
・データの重複・表記ゆれ・欠損値・異常値を修正し、品質を高める処理
・データウェアハウス構築時にはETLのTransform工程で実施される
・「データの形式統一」「欠損値の補完」「コード体系の統一」がキーワード
試験ではこう出る!
データクレンジングは、AP・DB試験の午前問題でデータウェアハウス関連の問題として繰り返し出題されています。IPでは不正解選択肢として登場する形式が確認されています。
📊 過去問での出題実績
| 試験回 | 出題内容 | 問われたポイント |
|---|---|---|
| AP H22秋 午前 問28 |
データウェアハウス構築のためにデータ属性やコード体系を統一する処理を選ぶ問題 | ・正解が「データクレンジング」 ・ダイス、ドリルダウン、ロールアップがひっかけ |
| DB H24春 午前II 問20 |
上記AP H22秋 問28と同一構成の問題(流用) | ・クラスタリング、スライシング、ダイシングがひっかけ ・APとDBで同じ問題が出回る典型例 |
| AP H24秋 午前 問29 |
データウェアハウスへの取り込みツール(ETL)を選ぶ問題 | ・解説でTransform工程=クレンジングと明記 ・ETLとの関係を理解しているか問う |
| IP R6 問63 |
SSDの全データ消去方法を選ぶ問題 | ・不正解選択肢としてデータクレンジングが登場 ・「データ消去」と「データ洗浄」を区別できるか |
📝 IPA試験での出題パターン
パターン1:「データウェアハウス構築時の処理名を選べ」
「データ属性やコード体系を統一する処理は何か」と問われ、正解がデータクレンジング。ダイス・スライス・ドリルダウン・ロールアップなどOLAP操作系の用語がひっかけとして並ぶ。ここだけは確実に押さえてください。
パターン2:「不正解選択肢として登場」
IP R6 問63のように、別の用語が正解の問題で不正解選択肢として登場するパターン。「データの消去」と「データの洗浄」は全く別の処理であるため、文脈を読んで判断する。
試験ではここまででOKです。クレンジングの具体的な手法(名寄せアルゴリズムなど)まで問われることはないので、深追いは不要です。
【確認テスト】理解度チェック
ここまでの内容を理解できたか、簡単なクイズで確認してみましょう。
Q. 業務系のデータベースから抽出したデータをデータウェアハウスに格納するために、データ属性やコード体系を統一する処理として、最も適切なものはどれでしょうか?
- A. データの重複・表記ゆれ・欠損値などを修正し、データ形式やコード体系を統一する処理である。
- B. 多次元データベースの中から縦軸と横軸を指定して、2次元の表を作成する操作である。
- C. 多次元データベースにおいて、集計レベルを詳細な方向に展開していく操作である。
正解と解説を見る
正解:A
解説:
データクレンジングは、複数の業務システムに蓄積されたバラバラな形式のデータを、分析やデータウェアハウスで使える状態に整える処理です。AP H22秋 午前問28やDB H24春 午前II問20で繰り返し出題されています。
選択肢Bはダイシング(Dicing)の説明です。多次元データベースの軸を入れ替えて違う切り口の表を作る操作であり、データの品質を改善する処理ではありません。選択肢Cはドリルダウン(Drill Down)の説明です。集計単位を四半期→月→日のように細かくしていく操作であり、こちらもデータの修正・統一とは無関係です。
よくある質問(FAQ)
Q. データクレンジングと名寄せは同じ意味ですか?
名寄せは、データクレンジングの作業の一部です。名寄せは「同一の人物・企業が異なる表記で複数登録されているものを統合する」処理を指します。たとえば「(株)ABC」と「株式会社ABC」を同一企業として統合する作業が名寄せです。データクレンジングは名寄せに加え、欠損値の補完や異常値の除去なども含む、より広い概念です。
Q. データクレンジングとデータマイグレーションの違いは何ですか?
データマイグレーション(Data Migration)は、あるシステムから別のシステムへデータを移行する作業全体を指します。データクレンジングは移行前にデータ品質を高める工程であり、マイグレーション全体の中の一ステップに位置づけられます。マイグレーション=「引っ越し全体」、クレンジング=「引っ越し前の荷物整理」と考えると区別しやすいです。
Q. 実務ではデータクレンジングにどのくらいの工数がかかりますか?
一般に、データ分析プロジェクト全体の60〜80%の工数がデータの収集と前処理(クレンジングを含む)に費やされると言われています。分析アルゴリズムの選定やモデル構築よりも、データを「使える状態にする」作業のほうが圧倒的に時間がかかるのが実務の現実です。IPA試験の範囲では深掘りされませんが、実務に携わる際には覚えておくと役立ちます。
Q. ダイス・スライス・ドリルダウン・ロールアップとの違いを一言で教えてください。
これらはすべてOLAP(多次元データベースの分析操作)に関する用語です。ダイスは軸の切り替え、スライスは断面の切り出し、ドリルダウンは詳細への掘り下げ、ロールアップは集計の粗粒度化を指します。データクレンジングは「データの品質を高める前処理」であり、分析操作であるこれらとは目的が根本的に異なります。