情報処理試験を勉強していると、「ETLって何の略?OLAPやデータマイニングとどう違うの?」と混乱しがちです。この記事ではETLの意味・3工程の流れ・試験での出題ポイントをまとめて整理します。
対象試験と出題頻度
ETLは、応用情報技術者試験で出題されるテーマです。
データウェアハウス構築に関する問題の選択肢として登場し、OLAPツールやデータマイニングツールとの役割の違いを正確に区別できるかが問われます。
詳細をクリックして確認
応用情報技術者
★★★☆☆
ランクB(標準)覚えておくと有利
ETLの定義
ETL(Extract / Transform / Load)とは、一言で言うと
「複数のデータソースからデータを抽出(Extract)し、目的に合わせて変換・加工(Transform)し、データウェアハウスなどの格納先に書き出す(Load)一連のプロセス」
のことです。
イメージとしては、「引っ越し業者の作業工程」です。
引っ越し業者は、まず旧居の各部屋から荷物を集め(Extract)、新居に合うようにサイズ別に梱包し直し(Transform)、新居の指定の部屋に搬入する(Load)。
ETLもこれと同じで、バラバラの場所にある業務データを集めて整え、分析用の倉庫に収める作業です。
📊 ETLの基本情報
| 項目 | 内容 |
|---|---|
| 正式名称 | Extract / Transform / Load |
| 日本語訳 | 抽出 / 変換 / 格納(書き出し) |
| 目的 | 複数システムの業務データをデータウェアハウスへ統合すること |
| 関連技術 | データウェアハウス(DWH)、OLAP、データマイニング、データクレンジング |
解説
企業には販売管理、在庫管理、顧客管理など複数の業務システムが存在します。経営判断に活かすためにはこれらのデータを一箇所に集約し、横断的に分析できる状態にする必要があります。
しかし、各システムはデータ形式・文字コード・日付フォーマットがバラバラです。
この「バラバラな業務データを分析可能な状態に整えてデータウェアハウスへ投入する」という課題を解決するのがETLの3工程です。
3つの工程の詳細
それぞれの工程で何が行われるかを整理します。
| 工程 | 英語 | 具体的な処理内容 |
|---|---|---|
| 抽出 | Extract | 販売DB、顧客DB、外部CSVファイルなど複数のデータソースから必要なデータを取り出す。差分抽出(前回以降の更新分だけ取得)と全件抽出がある |
| 変換 | Transform | データ形式の統一(日付の書式統一など)、欠損値の補完、単位の変換、重複排除、コード体系の名寄せなど。データクレンジング処理がここに集中する |
| 格納 | Load | 変換済みのデータをデータウェアハウスやデータマートに書き出す。全件洗い替えと差分追記の2パターンがある |
図解:ETLの処理フロー
3工程がどのように連携するかを図で確認します。
ETLの処理フロー
データソース
Extract
抽出
Transform
変換・加工
Load
格納
DWH
データウェアハウス
▲ 複数のデータソースから抽出→変換→格納の順にデータが流れる
ETLと混同しやすい関連用語
データウェアハウス周辺には似た役割のツール・概念が複数あります。ETLとの違いを整理します。
| 用語 | 役割 | ETLとの関係 |
|---|---|---|
| OLAP | 多次元データベースを対話的に分析するツール。スライス、ダイス、ドリルダウン等の操作でデータを多角的に参照する | ETLで投入されたデータを「分析する」側のツール |
| データマイニング | 統計・機械学習の手法で大量データの中から隠れたパターンや規則性を発見する | ETLで投入されたデータから知見を「発掘する」側の手法 |
| ELT | Extract→Load→Transformの順に処理する方式。先にデータを格納先へロードし、格納先のリソースで変換処理を行う | ETLの変形パターン。変換の実行場所が異なる |
ここだけは確実に押さえてください。ETLは「データを入れる前の下ごしらえ」、OLAPやデータマイニングは「入れた後の分析」です。
この役割の違いが理解の軸になります。
では、この用語が試験でどのように出題されるか見ていきましょう。
💡 ETLの核心を3行で
・Extract(抽出)→ Transform(変換)→ Load(格納)の3工程でデータウェアハウスにデータを投入する
・Transform工程でデータクレンジング(形式統一・欠損補完・重複排除)を実施する
・OLAPやデータマイニングは「分析側」、ETLは「データ投入側」と役割が異なる
試験ではこう出る!
ETLは、応用情報技術者の午前問題でデータウェアハウス関連の選択肢として出題されています。
📊 過去問での出題実績
| 試験回 | 出題内容 | 問われたポイント |
|---|---|---|
| AP H24秋 午前 問29 |
データウェアハウスに業務データを取り込むとき、データを抽出して加工し、データベースに書き出すツールを選ぶ問題。 | ・正解は「ETLツール」 ・OLAPツール、データマイニングツール、統計ツールがひっかけ選択肢 |
📝 出題パターンと対策
パターン:「DWHにデータを投入するツールはどれか」
問題文に「抽出」「加工」「書き出し」というキーワードが含まれていれば、ETLを選べばほぼ正解です。ひっかけとして「多次元分析」を連想させるOLAP、「隠れたパターンの発見」を連想させるデータマイニングが並びます。
頻出度はBランクで、午前問題のデータベース分野でたまに登場する程度です。「E=抽出、T=変換、L=格納」という頭文字の意味と、OLAPやデータマイニングとの役割の違いを把握していれば、試験ではここまででOKです。深追いは不要です。
【確認テスト】理解度チェック
ここまでの内容を理解できたか、簡単なクイズで確認してみましょう。
Q. データウェアハウスに業務データを取り込む際、複数のシステムからデータを抽出して加工し、格納先に書き出す処理を表す用語として最も適切なものはどれか。
- A. 蓄積されたデータを多次元的に分析し、スライスやドリルダウンなどの操作で意思決定を支援する処理。
- B. 統計解析や機械学習の手法を用いて、大量データの中から隠れた相関関係やパターンを発見する処理。
- C. 複数のデータソースからデータを抽出(Extract)し、形式の統一や欠損値の補完などの変換(Transform)を行い、格納先に書き出す(Load)一連の処理。
正解と解説を見る
正解:C
解説:
ETL(Extract / Transform / Load)は、複数の業務システムからデータを抽出し、変換・加工を施した上でデータウェアハウスに格納する3段階のプロセスです。AP H24秋 午前問29でもこの定義が問われました。
選択肢AはOLAP(Online Analytical Processing)の説明です。OLAPは格納済みデータを多角的に切り出して分析するツールであり、データの投入処理ではありません。選択肢Bはデータマイニングの説明です。データマイニングは蓄積データから法則性を発掘する手法であり、前述のOLAPと同様に「分析側」の技術です。
よくある質問(FAQ)
Q. ETLとELTは何が違いますか?
処理の順序が異なります。ETLは「抽出→変換→格納」の順で、変換処理を中間サーバー(ETLツール)上で行います。ELTは「抽出→格納→変換」の順で、先にデータをデータウェアハウスにロードし、格納先の計算リソースを使って変換します。クラウド型DWH(BigQuery、Redshift、Snowflakeなど)の処理能力が向上した近年はELTを採用するケースが増えています。IPA試験の範囲ではETLの3工程の意味を押さえれば十分です。
Q. ETLツールにはどんな製品がありますか?
代表的な製品として、Informatica PowerCenter、Talend、AWS Glue、Azure Data Factory、Apache NiFiなどがあります。これらはGUIでデータの抽出元・変換ルール・格納先を定義でき、専用プログラムを自社開発するよりも運用コストを抑えられるのが特徴です。試験で特定の製品名が問われることはないため、「GUIで一連の処理を開発できるソフトウェア」という認識で問題ありません。
Q. Transform工程の「データクレンジング」とは具体的に何をしますか?
データクレンジングとは、データの品質を高めるための前処理全般を指します。具体的には、日付表記の統一(「2024/01/01」と「20240101」を同一形式に揃える)、全角・半角の統一、欠損値の補完や除外、重複レコードの排除(名寄せ)、異常値の検出と修正などが含まれます。分析結果の精度はデータの品質に直結するため、この工程が最も手間がかかると言われています。
Q. ETLはバッチ処理ですか?リアルタイム処理もありますか?
伝統的なETLは夜間バッチなど定期実行のバッチ処理が主流です。しかし近年は、データの発生とほぼ同時に投入する「リアルタイムETL」や「マイクロバッチ」の需要も高まっています。Apache KafkaやAWS Kinesisなどのストリーミング基盤と組み合わせることで、データの鮮度を保ちながら投入する構成が実務では増えています。IPA試験ではバッチ処理前提の出題が大半なので、この点は参考程度で構いません。