データウェアハウス(DWH)は、ITパスポート・基本情報技術者・応用情報技術者のいずれでも出題される定番用語です。「データベースと何が違うの?」という疑問を解消し、試験で確実に得点できる状態を目指しましょう。
対象試験と出題頻度
データウェアハウスは、ITパスポート・基本情報技術者・応用情報技術者で出題されるテーマです。
「意思決定支援」のキーワードを軸に、ETLやデータマート、OLAPとの関連を問う形式が定番化しています。
詳細をクリックして確認
ITパスポート
基本情報技術者
応用情報技術者
★★★☆☆
ランクB(標準)覚えておくと有利
用語の定義
情報処理試験を勉強していると、「データウェアハウスって、普通のデータベースと何が違うの?」と混乱しがちです。
データウェアハウス(Data Warehouse / DWH)とは、一言で言うと
「企業内の複数システムに散在するデータを整理・統合して蓄積し、意思決定を支援するためのデータベース」
のことです。
イメージとしては、「会社の巨大な資料倉庫」です。
営業部、経理部、製造部がそれぞれ別の棚に書類を保管していたら、横断的に分析するのは大変です。
そこで全部署の書類を1か所の倉庫にコピーして、日付順に整理し直す。これがデータウェアハウスの発想です。倉庫に入れた書類は書き換えず、どんどん積み上げていくだけ。
過去と現在を比較して「次にどうするか」を判断する材料にします。
📊 データウェアハウスの基本情報
| 項目 | 内容 |
|---|---|
| 英語名 | Data Warehouse(DWH) |
| 提唱者 | ビル・インモン(William H. Inmon)、1990年 |
| 4つの特性 | 目的別(Subject-Oriented)、統合(Integrated)、時系列(Time-Variant)、非更新(Non-Volatile) |
| 主な目的 | 経営の意思決定支援(DSS:Decision Support System) |
解説
企業の業務システム(販売管理、会計、製造管理など)はそれぞれ独立して稼働しており、データの形式やコード体系もバラバラです。
日々の業務処理(OLTP)では「今この瞬間の正しいデータ」があれば十分ですが、経営判断には「過去数年分のデータを横断的に比較する」視点が必要になります。
この「業務処理用のデータベース」と「分析用のデータベース」のギャップを埋めるために登場したのがデータウェアハウスです。
データウェアハウスの4つの特性
提唱者のビル・インモンが定義した4つの特性は、DWHを他のデータベースと区別する根幹です。
| 特性 | 意味 | 通常のDBとの違い |
|---|---|---|
| 目的別 | 分析テーマ(売上、顧客など)ごとに整理 | 業務DBは業務プロセス単位で設計 |
| 統合 | 複数システムのデータを共通の形式に変換して格納 | 業務DBはシステムごとに形式が異なる |
| 時系列 | 時間軸を持ち、過去データを蓄積し続ける | 業務DBは最新状態だけを保持 |
| 非更新 | 一度格納したデータは原則として変更・削除しない | 業務DBはUPDATE/DELETEが日常的 |
図解:DWHを中心としたデータの流れ
業務システムからDWH、そして分析ツールへ至るデータの流れを図にすると、全体像が一目で把握できます。
DWHを中心としたデータの流れ
データウェアハウス
統合・時系列・非更新
(部門別の小規模DB)
(多次元分析ツール)
(パターン発見)
▲ 業務DBのデータをETLで統合 → DWHに蓄積 → 目的別に抽出して分析に活用
関連用語の整理
DWHの周辺には、混同しやすい用語がいくつか存在します。それぞれの役割を一覧で整理します。
| 用語 | 役割 | DWHとの関係 |
|---|---|---|
| ETL | Extract(抽出)→ Transform(変換)→ Load(格納)の3工程でデータを移送する仕組み | DWHにデータを投入する「入口」 |
| データクレンジング | コード体系や表記の揺れ・欠損値を統一する前処理 | ETLのTransform工程で実施 |
| データマート | DWHから特定の部門やテーマ向けに切り出した小規模なデータベース | DWHの「出口」。倉庫から棚卸ししたコーナー |
| OLAP | 多次元データベースを使ってデータをスライス・ダイス・ドリルダウンで分析する手法 | DWHやデータマートに蓄積されたデータを分析する「道具」 |
| データマイニング | 大量データから統計・AIの手法で有用なパターンを発見する技術 | DWHに蓄積されたデータが分析対象になる |
| データレイク | 構造化・非構造化を問わず、データを生のまま格納する大規模ストレージ | DWHは整理済みデータ、データレイクは未加工データを扱う |
OLAPの分析操作
DWHやデータマートに蓄積されたデータを多角的に分析するOLAPには、代表的な操作が4つあります。
試験の選択肢で紛れ込むことがあるため、名称と操作内容を押さえておいてください。
OLAPの4つの操作
スライス
多次元データの特定の断面を
切り出して2次元の表にする
ダイス
縦軸・横軸を入れ替えて
別の視点の表に切り替える
ドリルダウン
集計を細かく展開する
(年→四半期→月)
ロールアップ
集計レベルを引き上げる
(月→年)。ドリルダウンの逆
では、この用語が試験でどのように出題されるか見ていきましょう。
💡 DWHの核心を3行で
・複数の業務システムのデータをETLで統合し、時系列で蓄積する分析専用データベース
・格納済みデータは更新・削除しない(非更新)が最大の特徴
・DWHから部門別に切り出したものがデータマート、分析手法がOLAP・データマイニング
試験ではこう出る!
データウェアハウスは、IP・FE・APの午前問題で繰り返し出題されています。出題パターンは大きく3つに分かれます。
📊 過去問での出題実績
| 試験回 | 出題内容 | 問われたポイント |
|---|---|---|
| FE R6年 問18 |
「大量のデータを整理・統合して蓄積し、意思決定支援に利用するもの」を選ぶ問題。 | ・「意思決定支援」がキーワード ・データアドミニストレーション、データディクショナリがひっかけ |
| FE H22春 問33 |
上記FE R6問18と同一構成の問題(流用元)。 | ・FEでは同じ問題が繰り返し出る典型例 |
| AP H22秋 午前 問28 |
DWH構築時に「データ属性やコード体系を統一する処理」を選ぶ問題。 | ・正解は「データクレンジング」 ・ダイス、ドリルダウン、ロールアップがひっかけ |
| AP H24秋 午前 問29 |
DWHに業務データを取り込む際の「抽出・加工・書き出し」ツールを選ぶ問題。 | ・正解は「ETLツール」 ・OLAPツールがひっかけ |
| IP H22秋 問9 |
DWHの定義として正しいものを選ぶ問題。 | ・「時系列に蓄積」「意思決定支援」が正解の手がかり |
📝 IPA試験での出題パターン
パターン1:「DWHの定義を選べ」
4つの用語の説明文が並び、データウェアハウスに該当するものを選ぶ形式。「意思決定支援」「大量データの整理・統合」がキーワード。ひっかけとしてデータアドミニストレーション(データの管理業務)やデータディクショナリ(メタデータの保管庫)が並ぶ。
パターン2:「DWH構築に使う処理・ツールを選べ」
AP H22秋のようにデータクレンジングを問う形式、AP H24秋のようにETLツールを問う形式がある。OLAP操作(スライス、ダイス、ドリルダウン、ロールアップ)を混ぜてひっかける。
パターン3:「データレイクとの違い」
AP R3春 午前 問31のように、DWHとデータレイクの特徴を区別させる問題。データレイクは「生データのまま格納」、DWHは「整理・統合して格納」が判別ポイント。
ここだけは確実に押さえてください。「意思決定支援」「非更新」「ETL」「データマート」の4語がDWHとセットで出てきたら正解に直結します。OLAP操作の細かい使い分けまで問われることは稀なので、深追いは不要です。
【確認テスト】理解度チェック
ここまでの内容を理解できたか、簡単なクイズで確認してみましょう。
Q. 企業の様々な活動を介して得られた大量のデータを整理・統合して蓄積しておき、意思決定支援などに利用するものはどれでしょうか?
- A. 企業内に散在するデータを一元的に整理・統合し、時系列で蓄積して経営の意思決定を支援するデータベース。
- B. データベースのメタデータ(テーブル定義やカラム属性など)を一覧管理するための情報保管庫。
- C. 企業内のデータ資源を適切に管理・運用するための組織的な活動や体制。
正解と解説を見る
正解:A
解説:
データウェアハウスは、複数の業務システムから集めたデータを統合・蓄積し、経営層の意思決定を支える分析基盤です。FE R6年 問18・FE H22春 問33で繰り返し出題されている定番の問い方です。
選択肢Bはデータディクショナリの説明です。データディクショナリはデータベースの定義情報を管理する辞書であり、分析目的のデータ蓄積基盤とは役割が異なります。選択肢Cはデータアドミニストレーション(データ管理活動)の説明です。これは組織としてデータを正しく運用・統制するための取り組みであり、データを蓄積するデータベースそのものではありません。
よくある質問(FAQ)
Q. データウェアハウスとデータレイクはどう使い分けますか?
データレイクは、画像・ログ・テキストなどの非構造化データも含めて「生データのまま」大量に格納する仕組みです。分析前にデータの形式を決める必要がありません。一方DWHは、あらかじめスキーマ(データ構造)を定義したうえで整理済みデータを格納します。「とにかく貯めてから使い道を決めたい」ならデータレイク、「分析の目的が明確で、きれいなデータが欲しい」ならDWHと覚えてください。AP R3春 午前 問31で両者の区別が問われています。
Q. DWHとBI(ビジネスインテリジェンス)は何が違いますか?
BIは「企業のデータを活用して意思決定を支援する仕組み全体」を指す上位概念です。DWHはBIを実現するためのデータ蓄積基盤という位置づけになります。BIにはDWHのほか、OLAPツール、ダッシュボード、レポーティングツールなどが含まれます。つまり「DWHはBIの一部」と理解すれば、選択肢の区別に迷わなくなります。
Q. DWHにリアルタイムのデータは入りませんか?
従来のDWHは夜間バッチでETL処理を行い、1日1回程度の頻度でデータを投入するのが一般的でした。しかし近年はリアルタイムDWH(アクティブDWH)と呼ばれる技術が登場し、ほぼリアルタイムにデータを反映する構成も実現されています。ただし、IPA試験の範囲では「バッチ処理で統合・蓄積する」という従来型の理解で十分です。
Q. OLTP(オンライントランザクション処理)とOLAP(オンライン分析処理)の違いは?
OLTPは「日々の業務処理」に使われます。銀行の振込処理やECサイトの注文登録など、1件ごとのトランザクションを高速に処理することが求められます。OLAPは「蓄積済みデータの多角的な分析」に使われ、大量のデータを集計・比較して傾向を読み取ることが目的です。OLTPのデータベースが業務の「現場」なら、OLAPは経営判断の「司令塔」というイメージです。