データウェアハウス(DWH)は、ITパスポート・基本情報技術者・応用情報技術者のいずれでも出題される定番用語です。「データベースと何が違うの?」という疑問を解消し、試験で確実に得点できる状態を目指しましょう。

対象試験と出題頻度

データウェアハウスは、ITパスポート・基本情報技術者・応用情報技術者で出題されるテーマです。

「意思決定支援」のキーワードを軸に、ETLやデータマート、OLAPとの関連を問う形式が定番化しています。

詳細をクリックして確認
対象試験:
ITパスポート
基本情報技術者
応用情報技術者
出題頻度:
★★★☆☆
ランクB(標準)覚えておくと有利

用語の定義

情報処理試験を勉強していると、「データウェアハウスって、普通のデータベースと何が違うの?」と混乱しがちです。

データウェアハウス(Data Warehouse / DWH)とは、一言で言うと

 「企業内の複数システムに散在するデータを整理・統合して蓄積し、意思決定を支援するためのデータベース

のことです。

イメージとしては、会社の巨大な資料倉庫です。

営業部、経理部、製造部がそれぞれ別の棚に書類を保管していたら、横断的に分析するのは大変です。

そこで全部署の書類を1か所の倉庫にコピーして、日付順に整理し直す。これがデータウェアハウスの発想です。倉庫に入れた書類は書き換えず、どんどん積み上げていくだけ。

過去と現在を比較して「次にどうするか」を判断する材料にします。

📊 データウェアハウスの基本情報

項目 内容
英語名 Data Warehouse(DWH)
提唱者 ビル・インモン(William H. Inmon)、1990年
4つの特性 目的別(Subject-Oriented)、統合(Integrated)、時系列(Time-Variant)、非更新(Non-Volatile)
主な目的 経営の意思決定支援(DSS:Decision Support System)

解説

企業の業務システム(販売管理、会計、製造管理など)はそれぞれ独立して稼働しており、データの形式やコード体系もバラバラです。

日々の業務処理(OLTP)では「今この瞬間の正しいデータ」があれば十分ですが、経営判断には「過去数年分のデータを横断的に比較する」視点が必要になります。

この「業務処理用のデータベース」と「分析用のデータベース」のギャップを埋めるために登場したのがデータウェアハウスです。

データウェアハウスの4つの特性

提唱者のビル・インモンが定義した4つの特性は、DWHを他のデータベースと区別する根幹です。

特性 意味 通常のDBとの違い
目的別 分析テーマ(売上、顧客など)ごとに整理 業務DBは業務プロセス単位で設計
統合 複数システムのデータを共通の形式に変換して格納 業務DBはシステムごとに形式が異なる
時系列 時間軸を持ち、過去データを蓄積し続ける 業務DBは最新状態だけを保持
非更新 一度格納したデータは原則として変更・削除しない 業務DBはUPDATE/DELETEが日常的

図解:DWHを中心としたデータの流れ

業務システムからDWH、そして分析ツールへ至るデータの流れを図にすると、全体像が一目で把握できます。

DWHを中心としたデータの流れ

販売管理DB
会計DB
製造管理DB
ETL →→→ 抽出・変換・格納
🏢

データウェアハウス

統合・時系列・非更新

抽出 →→→
データマート
(部門別の小規模DB)
OLAP
(多次元分析ツール)
データマイニング
(パターン発見)

▲ 業務DBのデータをETLで統合 → DWHに蓄積 → 目的別に抽出して分析に活用

関連用語の整理

DWHの周辺には、混同しやすい用語がいくつか存在します。それぞれの役割を一覧で整理します。

用語 役割 DWHとの関係
ETL Extract(抽出)→ Transform(変換)→ Load(格納)の3工程でデータを移送する仕組み DWHにデータを投入する「入口」
データクレンジング コード体系や表記の揺れ・欠損値を統一する前処理 ETLのTransform工程で実施
データマート DWHから特定の部門やテーマ向けに切り出した小規模なデータベース DWHの「出口」。倉庫から棚卸ししたコーナー
OLAP 多次元データベースを使ってデータをスライス・ダイス・ドリルダウンで分析する手法 DWHやデータマートに蓄積されたデータを分析する「道具」
データマイニング 大量データから統計・AIの手法で有用なパターンを発見する技術 DWHに蓄積されたデータが分析対象になる
データレイク 構造化・非構造化を問わず、データを生のまま格納する大規模ストレージ DWHは整理済みデータ、データレイクは未加工データを扱う

OLAPの分析操作

DWHやデータマートに蓄積されたデータを多角的に分析するOLAPには、代表的な操作が4つあります。

試験の選択肢で紛れ込むことがあるため、名称と操作内容を押さえておいてください。

OLAPの4つの操作

スライス

多次元データの特定の断面を
切り出して2次元の表にする

ダイス

縦軸・横軸を入れ替えて
別の視点の表に切り替える

ドリルダウン

集計を細かく展開する
(年→四半期→月)

ロールアップ

集計レベルを引き上げる
(月→年)。ドリルダウンの逆

では、この用語が試験でどのように出題されるか見ていきましょう。

💡 DWHの核心を3行で

・複数の業務システムのデータをETLで統合し、時系列で蓄積する分析専用データベース
・格納済みデータは更新・削除しない(非更新)が最大の特徴
・DWHから部門別に切り出したものがデータマート、分析手法がOLAP・データマイニング


試験ではこう出る!

データウェアハウスは、IP・FE・APの午前問題で繰り返し出題されています。出題パターンは大きく3つに分かれます。

📊 過去問での出題実績

試験回 出題内容 問われたポイント
FE R6年
問18
「大量のデータを整理・統合して蓄積し、意思決定支援に利用するもの」を選ぶ問題。 ・「意思決定支援」がキーワード
・データアドミニストレーション、データディクショナリがひっかけ
FE H22春
問33
上記FE R6問18と同一構成の問題(流用元)。 ・FEでは同じ問題が繰り返し出る典型例
AP H22秋
午前 問28
DWH構築時に「データ属性やコード体系を統一する処理」を選ぶ問題。 ・正解は「データクレンジング」
・ダイス、ドリルダウン、ロールアップがひっかけ
AP H24秋
午前 問29
DWHに業務データを取り込む際の「抽出・加工・書き出し」ツールを選ぶ問題。 ・正解は「ETLツール」
・OLAPツールがひっかけ
IP H22秋
問9
DWHの定義として正しいものを選ぶ問題。 ・「時系列に蓄積」「意思決定支援」が正解の手がかり

📝 IPA試験での出題パターン

パターン1:「DWHの定義を選べ」
4つの用語の説明文が並び、データウェアハウスに該当するものを選ぶ形式。「意思決定支援」「大量データの整理・統合」がキーワード。ひっかけとしてデータアドミニストレーション(データの管理業務)やデータディクショナリ(メタデータの保管庫)が並ぶ。

 

パターン2:「DWH構築に使う処理・ツールを選べ」
AP H22秋のようにデータクレンジングを問う形式、AP H24秋のようにETLツールを問う形式がある。OLAP操作(スライス、ダイス、ドリルダウン、ロールアップ)を混ぜてひっかける。

 

パターン3:「データレイクとの違い」
AP R3春 午前 問31のように、DWHとデータレイクの特徴を区別させる問題。データレイクは「生データのまま格納」、DWHは「整理・統合して格納」が判別ポイント。

 

ここだけは確実に押さえてください。「意思決定支援」「非更新」「ETL」「データマート」の4語がDWHとセットで出てきたら正解に直結します。OLAP操作の細かい使い分けまで問われることは稀なので、深追いは不要です。


【確認テスト】理解度チェック

ここまでの内容を理解できたか、簡単なクイズで確認してみましょう。


Q. 企業の様々な活動を介して得られた大量のデータを整理・統合して蓄積しておき、意思決定支援などに利用するものはどれでしょうか?

  • A. 企業内に散在するデータを一元的に整理・統合し、時系列で蓄積して経営の意思決定を支援するデータベース。
  • B. データベースのメタデータ(テーブル定義やカラム属性など)を一覧管理するための情報保管庫。
  • C. 企業内のデータ資源を適切に管理・運用するための組織的な活動や体制。

正解と解説を見る

正解:A

解説:
データウェアハウスは、複数の業務システムから集めたデータを統合・蓄積し、経営層の意思決定を支える分析基盤です。FE R6年 問18・FE H22春 問33で繰り返し出題されている定番の問い方です。

選択肢Bはデータディクショナリの説明です。データディクショナリはデータベースの定義情報を管理する辞書であり、分析目的のデータ蓄積基盤とは役割が異なります。選択肢Cはデータアドミニストレーション(データ管理活動)の説明です。これは組織としてデータを正しく運用・統制するための取り組みであり、データを蓄積するデータベースそのものではありません。


よくある質問(FAQ)

Q. データウェアハウスとデータレイクはどう使い分けますか?

データレイクは、画像・ログ・テキストなどの非構造化データも含めて「生データのまま」大量に格納する仕組みです。分析前にデータの形式を決める必要がありません。一方DWHは、あらかじめスキーマ(データ構造)を定義したうえで整理済みデータを格納します。「とにかく貯めてから使い道を決めたい」ならデータレイク、「分析の目的が明確で、きれいなデータが欲しい」ならDWHと覚えてください。AP R3春 午前 問31で両者の区別が問われています。

Q. DWHとBI(ビジネスインテリジェンス)は何が違いますか?

BIは「企業のデータを活用して意思決定を支援する仕組み全体」を指す上位概念です。DWHはBIを実現するためのデータ蓄積基盤という位置づけになります。BIにはDWHのほか、OLAPツール、ダッシュボード、レポーティングツールなどが含まれます。つまり「DWHはBIの一部」と理解すれば、選択肢の区別に迷わなくなります。

Q. DWHにリアルタイムのデータは入りませんか?

従来のDWHは夜間バッチでETL処理を行い、1日1回程度の頻度でデータを投入するのが一般的でした。しかし近年はリアルタイムDWH(アクティブDWH)と呼ばれる技術が登場し、ほぼリアルタイムにデータを反映する構成も実現されています。ただし、IPA試験の範囲では「バッチ処理で統合・蓄積する」という従来型の理解で十分です。

Q. OLTP(オンライントランザクション処理)とOLAP(オンライン分析処理)の違いは?

OLTPは「日々の業務処理」に使われます。銀行の振込処理やECサイトの注文登録など、1件ごとのトランザクションを高速に処理することが求められます。OLAPは「蓄積済みデータの多角的な分析」に使われ、大量のデータを集計・比較して傾向を読み取ることが目的です。OLTPのデータベースが業務の「現場」なら、OLAPは経営判断の「司令塔」というイメージです。