データマートは、データベース分野の中でも「データウェアハウス」「データレイク」「データマイニング」など似た用語が並ぶ中で混同しやすいキーワードです。
この記事では、データマートの意味をシンプルに整理し、試験で得点できる状態を目指します。
対象試験と出題頻度
データマートは、基本情報技術者・応用情報技術者で出題されるテーマです。
データサイエンスやビッグデータ活用に関連する用語群(データウェアハウス、データレイク、データマイニングなど)との違いを正確に区別できるかが問われます。
詳細をクリックして確認
基本情報技術者
応用情報技術者
★★★☆☆
ランクC(応用)余裕があれば覚える
用語の定義
情報処理試験を勉強していると、「データマートとデータウェアハウスって何が違うの?」と混乱しがちです。
データマート(Data Mart)とは、一言で言うと
「データウェアハウスから特定の目的に必要なデータだけを取り出して構築した、小規模なデータベース」
のことです。
イメージとしては、「巨大な総合倉庫から、各売り場向けに商品を仕分けした専門棚」です。
総合倉庫(データウェアハウス)には会社全体のあらゆる商品(データ)が保管されています。しかし、鮮魚売り場の担当者が調味料や文房具まで含めた全在庫を見に行くのは非効率です。
そこで、鮮魚売り場専用に必要な商品だけを抜き出した小さな棚を用意する。これがデータマートの役割です。
データマートの基本情報
| 項目 | 内容 |
|---|---|
| 英語名 | Data Mart |
| 分類 | データベース応用(テクノロジ系) |
| データの範囲 | 特定の部門・業務テーマに限定 |
| データの供給元 | データウェアハウス(DWH) |
| 規模 | 小規模(DWHの一部を切り出したもの) |
解説
企業が意思決定のためにデータ分析を行う際、まず全社のデータを一箇所に集約した基盤(データウェアハウス)を構築します。
しかし、全社横断の巨大なデータベースに対して各部門が直接クエリを投げると、処理負荷が集中してレスポンスが悪化します。
この問題を解決するために、部門ごと・テーマごとに必要なデータだけを切り出した小規模なデータベースを用意する手法が生まれました。これがデータマートです。
データの流れを図解で整理
企業のデータ分析基盤では、データは「収集→統合→分配→分析」の順に流れます。
データマートは「分配」のステップに位置づけられます。
データ分析基盤の全体像
▼ ETL(抽出・変換・格納)
全社データを統合・蓄積
▼ 部門・テーマ別に切り出し
データマート
データマート
データマート
▼ BIツール・OLAP等で分析
営業担当
マーケター
経営層
混同しやすい用語との比較
データマートを正しく位置づけるには、周辺の用語と「何を・どのくらいの範囲で扱うか」を軸に整理するのが近道です。
| 用語 | 役割 | データの範囲 | 見分けキーワード |
|---|---|---|---|
| データウェアハウス(DWH) | 全社のデータを統合・蓄積する大規模な基盤 | 企業全体 | 統合、意思決定支援、大量データ |
| データマート | DWHから特定目的のデータを切り出した小規模DB | 部門・テーマ別 | 特定の用途、部門用、切り出し |
| データレイク | 生データをそのままの形式で蓄積する巨大な貯蔵庫 | あらゆるデータ(非構造化含む) | 発生したまま、加工前、非構造化 |
| データマイニング | 大量データから隠れた規則や相関関係を発見する手法 | 分析対象データ全般 | 規則性、相関関係、統計的手法 |
ここだけは確実に押さえてください。
データマートは「格納の仕組み」であり、データマイニングは「分析の手法」です。名前が似ているだけでまったく別物です。
では、この用語が試験でどのように出題されるか見ていきましょう。
データマートの核心を3行で
・DWHから特定の部門・用途に必要なデータだけを切り出した小規模なDB
・目的は「分析のレスポンス向上」と「部門ごとのデータ利用の効率化」
・データレイク(生データを蓄積)やデータマイニング(分析手法)とは役割が異なる
試験ではこう出る!
データマートは、FE・APの午前問題で「データ関連用語の識別問題」として繰り返し出題されています。
単独で問われるというよりも、DWH・データレイク・データマイニングなどの選択肢の一つとして登場するパターンが大半です。
過去問での出題実績
| 試験回 | 出題内容 | データマートの扱い |
|---|---|---|
| AP R3春 午前 問31 |
データレイクの特徴を選ぶ問題 | 選択肢イ「DWHから特定の用途に必要なデータだけを取り出し構築する」がデータマートの説明として登場(ひっかけ) |
| AP R4春 午前 問30 |
データマイニングの説明を選ぶ問題 | 選択肢イ「DWHに格納されたデータの一部を特定の用途や部門用に切り出して格納する」がデータマートの説明として登場(ひっかけ) |
| AP R3春 午後 問6 |
経営分析システムのDB設計(カーシェアリング事業) | レスポンス改善策として「データマートとして集計表を追加」する設問が出題。実践的な理解が問われた |
| FE H23特別 午前 問35 |
DBMSが管理するメタデータの集合体を選ぶ問題 | 選択肢ウにデータマートが登場。正解はデータディクショナリ |
IPA試験での出題パターン
パターン1:「データ関連用語の説明を選べ」
データウェアハウス・データマート・データマイニング・データレイクの説明文が並び、問われた用語に該当するものを選ぶ形式。データマート自体が正解になることもあれば、ひっかけ選択肢として登場することもある。「特定の用途」「部門用に切り出し」がデータマートを指すキーワード。
パターン2:「午後問題のDB設計で登場」
AP R3春 午後問6のように、DWHの性能改善策としてデータマートを導入する文脈で出題される。午後問題を狙う場合は「なぜデータマートを作るのか(レスポンス改善のため)」という目的まで理解しておく必要がある。
試験ではここまででOKです。データマートの構築方法(スタースキーマやスノーフレークスキーマ)まで問われることは午前問題ではほぼないので、午前対策としては深追い不要です。
【確認テスト】理解度チェック
ここまでの内容を理解できたか、簡単なクイズで確認してみましょう。
Q. データウェアハウスに格納されたデータから、特定の用途に必要なデータだけを取り出して構築する小規模なデータベースを指す用語はどれか。
- A. データマート
- B. データレイク
- C. データマイニング
正解と解説を見る
正解:A
解説:
データマートは、DWHに蓄積された全社データの中から、特定の部門や用途に合わせて必要な部分だけを抽出・格納した小規模なデータベースです。
選択肢Bのデータレイクは、構造化・非構造化を問わず、生データを発生したままの形式で蓄積する大規模な貯蔵庫です。「特定の用途向けに切り出す」のではなく「あらゆるデータをそのまま溜める」点がデータマートと異なります。選択肢Cのデータマイニングは、蓄積されたデータに統計的手法や機械学習を適用して、隠れた規則性や相関関係を発見する分析手法であり、データベースそのものではありません。
よくある質問(FAQ)
Q. データマートはデータウェアハウスがないと作れないのですか?
必ずしもそうではありません。業務システムのデータベースから直接データを抽出してデータマートを構築するケースもあり、これを「独立型データマート」と呼びます。ただし、IPA試験の文脈では「DWHから切り出して構築する」という定義が前提になっているため、試験対策としてはDWHとセットで覚えるのが安全です。
Q. データマートとOLAPの関係を教えてください。
OLAP(Online Analytical Processing)は、多次元的にデータを切り替えながら分析する技術です。データマートはOLAPの分析対象となるデータを格納する「入れ物」の役割を担います。AP R3春 午前問31では、選択肢ウに「データウェアハウスやデータマートからデータを取り出し、多次元分析を行う」というOLAPの説明が登場しており、三者の関係を正確に把握しておくとひっかけを回避できます。
Q. 実務ではデータマートはどのように使われていますか?
実務では、BIツール(Tableau、Power BIなど)と組み合わせて使うケースが主流です。全社DWHに直接BIツールを接続すると、他部門のクエリと干渉して処理が遅くなるため、部門ごとにデータマートを作成し、そこにBIツールを接続します。営業部門は売上データマート、人事部門は勤怠データマートといった形で、目的別に構築するのが一般的です。
Q. 「Mart」は何の意味ですか?
Martは「市場」「売り場」を意味する英語です。NTTデータ バリュー・エンジニアによれば、市場のように購入者(利用者)の目的に合わせた品揃えでデータを提供する場所、というのが名前の由来です。スーパーマーケットの各売り場が品目別に整理されているのと同じ発想で、分析者が必要なデータに素早くアクセスできることを目指しています。