対象試験と出題頻度
データレイクは、応用情報技術者試験で出題されるテーマです。
ビッグデータ関連の用語として、データウェアハウスやデータマイニングとの違いを問う形式で繰り返し登場します。「データを加工してから格納するか、生のまま貯めるか」という観点で正確に区別できるかが問われます。
詳細をクリックして確認
応用情報技術者
★★★☆☆
ランクB(標準)覚えておくと有利
用語の定義
応用情報を勉強していると、「データレイクってデータウェアハウスと何が違うの?」と混乱しがちです。まずは一言で押さえてしまいましょう。
データレイク(Data Lake)とは、一言で言うと
「あらゆる種類のデータを、加工せず生の形式のまま大量に蓄積するリポジトリ」
のことです。
イメージとしては、「いろんな川が流れ込む天然の湖」です。
湖には、山からの澄んだ水も、田畑からの濁った水も、雨水も区別なく流れ込みます。「あとで何かに使うかもしれないから、とりあえず全部貯めておく」という発想です。
データレイクも同じで、表形式のきれいなデータも、JSONログも、画像・動画・音声・SNS投稿といったバラバラな形式のデータも、整形せずそのまま投入します。
📊 データレイクの基本情報
| 項目 | 内容 |
|---|---|
| 英語名 | Data Lake |
| 格納するデータ | 構造化・半構造化・非構造化データ(すべての形式) |
| 処理方式 | スキーマオンリード(読み出すときに構造を決める) |
| 主な利用者 | データサイエンティスト、機械学習エンジニア |
| 代表的なサービス | Amazon S3、Azure Data Lake Storage、Google Cloud Storage |
解説
従来のデータ分析基盤では、データを格納する前に「項目をそろえ、形式を整え、不要な情報を削る」という前処理が必須でした。
きれいに整えた箱(テーブル)にしか入れられない、というルールです。
しかしビッグデータ時代になると、SNSの投稿、IoT機器のセンサーログ、画像・動画など、形式がバラバラで前処理しきれないデータが爆発的に増えました。「将来どう使うか今は決まらないけれど、捨てたら二度と戻ってこない」というデータも増えます。
そこで登場したのが、前処理を省略して「とにかく原形のまま貯める」という発想のデータレイクです。
図解:データの流れ
あらゆるデータが「生のまま」流れ込む
(RDBデータ)
(JSON/CSV)
(画像/動画/音声)
ログ
データレイク
生データのまま蓄積
▲ 入口では加工せず、利用時に必要な形へ整形する(スキーマオンリード)
データウェアハウス(DWH)との比較
試験で最も問われるのが、データウェアハウスとの違いです。
「貯める前に整えるか/貯めた後で整えるか」が決定的な分かれ目です。
| 観点 | データレイク | データウェアハウス |
|---|---|---|
| データ形式 | 生データ(あらゆる形式) | 構造化データに整形済み |
| スキーマ | スキーマオンリード(読み出し時) | スキーマオンライト(書き込み時) |
| 用途 | 探索的分析、機械学習 | 定型的な経営分析・レポート |
| 主な利用者 | データサイエンティスト | 経営層・業務部門のアナリスト |
| 柔軟性 | 高い(後から用途を決められる) | 低い(用途を先に決めて設計) |
では、この用語が試験でどのように出題されるか見ていきましょう。
💡 データレイクの核心を3行で
・あらゆる種類のデータを、加工せず生の形式で蓄積するリポジトリ
・構造化・半構造化・非構造化のすべてを区別なく受け入れる
・読み出すときに構造を決める「スキーマオンリード」方式
試験ではこう出る!
データレイクは、応用情報技術者の午前問題で「特徴を選ばせる」形式で繰り返し出題されています。
📊 過去問での出題実績
| 試験回 | 出題内容 | 問われたポイント |
|---|---|---|
| AP H31春 午前 問29 |
ビッグデータの貯蔵場所であるデータレイクの特徴として適切なものを選ぶ問題。 | ・正解は「あらゆるデータをそのままの形式や構造で格納しておく」 ・データウェアハウス・データマート・データマイニングの説明がひっかけ |
| AP R3春 午前 問31 |
データレイクの特徴を選ぶ問題(AP H31春問29の再出題)。 | ・同一構成の使い回し ・「生のまま格納」が決め手 |
📝 IPA試験での出題パターン
パターン:「データレイクの特徴を選べ」
4つの選択肢にビッグデータ関連用語の説明文が並び、データレイクに該当するものを選ぶ形式。決め手のキーワードは「そのままの形式」「あらゆるデータ」「生のまま」の3つです。
典型的なひっかけ選択肢
・「大量のデータから隠れた規則や相関関係を見つけ出す」→ データマイニングの説明
・「DWHから特定用途に必要なデータを取り出した小規模データベース」→ データマートの説明
・「企業の意思決定のために整理・統合された時系列データの集合」→ データウェアハウスの説明
試験ではここまででOKです。スキーマオンリード等の細かい用語は問われたことがないので、深追いは不要です。
【確認テスト】理解度チェック
ここまでの内容を理解できたか、簡単なクイズで確認してみましょう。
Q. ビッグデータのデータ貯蔵場所であるデータレイクの特徴として、最も適切なものはどれでしょうか?
- A. 大量のデータを統計的に分析し、単なる検索だけでは分からない隠れた規則や相関関係を見つけ出す。
- B. あらゆる種類のデータを、加工せずそのままの形式や構造で大量に格納しておく。
- C. 業務システムから収集した時系列データを、整理・統合して経営の意思決定に使えるように蓄積する。
正解と解説を見る
正解:B
解説:
データレイクは、構造化・半構造化・非構造化のあらゆるデータを、加工せず生の形式のまま蓄積するリポジトリです。AP H31春問29・AP R3春問31でも「そのままの形式や構造で格納」という表現が正解の決め手になっています。
選択肢Aはデータマイニングの説明です。蓄積された大量データから統計的手法で規則性や相関を発見する分析技術であり、データの貯蔵場所そのものではありません。選択肢Cはデータウェアハウスの説明です。業務システムから収集したデータを整形・統合してから蓄積する点が、生のまま貯めるデータレイクとは正反対です。
よくある質問(FAQ)
Q. データレイクが「沼」になるとはどういう意味ですか?
「データスワンプ(Data Swamp)」と呼ばれる現象です。何でもかんでも生のまま貯め続けた結果、メタデータの管理やカタログ整備が追いつかなくなり、「どこに何があるか分からない使えない貯水池」になってしまった状態を指します。実務ではこれを防ぐため、データカタログツールやガバナンス体制をセットで導入します。試験範囲では深掘りされませんが、実務寄りの常識として知っておくと役立ちます。
Q. データレイクとデータマートの違いは何ですか?
用途と粒度がまったく逆方向です。データマートはデータウェアハウスの一部を、特定部門(営業、人事など)の用途に絞って切り出した小規模な分析用データベースです。「整形済み・小規模・用途特化」が特徴です。一方データレイクは「未整形・大規模・用途未定」が特徴で、目的を後から決められる点が真逆と言えます。
Q. 「レイクハウス」という言葉を聞きましたが、データレイクとは違うものですか?
レイクハウスは、データレイクの柔軟性とデータウェアハウスの管理性・分析性能を1つの基盤に統合した新しいアーキテクチャです。Databricks社が提唱した概念で、生データの蓄積からBI分析・機械学習までを単一プラットフォームで完結させます。IPAの応用情報試験では現時点で出題実績はないため、用語として知っておく程度で問題ありません。
Q. 実務ではどのサービスでデータレイクを構築しますか?
クラウドのオブジェクトストレージが定番です。AWSではAmazon S3、AzureではAzure Data Lake Storage Gen2、GCPではGoogle Cloud Storageが代表的な選択肢です。これらは容量無制限に近いスケーラビリティと低コストの保管料金を提供し、ファイル形式を問わず格納できるため、データレイクの基盤に最適とされています。分析時にはAthena・BigQuery・Sparkといったエンジンから直接クエリを発行する構成が一般的です。