情報処理試験を勉強していると、「ビッグデータって単にデータが大きいってこと?」「3つのVって何?」と疑問を持つ方は多いです。この記事では、ビッグデータの定義から試験での出題パターンまで、一気に整理します。
対象試験と出題頻度
ビッグデータは、ITパスポート・情報セキュリティマネジメント・基本情報技術者・応用情報技術者のすべてで出題されるテーマです。
「3つのVの特徴」や「活用事例の分類」を正確に理解しているかが問われます。データサイエンスやデータマイニングとの関連問題としても定番化しています。
詳細をクリックして確認
ITパスポート
情報セキュリティマネジメント
基本情報技術者
応用情報技術者
★★★★★
ランクS(超重要)絶対に覚える必要あり
用語の定義
ビッグデータ(Big Data)とは、一言で言うと
「従来のデータベースソフトでは処理しきれないほど巨大で多様、かつ高速に生成されるデータ群」
のことです。
イメージとしては、「街中すべての防犯カメラ・レジ・改札・SNS投稿が1秒ごとに吐き出すデータの洪水」です。
1台の防犯カメラの映像だけなら普通のパソコンで再生できます。
しかし、都市全体の防犯カメラ映像+全コンビニのPOSデータ+鉄道の乗降データ+SNS投稿を同時に扱おうとすると、量・種類・発生速度のすべてが桁違いになります。これがビッグデータです。
📊 ビッグデータの基本情報
| 項目 | 内容 |
|---|---|
| 英語名 | Big Data |
| 特徴 | 3つのV:Volume(量)・Variety(多様性)・Velocity(速度) |
| データの例 | POSデータ、SNS投稿、センサーログ、GPS位置情報、Webアクセスログ |
| 関連キーワード | データマイニング、データウェアハウス、NoSQL、IoT、AI |
解説
スマートフォンの普及やIoTセンサーの増加により、世の中で生成されるデータ量は指数関数的に増え続けています。総務省の情報通信白書(平成29年版)でも、このデータ量の爆発的拡大が重点テーマとして取り上げられました。
従来のRDBMS(関係データベース管理システム)だけでは、こうした膨大なデータを蓄積・処理しきれないケースが出てきました。
そこで登場したのが、分散処理基盤(Hadoopなど)やNoSQLデータベースといった新しい技術群です。
3つのV ― ビッグデータを特徴づける3要素
ビッグデータは「ただデータが大きい」だけではありません。以下の3要素が高い水準で揃っている点が本質です。
ビッグデータの「3つのV」
📦
Volume(量)
テラバイト〜ペタバイト級の膨大なデータ量。従来のDBでは格納・検索が困難になる規模。
🔀
Variety(多様性)
テキスト、画像、音声、動画、センサー値など、形式が異なる多種多様なデータを含む。
⚡
Velocity(速度)
リアルタイムまたは高頻度でデータが生成・更新される。秒単位で蓄積されるログやセンサー値が典型。
▲ 3Vのうち1つだけ満たすデータは「ビッグデータ」とは呼ばないのが一般的
データの種類 ― 構造化・非構造化・半構造化
ビッグデータには、従来のRDBMSが得意とする表形式のデータだけでなく、形式が定まっていないデータも大量に含まれます。
この違いを押さえることが理解の土台になります。
| 種類 | 説明 | 具体例 |
|---|---|---|
| 構造化データ | 行と列で整理された表形式のデータ。RDBMSで管理できる。 | 売上テーブル、顧客マスタ、在庫管理表 |
| 非構造化データ | 定められた形式を持たないデータ。そのままではRDBMSに格納しにくい。 | 画像、動画、音声、自由記述のテキスト |
| 半構造化データ | 完全な表形式ではないが、タグや階層で一定の構造を持つデータ。 | JSON、XML、HTMLファイル |
活用の流れ ― 蓄積から知見の発見まで
大量のデータを集めただけでは価値は生まれません。蓄積→分析→活用という流れを経て、初めてビジネス上の意思決定に結びつきます。
ビッグデータ活用の流れ
IoTセンサー
Webログ
POS
データウェア
ハウス
NoSQL
データ
マイニング
機械学習
需要予測
レコメンド
異常検知
▲ 収集→蓄積→分析→活用の4ステップで、初めてデータが「価値」になる
活用事例の分類
FE H31春 午前問64では、活用事例を「フィードバック先(個人/全体)」と「反映タイミング(即時/一定期間ごと)」の2軸で分類する問題が出ています。代表例を整理すると以下のようになります。
| 顧客全体向け | 顧客個人向け | |
|---|---|---|
| 一定期間ごと | 月別売上ランキングを店頭に掲示 | 購買額に応じた翌月クーポン発行 |
| 即時 | 道路の混雑状況をWebで公開 | 来店客の位置に合わせた商品推薦 |
では、この用語が試験でどのように出題されるか見ていきましょう。
💡 ビッグデータの核心を3行で
・Volume(量)・Variety(多様性)・Velocity(速度)の「3つのV」が特徴
・構造化データだけでなく、画像・音声・テキストなどの非構造化データも分析対象
・収集→蓄積→分析→活用のサイクルを経て、ビジネスの意思決定に結びつける
試験ではこう出る!
ビッグデータは、IP・SG・FE・APの午前問題で繰り返し出題されています。出題パターンは大きく3つに分かれます。
📊 過去問での出題実績
| 試験回 | 出題内容 | 問われたポイント |
|---|---|---|
| IP R3 問19 |
ビッグデータの分析に関する記述として最も適切なものを選ぶ問題。 | ・正解は「統計+機械学習で未知の状況を予測」 ・「動画や画像は対象外」「ブログは除外」がひっかけ |
| SG H29秋 問46 |
3Vの特徴を持つデータを分析する時代の変化について正しい記述を選ぶ問題。 | ・正解は「膨大なデータからパターンを発見」 ・「無作為抽出で精度向上」「クレンジングに力を注ぐ」がひっかけ |
| FE H31春 午前 問64 |
活用事例をフィードバック先と反映タイミングの2軸で分類する問題。 | ・正解は「即時×顧客個人」に該当する事例 ・4象限の分類を正しく判断できるかがカギ |
| AP R4春 午前 問30 |
ビッグデータの利用におけるデータマイニングの説明を選ぶ問題。 | ・正解は「隠れた規則や相関関係を見つけ出す」 ・データマート、データモデルがひっかけ |
📝 IPA試験での出題パターン
パターン1:「ビッグデータの分析に関する正しい記述を選べ」
IP R3問19のように、分析対象や分析手法の説明として正しいものを選ぶ形式。「非構造化データは分析対象外」「分析前提で収集されたデータだけが対象」といった誤った限定がひっかけになる。ビッグデータは多種多様なデータを対象とする、と覚えておけば即答できる。
パターン2:「3Vの特徴を選べ/3Vに含まれないものを選べ」
Volume・Variety・Velocityの3つを正確に覚えていれば得点できる。ひっかけとしてValidity(妥当性)やValue(価値)が紛れ込む場合がある。この2つは近年「5V」として言及されることがあるが、IPA試験では3Vが基本。
パターン3:「活用事例の分類」
FE H31春問64のように、フィードバック先(個人/全体)×反映タイミング(即時/一定期間)の2軸マトリクスに事例を当てはめる形式。問題文をよく読み、「誰に」「いつ」返すかを判断するだけでOK。
ここだけは確実に押さえてください。「3V=Volume・Variety・Velocity」「非構造化データも対象」の2点を覚えておけば、試験ではここまででOKです。深追いは不要です。
【確認テスト】理解度チェック
ここまでの内容を理解できたか、簡単なクイズで確認してみましょう。
Q. ビッグデータを特徴づける「3つのV」の組み合わせとして、最も適切なものはどれでしょうか?
- A. Value(価値)、Validity(妥当性)、Visibility(可視性)
- B. Volume(量)、Variety(多様性)、Velocity(速度)
- C. Volume(量)、Veracity(正確性)、Value(価値)
正解と解説を見る
正解:B
解説:
ビッグデータの特徴を表す3Vは、Volume(量)・Variety(多様性)・Velocity(速度)です。SG H29秋 問46でもこの3Vが問題文に明記されており、IPA試験における標準的な定義として定着しています。
選択肢Aに含まれるValue(価値)やValidity(妥当性)、Visibility(可視性)は、ビッグデータの議論で言及されることはあるものの、3Vには含まれません。選択肢CのVeracity(正確性)とValue(価値)は「5V」として言及される場合がありますが、IPA試験で問われる基本の3VはあくまでVolume・Variety・Velocityです。
よくある質問(FAQ)
Q. ビッグデータとデータウェアハウス(DWH)はどう違いますか?
データウェアハウスは、業務システムから抽出したデータを時系列に蓄積する「倉庫」の役割を持つ仕組みです。一方、ビッグデータは蓄積される対象そのもの(巨大で多様なデータ群)を指す概念です。つまり、DWHはビッグデータを格納・管理するための手段の1つです。AP R4春 問30の選択肢にも「データウェアハウスに格納されたデータの一部を切り出す」(=データマート)が登場しており、用語の区別が求められています。
Q. ビッグデータの活用にはどのような技術基盤が必要ですか?
代表的なのは、Apache Hadoopに代表される分散処理フレームワークです。データを複数のサーバに分散して並列処理することで、ペタバイト級のデータも現実的な時間で処理できます。また、NoSQLデータベース(MongoDB、Cassandraなど)はスキーマの柔軟性が高く、非構造化データの格納に適しています。ただし、IPA試験の範囲では個別の製品名よりも「分散処理」「NoSQL」という概念レベルで理解していれば十分です。
Q. 「5V」や「4V」と呼ばれることもありますか?
あります。近年はVeracity(正確性)やValue(価値)を加えて「5V」とする文献も増えています。ただし、IPA試験で問われるのは基本の3V(Volume・Variety・Velocity)です。5Vが選択肢に登場した場合は、3Vに含まれないものを選ばせる形式になるため、「Veracity=正確性」「Value=価値」は3Vの外であると判断できれば得点につながります。
Q. 個人情報保護の観点でビッグデータ活用に制限はありますか?
あります。個人を特定できるデータ(氏名、位置情報、購買履歴など)は個人情報保護法の規制対象です。日本では2017年の法改正で「匿名加工情報」の制度が整備され、特定の個人を識別できないよう加工すれば、本人の同意なく第三者提供が可能になりました。総務省の情報通信白書(平成29年版)でも、ビッグデータ利活用とプライバシー保護の両立が重要テーマとして取り上げられています。