情報処理試験を勉強していると、「ランダムフォレストって何?決定木と何が違うの?」と戸惑う場面があります。

名前だけ聞くと森を想像してしまいますが、れっきとした機械学習の手法です。この記事では、ランダムフォレストの意味と仕組みを日常の例えで噛み砕き、試験で得点できるレベルまで整理します。

対象試験と出題頻度

ランダムフォレストは、基本情報技術者・応用情報技術者で出題されるテーマです。

IPAシラバスVer.9.0(2024年適用)で用語例として明記され、アンサンブル学習の選択肢に登場するパターンが増えています。

詳細をクリックして確認
対象試験:
基本情報技術者
応用情報技術者
出題頻度:
★★★☆☆
ランクB(標準)覚えておくと有利

用語の定義

ランダムフォレスト(Random Forest)とは、一言で言うと

 「複数の決定木をランダムに作成し、それぞれの予測結果を多数決(または平均)で統合することで精度を高める機械学習の手法

のことです。

イメージとしては、100人の審査員による多数決です。

料理コンテストで1人の審査員だけに任せると、好みの偏りで評価がブレます。しかし、100人がそれぞれ独立に採点し、多数決で優勝を決めれば、個人の偏りに左右されない安定した結果が得られます。

ランダムフォレストも同じ発想で、「1本の決定木だけでは偏りやすい予測を、大量の木で補い合うことで安定させる」手法です。

📊 ランダムフォレストの基本情報

項目 内容
英語名 Random Forest
分類 教師あり学習 / アンサンブル学習(バギング系)
ベースモデル 決定木(Decision Tree)
対応タスク 分類(多数決)・回帰(平均値)
提唱者 Leo Breiman(2001年)

解説

決定木は「条件分岐を木構造で表現して予測する」シンプルなモデルですが、学習データに過度に適合してしまう過学習(オーバーフィッティング)を起こしやすい弱点があります。

この弱点を克服するために考案されたのがランダムフォレストです。

2001年にLeo Breimanが論文で体系化し、以来「精度が高いのに設定が簡単」という特長から、実務でも試験でも定番の手法になりました。

動作の流れ ― 3ステップ

ランダムフォレストの内部処理は、大きく3つのステップで構成されています。

ランダムフォレストの処理フロー

1

ブートストラップサンプリング

元の学習データから「重複あり」でランダムにデータを抽出し、決定木ごとに異なるサブセットを作る。

2

特徴量のランダム選択 + 決定木の学習

各決定木の分岐ごとに、使用する特徴量(説明変数)をランダムに絞り込んでから最適な分岐を決定する。これにより木同士の相関が下がり、多様な視点を持つ木の集団ができる。

3

結果の統合(アンサンブル)

分類タスクなら各木の予測の多数決、回帰タスクなら平均値を最終出力とする。

図解:1本の決定木 vs ランダムフォレスト

「なぜ木を増やすと精度が上がるのか」を視覚的に確認しましょう。

単一の決定木

年齢 ≥ 30?

Yes

購入する

No

購入しない

⚠ 1人の判断 → 偏りやすい

ランダムフォレスト

🌲木1: 購入
🌲木2: 不購入
🌲木3: 購入
🌲木4: 購入
🌲木5: 不購入
↓ 多数決
最終予測:購入する(3/5)

✅ 多数の判断 → 安定する

バギングとブースティングの違い

ランダムフォレストはアンサンブル学習の中でも「バギング(Bagging)」に分類されます。

もう1つの代表的なアプローチである「ブースティング(Boosting)」との違いを整理しておくと、選択肢の判別に役立ちます。

項目 バギング(Bagging) ブースティング(Boosting)
学習方式 各モデルを並列に独立して学習 前のモデルの誤りを修正しながら逐次学習
主な目的 分散(バラつき)を下げる バイアス(偏り)を下げる
代表手法 ランダムフォレスト XGBoost、AdaBoost
過学習耐性 比較的強い パラメータ調整を怠ると弱い

では、この用語が試験でどのように出題されるか見ていきましょう。

💡 ランダムフォレストの核心を3行で

・決定木を大量に作り、多数決 or 平均で最終予測を出すアンサンブル学習(バギング系)
・「データのサンプリング」と「特徴量の絞り込み」の2段階でランダム性を注入し、木同士の多様性を確保
・単一の決定木より過学習に強く、予測が安定する


試験ではこう出る!

ランダムフォレストは、IPAシラバスVer.9.0(2024年10月適用)で基本情報技術者・応用情報技術者の用語例に追加された比較的新しいキーワードです。

単独で名指し出題された過去問はまだ少ないものの、上位概念であるアンサンブル学習の選択肢として登場するケースが確認されています。

📊 関連する出題実績

試験回 出題内容 ランダムフォレストとの関連
AP R6秋
午前 問2
教師あり学習での交差検証の説明を選ぶ問題。選択肢イに「複数の異なるアルゴリズムのモデルで学習し結果を組み合わせる」(=アンサンブル学習)が登場。 ランダムフォレストはバギング系アンサンブル学習の代表。選択肢イの記述を「ランダムフォレストのこと」と早合点するとひっかかる。
高度 R6秋
午前I 問1
上記AP R6秋 問2と同一問題(午前I共通問題として流用)。 FE・AP・高度で同じ問題が出回る典型パターン。

📝 今後の出題で押さえるべきポイント

パターン1:「アンサンブル学習の説明を選べ」
正則化・交差検証・マルチタスク学習などの説明と並べて、「複数のモデルを組み合わせて精度を向上させる」手法を選ばせる形式。ランダムフォレストはバギングの代表例として問われる。ここだけは確実に押さえてください。

 

パターン2:「バギングとブースティングの違いを選べ」
バギング=並列・独立学習、ブースティング=逐次・誤り修正という対比が選択肢の核心。「ランダムフォレスト=バギング」という紐付けを覚えておけば即答できる。

 

試験ではここまででOKです。木の本数の決め方や特徴量重要度の計算式まで問われることはないため、深追いは不要です。


【確認テスト】理解度チェック

ここまでの内容を理解できたか、簡単なクイズで確認してみましょう。


Q. ランダムフォレストの説明として、最も適切なものはどれでしょうか?

  • A. 複数の決定木をそれぞれ異なるデータサブセットと特徴量で学習させ、各木の予測結果を多数決や平均で統合して最終出力とするアンサンブル学習の手法である。
  • B. ニューラルネットワークの隠れ層を多層化し、入力データの特徴を自動的に抽出して高精度な認識を行う手法である。
  • C. ラベルなしデータの中から類似するデータをグループにまとめ、データの構造やパターンを発見する教師なし学習の手法である。

正解と解説を見る

正解:A

解説:
ランダムフォレストは、バギングをベースに複数の決定木を並列に学習させ、その出力を集約するアンサンブル学習の代表手法です。分類では多数決、回帰では平均値を最終結果とします。

選択肢Bはディープラーニング(深層学習)の説明です。ランダムフォレストはニューラルネットワークとは異なり、決定木を基盤とします。選択肢Cはクラスタリング(k-means法など)の説明です。ランダムフォレストは教師あり学習であり、ラベル付きデータを使用する点でクラスタリングとは目的が異なります。


よくある質問(FAQ)

Q. ランダムフォレストは「教師なし学習」にも使えますか?

原則として教師あり学習の手法です。ラベル(正解データ)付きの学習データが必要で、分類タスクと回帰タスクの両方に対応します。教師なし学習が必要な場面では、k-means法や主成分分析といった別の手法を使います。試験で「教師なし学習の例」として選択肢にランダムフォレストが並んでいたら、それは不正解です。

Q. 「ランダム」は何がランダムなのですか?

2つの要素がランダムです。1つ目は「データのサンプリング」で、元の学習データから重複ありでランダムに抽出したサブセットを各決定木に与えます(ブートストラップサンプリング)。2つ目は「特徴量の選択」で、各ノードの分岐時に使う特徴量を全部ではなくランダムに一部だけ選びます。この二重のランダム化により、木ごとに異なる視点が生まれ、集団としての予測が安定します。

Q. サポートベクターマシン(SVM)とはどう使い分けますか?

SVMは「マージン最大化」で境界線を決める手法で、特徴量の次元が高いデータに強い一方、大規模データでは学習に時間がかかります。ランダムフォレストは大規模データでも学習が速く、特徴量の重要度を自動的に算出できる利点があります。実務ではデータの規模や求める解釈性に応じて使い分けます。IPA試験の範囲では、両者の仕組みの違いを問う問題は出ていませんが、「教師あり学習の代表手法」として名前が並ぶことはあります。

Q. 木の本数は多いほど良いのですか?

一般的に本数を増やすほど予測は安定しますが、ある程度を超えると精度の向上は頭打ちになり、計算時間だけが増えます。実務では100〜500本程度が出発点とされることが多く、精度と計算コストのバランスを見て調整します。IPA試験の範囲では「木の最適本数の計算」は出ないため、「本数を増やすと安定する」という定性的な理解で十分です。