情報処理試験を勉強していると、「決定木ってデータ構造の木と何が違うの?」「デシジョンツリーと同じもの?」と混乱しがちです。この記事では、決定木の意味・仕組みから試験での出題パターンまでを図解付きで整理します。

対象試験と出題頻度

決定木は、基本情報技術者・応用情報技術者で出題されるテーマです。

機械学習の教師あり学習に分類される手法として、ランダムフォレストやニューラルネットワークとの使い分けが問われます。

また、ビジネス分野では「デシジョンツリー」として期待値の計算問題にも登場します。

詳細をクリックして確認
対象試験:
基本情報技術者
応用情報技術者
出題頻度:
★★★☆☆
ランクB(標準)覚えておくと有利

用語の定義

決定木(Decision Tree)とは、一言で言うと

 「条件分岐を木構造で繰り返し、データを分類または数値を予測する機械学習の手法

のことです。

イメージとしては、病院の問診フローチャートです。

「熱はありますか?」→「咳は出ますか?」→「いつから?」と質問を繰り返し、最終的に「風邪の可能性が高い」「インフルエンザの疑いあり」のように結論を導きます。

決定木はまさにこれと同じ構造で、データの特徴量に対して「YES/NO」を繰り返しながら答えにたどり着きます。

📊 決定木の基本情報

項目 内容
英語名 Decision Tree
別名 デシジョンツリー / 判定木
機械学習での分類 教師あり学習(分類・回帰)
IPAシラバス上の位置 基礎理論 > AI > 機械学習

解説

大量のデータから「どの顧客が商品を購入するか」「不良品かどうか」を判別したいとき、人間が条件をひとつずつ手作業で設定するのは非現実的です。

決定木は、学習データを使って「どの特徴量で・どの値を基準に分岐するのが最も効率的か」をアルゴリズムが自動で算出します。

ツリーの構造と用語

決定木の構造は、ルートノード(根)から始まり、内部ノード(条件分岐)を経て、リーフノード(最終的な分類結果)に至ります。

決定木の構造イメージ(果物の分類)

色は赤い?
YES NO
直径5cm以上?
形は細長い?
YES NO YES NO
🍎 リンゴ
🍒 サクランボ
🍌 バナナ
🍊 ミカン

▲ 四角 = 条件分岐ノード / 丸角 = リーフノード(分類結果)

分類木と回帰木

決定木には「分類木」と「回帰木」の2種類があります。

分類木はカテゴリ(例:良品/不良品)を予測し、回帰木は連続値(例:売上金額)を予測します。IPA試験の文脈では分類木が扱われることが大半です。

種類 予測するもの 具体例
分類木 カテゴリ(離散値) スパム/非スパム、良品/不良品
回帰木 数値(連続値) 住宅価格、売上予測

関連手法との位置づけ

決定木は「教師あり学習」に属します。同じカテゴリの代表的な手法と比較すると、それぞれの強みが明確になります。

手法 特徴 強み
決定木 条件分岐のツリーで判定 結果の根拠が人間に理解しやすい
ランダムフォレスト 複数の決定木の多数決で判定 単体の決定木より精度が高い
ニューラルネットワーク 脳の神経回路を模した構造で学習 画像・音声など複雑なパターン認識に強い
線形回帰 直線で関係性を表現 計算がシンプルで数値予測向き

ここだけは確実に押さえてください。

決定木の最大の特徴は「判定根拠が目に見える」ことです。

ニューラルネットワークは精度が高い反面、なぜその結論に至ったかが分かりにくい(ブラックボックス問題)のに対し、決定木はツリーをたどれば「なぜその分類になったか」が一目で分かります。

もう少し詳しく知りたい方へ:分岐基準の考え方

決定木がどの特徴量で分岐するかを決める際には、「情報利得(Information Gain)」や「ジニ不純度(Gini Impurity)」といった指標が使われます。直感的に言えば、「その分岐によって、データがどれだけきれいに分かれるか」を数値で測り、最もきれいに分かれる条件を優先的に選びます。

たとえば100人の顧客データを「年齢30歳以上か」で分岐したとき、購入者と非購入者がほぼ均等に混ざったままなら情報利得は小さく、きれいに分かれれば情報利得は大きくなります。試験範囲ではここまで深追いされることはほぼないため、「何らかの基準でデータを効率よく分割する」という理解で十分です。

では、この用語が試験でどのように出題されるか見ていきましょう。

💡 決定木の核心を3行で

・条件分岐をツリー状に繰り返してデータを分類・予測する教師あり学習の手法
・判定の根拠が可視化されるため、結果の説明性が高い
・複数の決定木を束ねた手法がランダムフォレスト


試験ではこう出る!

決定木は、FE・APの科目A(午前)で2つの文脈から出題されます。1つ目は機械学習の手法としての出題、2つ目は「デシジョンツリー」として期待値を計算させるビジネス寄りの出題です。

📊 過去問での出題実績

試験回 出題内容 問われたポイント
FE R1秋
問73
生産現場における機械学習の活用事例を選ぶ問題。 ・選択肢アが決定木分析の事例(ひっかけ)
・「ロボット自らが学ぶ」=機械学習が正解
・決定木分析と機械学習の区別が必要
FE R3免除
問76
デシジョンツリーを用いて期待値が最大となるマーケティング施策を選ぶ計算問題。 ・分岐点ごとに期待値を計算
・「追加費用を払うか否か」の意思決定が含まれる
AP R5春
午前 問75
上記FE R3問76と同一構成のデシジョンツリー計算問題(流用)。 ・FEとAPで同じ問題が出回る典型例
・R1秋AP問74、H30春AP問75でも同型が出題
FE R3免除
問63
データサイエンティストのスキルとして「決定木分析、ニューラルネットワークなどのモデリング手法の選択」が正解選択肢に含まれる。 ・決定木がモデリング手法の一例として登場
・用語の正確な位置づけを知っているかが鍵

📝 IPA試験での出題パターン

パターン1:機械学習の手法を選ばせる問題
「決定木分析の活用事例」「教師あり学習の手法はどれか」のように、他の手法(クラスタリング、ニューラルネットワークなど)との区別を求められる形式。キーワードは「ツリー状に分岐」「統計的に分類」。

 

パターン2:デシジョンツリーの期待値計算
AP・FEともに定番の計算問題。ツリー図に示された分岐確率と利益額から期待値を求め、最大利益となる施策を選ぶ。解法は「末端のノードから順に期待値を計算し、上位の分岐点で意思決定する」の一択。

 

パターン1は知識問題なので即答可能。パターン2は計算が必要ですが、手順を覚えれば確実に得点できます。深追いは不要です。


【確認テスト】理解度チェック

ここまでの内容を理解できたか、簡単なクイズで確認してみましょう。


Q. 決定木(デシジョンツリー)の説明として、最も適切なものはどれでしょうか?

  • A. ラベルなしのデータ群を類似度に基づいてグループ分けし、隠れたパターンを見つけ出す手法。
  • B. 脳の神経細胞を模した多層構造により、入力データの特徴を自動的に抽出して学習する手法。
  • C. 条件分岐をツリー構造で繰り返し、データを段階的に分類または数値を予測する教師あり学習の手法。

正解と解説を見る

正解:C

解説:
決定木は、条件分岐を木構造で段階的に繰り返してデータを分類・予測する教師あり学習の代表的な手法です。判定過程がツリーとして可視化されるため、結果の解釈性が高い点が特徴です。

選択肢Aはクラスタリング(教師なし学習)の説明です。クラスタリングはラベルのないデータを対象とし、データ間の類似度でグループを自動生成します。選択肢Bはニューラルネットワーク(ディープラーニング)の説明です。多層の人工ニューロンで構成され、画像認識や自然言語処理に強みを持ちますが、判定根拠の解釈が難しいという性質があります。


よくある質問(FAQ)

Q. 決定木とランダムフォレストの関係は?

ランダムフォレストは、複数の決定木を生成し、それぞれの判定結果の多数決(分類の場合)または平均値(回帰の場合)で最終結果を出すアンサンブル学習の手法です。単体の決定木は過学習(訓練データに適合しすぎて未知データへの精度が落ちる現象)を起こしやすいという弱点があり、ランダムフォレストはそれを補う目的で使われます。

Q. 「決定木分析」と「デシジョンツリー(意思決定木)」は同じものですか?

名称は同じですが、文脈によって意味合いが異なります。機械学習の文脈では、データの分類・予測に使う「分析モデル」を指します。一方、経営やプロジェクトマネジメントの文脈では、選択肢と発生確率をツリー状に整理して期待値を計算する「意思決定の支援ツール」として使われます。IPA試験では両方の文脈で出題されるため、問題文の文脈から判断する必要があります。

Q. 決定木は実務ではどんな場面で使われますか?

代表的な活用場面は、顧客の購買予測(マーケティング)、与信審査(金融)、製造ラインの不良品判定(製造業)などです。判定根拠を人間が確認できるため、「なぜこの顧客を高リスクと判定したのか」を説明する義務がある金融・医療分野では特に重宝されます。

Q. 期待値の計算問題が苦手です。解くコツはありますか?

ツリーの末端(右端)から順に計算するのが鉄則です。まず末端の確率ノード(○マーク)で「利益 × 確率」の合計を求め、次に意思決定ノード(□マーク)で「どちらの選択肢が期待値が大きいか」を判定します。これを左方向へ繰り返し、最終的にルート(最初の分岐点)まで到達すれば答えが出ます。計算量は多く見えますが、やっていることは掛け算と足し算の繰り返しです。