情報処理試験を勉強していると、「機械学習って結局AIと何が違うの?」「教師あり学習と教師なし学習、どっちがどっち?」と混乱しがちです。この記事では、機械学習の全体像を整理し、3つの学習手法の違いから試験で問われるポイントまで一気に解説します。
対象試験と出題頻度
機械学習は、ITパスポート・基本情報技術者・応用情報技術者のすべてで出題されるテーマです。
AI(人工知能)の中核技術として、学習手法の分類(教師あり・教師なし・強化学習)や過学習の概念を正確に区別できるかが問われます。
詳細をクリックして確認
ITパスポート
基本情報技術者
応用情報技術者
★★★★★
ランクS(超重要)絶対に覚える必要あり
用語の定義
機械学習(Machine Learning)とは、一言で言うと
「大量のデータからパターンやルールをコンピュータが自動で学習し、未知のデータに対して予測・判定を行う技術」
です。
イメージとしては、「何千枚もの写真を見て目利きを覚える鑑定士の修行」です。
新人の鑑定士は最初、本物と偽物の区別がつきません。しかし、師匠が「これは本物」「これは偽物」と大量の現物を見せながら教えていくと、やがて新人は自分の目で判断できるようになります。
誰にも教えてもらえなくても、大量の作品を見続ければ「似た作風をグループ分け」する力も身につきます。機械学習はこの「経験から学ぶプロセス」をコンピュータ上で再現した技術です。
機械学習の基本情報
| 項目 | 内容 |
|---|---|
| 英語名 | Machine Learning |
| 上位概念 | AI(人工知能) |
| 下位概念 | ディープラーニング(深層学習) |
| 3つの学習手法 | 教師あり学習、教師なし学習、強化学習 |
| 関連キーワード | 過学習(オーバーフィッティング)、クラスタリング、ニューラルネットワーク、回帰分析 |
解説
AIの歴史を振り返ると、初期のAIは人間がルールを一つ一つ手作業で定義する「ルールベース」の手法が主流でした。しかし、現実世界の問題は複雑で、すべてのルールを人が書き切るのは不可能です。
この限界を突破するために登場したのが、データから法則性を自動抽出するアプローチです。
コンピュータ自身が大量の事例を読み込み、どのパターンが正解に近いかを統計的に割り出していく。このアプローチこそが機械学習の本質です。
AIとの包含関係
機械学習はAIの一部であり、さらにその中にディープラーニングが含まれます。
この入れ子構造はすべての試験区分で前提知識として問われるため、ここだけは確実に押さえてください。
AI ⊃ 機械学習 ⊃ ディープラーニング
ラーニング
▲ AIが最も広い概念。機械学習はその一部、ディープラーニングはさらにその一部
3つの学習手法
機械学習は、データの与え方によって3種類に分かれます。この分類は全試験区分で繰り返し出題される最重要ポイントです。
| 学習手法 | データの与え方 | 具体例 |
|---|---|---|
| 教師あり学習 | 正解ラベル付きのデータを与える | 迷惑メール判定、画像分類、回帰分析(売上予測など) |
| 教師なし学習 | 正解ラベルなしのデータを与える | クラスタリング(顧客グループ分け)、次元削減 |
| 強化学習 | 行動に対する報酬(スコア)を与える | 囲碁・将棋AI、自動運転の経路最適化 |
3つの学習手法のイメージ図
教師あり学習
正解付きのデータで訓練
→ 未知データを分類・予測
教師なし学習
ラベルなしデータを投入
→ 類似データを自動グループ化
強化学習
行動→報酬のフィードバック
→ 最適な行動戦略を獲得
▲ データの与え方(ラベルの有無・報酬の有無)で3つに分かれる
詳細解説:3つの学習手法をもう少し深く知りたい方向け
教師あり学習は、入力データと正解のペアを大量に与えて学習させます。テスト勉強に例えると、問題集に赤字で正解が書いてある状態です。代表的なアルゴリズムには、分類用の「決定木」「SVM(サポートベクターマシン)」、数値予測用の「線形回帰」があります。
教師なし学習は、正解を与えずにデータの構造やパターンを見つけ出します。テスト勉強で例えると、正解なしの大量の問題を渡されて「似た問題を自分でグループ分けしてみて」と言われる状態です。代表手法は「クラスタリング」で、AP R1秋 午前問4で出題されました。
強化学習は、正解を直接教えず「良い行動をしたら得点を与える」方式です。ゲームAIが自己対戦を繰り返して強くなる仕組みがこれに当たります。「報酬」「得点」というキーワードが選択肢に出てきたら強化学習の手がかりになります。
過学習(オーバーフィッティング)
機械学習を語るうえで避けて通れない概念が「過学習」です。これは、モデルが訓練データに過剰に適合してしまい、訓練データに対しては高精度だが未知のデータに対しては精度が下がる状態を指します。
過学習のイメージ
正常な学習
📈
訓練 ⭕ 高精度
未知 ⭕ 高精度
大まかな傾向を捉えている
過学習
📉
訓練 ⭕ 高精度
未知 ❌ 低精度
ノイズまで丸暗記してしまう
▲ 過学習は「テストの丸暗記」と同じ。暗記した問題は解けるが、初見の問題に対応できない
過学習の主な原因は、訓練データの不足とモデルの過度な複雑さです。解消方法としては「訓練データを増やす」「モデルの複雑さを抑える(正則化)」が代表的です。
では、これらの知識が試験でどのように問われるか見ていきましょう。
機械学習の核心を3行で
・データからパターンを自動抽出するAIの中核技術(AI ⊃ 機械学習 ⊃ ディープラーニング)
・教師あり(正解ラベル付き)・教師なし(ラベルなし)・強化学習(報酬ベース)の3分類
・過学習=訓練データに過剰適合し、未知データへの精度が落ちる現象
試験ではこう出る!
機械学習は、IP・FE・APの午前問題で毎回のように出題される最頻出テーマです。出題パターンは大きく3つに分かれます。
過去問での出題実績
| 試験回 | 出題内容 | 問われたポイント |
|---|---|---|
| IP R6 問65 |
教師あり学習・教師なし学習・強化学習の説明文の穴埋め問題 | ・教師あり=「正解を付けた学習データ」+「分類」「回帰」 ・教師なし=「クラスタリング」 ・強化学習=「報酬」 |
| FE H31春 問4 |
教師あり学習の説明として正しいものを選ぶ問題 | ・正解は「正解データを与えて学習」 ・強化学習の「得点を与える」がひっかけ |
| AP R1秋 午前 問4 |
教師なし学習で用いられる手法を選ぶ問題 | ・正解は「クラスタリング」 ・回帰分析(教師あり)がひっかけ |
| AP R4秋 午前 問4 |
過学習の説明を選ぶ問題 | ・正解は「訓練データに高精度だが未知データに精度が下がる」 ・転移学習・誤差逆伝播法がひっかけ |
| AP R7春 午前 問3 |
過学習の解消方法を選ぶ問題 | ・正解は「訓練データを加工して増やす」 ・「訓練データをテストに流用」はNG |
IPA試験での出題パターン
パターン1:「学習手法の分類を選べ」
教師あり・教師なし・強化学習の定義文を並べ、正しい組み合わせや該当する手法を選ばせる形式。IPで穴埋め型、FEで4択型が多い。「正解ラベル→教師あり」「クラスタリング→教師なし」「報酬→強化学習」の対応を即答できればOK。
パターン2:「過学習の意味・対処法を選べ」
AP午前で定番化しているパターン。「訓練データへの精度は高いが未知データへの精度が低下する現象」という定義が正解になる。転移学習・誤差逆伝播法の説明をひっかけに混ぜてくる。
パターン3:「具体的手法を選べ」
教師なし学習の具体手法として「クラスタリング」を選ばせる形式。「回帰分析」「モンテカルロ法」など紛らわしい選択肢に注意。
試験ではここまででOKです。アルゴリズムの数式やパラメータチューニングの詳細は午前試験では問われないので、深追いは不要です。
【確認テスト】理解度チェック
ここまでの内容を理解できたか、簡単なクイズで確認してみましょう。
Q. 機械学習における「教師なし学習」の説明として、最も適切なものはどれでしょうか?
- A. 個々の行動に対して報酬を与え、累積報酬が最大となる行動戦略を学習する手法である。
- B. 正解ラベルを付けていないデータを入力し、データに潜むパターンや構造(クラスタリングなど)を自動で発見する手法である。
- C. 正解ラベル付きの訓練データを入力し、未知のデータに対して分類や数値予測を行う手法である。
正解と解説を見る
正解:B
解説:
教師なし学習は、正解ラベルが付いていないデータから、データ間の類似性や構造を自動的に発見する手法です。代表的な手法がクラスタリングで、AP R1秋 午前問4で「教師なし学習で用いられる手法」として出題されました。
選択肢Aは強化学習の説明です。強化学習は「報酬」をもとに最適な行動を探索する手法であり、ラベルなしデータのグループ化を目的とする教師なし学習とは仕組みが異なります。選択肢Cは教師あり学習の説明です。教師あり学習は正解ラベル付きのデータで訓練するため、「ラベルなし」で学習する教師なし学習とは正反対のアプローチです。
よくある質問(FAQ)
Q. 機械学習とディープラーニングの境界はどこですか?
ディープラーニングは機械学習の一手法であり、ニューラルネットワークの隠れ層を2層以上に深くした構造が特徴です。決定木やSVMなどニューラルネットワークを使わない手法は「機械学習ではあるがディープラーニングではない」に分類されます。IPA試験では「ディープラーニング=ニューラルネットワークの多層化」と覚えておけば得点に十分対応できます。
Q. 「回帰」と「分類」はどう違いますか?
どちらも教師あり学習の代表的なタスクですが、出力の型が異なります。分類は「迷惑メールか否か」のようにカテゴリを出力するタスク、回帰は「明日の気温は何度か」のように連続的な数値を出力するタスクです。IP R6 問65でも「分類」と「回帰」の違いが穴埋め形式で出題されています。
Q. 機械学習は実務ではどのような場面で使われていますか?
実務では、ECサイトのレコメンド機能(購買履歴から好みを推定)、製造ラインの不良品検知(画像認識)、金融機関の不正検知(取引パターンの異常検出)、需要予測(在庫最適化)など幅広く活用されています。教師あり学習は分類・予測系、教師なし学習は顧客セグメンテーション、強化学習はロボット制御や広告配信の最適化といった形で使い分けられています。
Q. 「転移学習」や「誤差逆伝播法」は試験で深く問われますか?
午前試験では「転移学習=学習済みモデルを別領域に再利用する手法」「誤差逆伝播法=出力と正解の誤差を逆方向に伝えて重みを更新する学習アルゴリズム」という一文レベルの理解で十分です。これらは過学習の選択肢に紛れ込むひっかけ要員として登場するケースが大半であり、計算や具体的なアルゴリズムの手順は試験範囲では深掘りされません。