情報処理試験を勉強していると、「教師あり学習と教師なし学習って何が違うの?」「クラスタリングはどっちに入るの?」と混乱しがちです。この記事では、2つの学習手法の違いを図解と比較表で整理し、試験で問われるポイントまで一気に解説します。
対象試験と出題頻度
教師あり学習・教師なし学習は、ITパスポート・基本情報技術者・応用情報技術者のすべてで出題されるテーマです。
機械学習の中核概念として、「正解ラベルの有無」で学習手法を正確に分類できるかが問われます。
詳細をクリックして確認
ITパスポート
基本情報技術者
応用情報技術者
★★★★☆
ランクA(重要)必ず覚えておくべき
用語の定義
まずは2つの学習手法をそれぞれ一言で定義します。
教師あり学習(Supervised Learning)とは、一言で言うと
「正解ラベル付きのデータをコンピュータに与え、入力と正解の対応関係を学習させる手法」
のことです。
イメージとしては、「赤ペンで正解が書かれた問題集を使ったテスト勉強」です。問題と正解のセットを何百回も繰り返せば、初見の問題でも正しく答えられるようになります。
教師なし学習(Unsupervised Learning)とは、一言で言うと
「正解ラベルを与えずにデータだけを投入し、データに潜むパターンや構造を自動で発見させる手法」
のことです。
イメージとしては、「大量の写真を渡されて、自分の基準で似たもの同士に仕分けするアルバイト」です。正解は誰にも教えてもらえませんが、色や形といった特徴を手がかりにグループを作っていきます。
📊 教師あり学習・教師なし学習の基本情報
| 項目 | 教師あり学習 | 教師なし学習 |
|---|---|---|
| 英語名 | Supervised Learning | Unsupervised Learning |
| 訓練データ | 正解ラベル付き | 正解ラベルなし |
| 代表的なタスク | 分類、回帰 | クラスタリング、次元削減 |
| 上位概念 | 機械学習(Machine Learning) | |
解説
機械学習の手法を「データの与え方」で分類すると、教師あり学習・教師なし学習・強化学習の3種類に分かれます。このうち試験で最も頻繁に比較されるのが教師ありと教師なしの2つです。
ここでは、それぞれの仕組みと代表的な手法を掘り下げます。
教師あり学習の仕組みと代表手法
教師あり学習では、入力データとそれに対応する正解(ラベル)のペアを大量に用意し、モデルに「この入力にはこの正解が対応する」というパターンを繰り返し学ばせます。学習後のモデルは、未知の入力データに対しても正解を推定できるようになります。
代表的なタスクは「分類」と「回帰」の2つです。分類は「迷惑メールか否か」のようにカテゴリを出力するタスク、回帰は「来月の売上金額」のように連続的な数値を出力するタスクです。
教師あり学習の流れ
訓練データ
(正解ラベル付き)
モデルが
パターンを学習
未知データ
を入力
分類・回帰の
結果を出力
▲ 正解ラベル付きデータで訓練 → 未知データに対して予測を行う
教師なし学習の仕組みと代表手法
教師なし学習では、正解ラベルを一切与えません。
モデルはデータ間の類似度や分布構造だけを手がかりに、データの中に潜むグループや法則性を自力で見つけ出します。
代表的な手法は「クラスタリング」です。顧客の購買履歴をもとに「似た購買傾向の顧客グループ」を自動生成するといった用途で使われます。
もう一つの代表手法として「主成分分析(次元削減)」があり、大量の変数を少数の主成分に圧縮してデータの傾向を把握しやすくする目的で使われます。
教師なし学習の流れ(クラスタリングの場合)
ラベルなしデータ
(正解なし)
類似度を分析
パターン発見
自動グループ化
▲ 正解なしのデータから類似度をもとに自動でグループを形成する
2つの学習手法の比較
ここだけは確実に押さえてください。2つの手法の違いは「正解ラベルの有無」と「目的」の2軸で整理すると明確になります。
| 比較軸 | 教師あり学習 | 教師なし学習 |
|---|---|---|
| 正解ラベル | あり(必須) | なし |
| 目的 | 未知データの分類・数値予測 | データの構造やグループの発見 |
| 代表手法 | 分類(決定木、SVMなど)、回帰(線形回帰など) | クラスタリング、主成分分析 |
| 活用例 | 迷惑メール判定、売上予測、画像認識 | 顧客セグメンテーション、異常検知 |
| 試験キーワード | 「正解データ」「ラベル付き」「分類」「回帰」 | 「ラベルなし」「クラスタリング」「グループ化」 |
強化学習との位置関係
機械学習にはもう1つ「強化学習」があります。強化学習は正解データの代わりに「行動に対する報酬(得点)」を与え、累積報酬が最大になる行動戦略を学ばせる手法です。囲碁AIや自動運転の経路最適化が代表例です。
3つの手法の関係を一枚に整理すると以下の通りです。
機械学習の3分類マップ
教師あり学習
正解ラベル ✅
分類・回帰
教師なし学習
正解ラベル ❌
クラスタリング・次元削減
強化学習
報酬(得点) 🏆
最適行動の探索
▲ データの与え方(ラベル/なし/報酬)で3つに分かれる
詳細解説:もう少し深く知りたい方向け(折りたたみ)
教師あり学習の代表アルゴリズム:分類タスクには「決定木」「SVM(サポートベクターマシン)」「k-NN(k近傍法)」、回帰タスクには「線形回帰」「ロジスティック回帰」が使われます。IPやFEではアルゴリズム名を直接問われることは少なく、「正解ラベルを使って分類・予測を行う」という大枠を理解していれば十分です。
教師なし学習の代表アルゴリズム:「k-means法」はクラスタリングの定番で、データをk個のクラスタに分割します。「主成分分析(PCA)」は多次元データを少数の軸に圧縮する手法です。AP R1秋 午前問4で「クラスタリング=教師なし学習」の対応が出題されています。
強化学習の補足:「報酬」「得点」「試行錯誤」というキーワードが選択肢に出てきたら強化学習の手がかりです。FE H31春 問4では「個々の行動に対して得点を与える」が強化学習のひっかけ選択肢として登場しました。
では、これらの知識が試験でどのように問われるか見ていきましょう。
💡 教師あり学習・教師なし学習の核心を3行で
・教師あり学習=正解ラベル付きデータで訓練し、未知データを分類・予測する手法
・教師なし学習=ラベルなしデータから構造やグループを自動発見する手法(代表:クラスタリング)
・判別の決め手は「正解ラベルの有無」。回帰・分類→教師あり、クラスタリング→教師なし、報酬→強化学習
試験ではこう出る!
教師あり学習・教師なし学習は、IP・FE・APの午前問題で毎回のように出題されています。出題パターンは大きく3つです。
📊 過去問での出題実績
| 試験回 | 出題内容 | 問われたポイント |
|---|---|---|
| IP R6 問65 |
教師あり・教師なし学習の説明文の穴埋め問題。a=分類、b=回帰、c=クラスタリング | ・「分類」「回帰」は教師あり学習のタスク ・「クラスタリング」は教師なし学習のタスク |
| IP R4 問24 |
教師あり学習の事例を選ぶ問題。泣き声と原因のペアデータが正解 | ・入力と正解のペアが揃っているか判断 ・強化学習(ロボットの試行錯誤)がひっかけ |
| FE H31春 問4 |
教師あり学習の説明として正しいものを選ぶ問題 | ・正解は「正解データを提示して学習」 ・「得点を与える」=強化学習がひっかけ |
| AP R1秋 午前 問4 |
教師なし学習で用いられる手法を選ぶ問題 | ・正解は「クラスタリング」 ・「回帰分析」=教師あり学習がひっかけ |
📝 IPA試験での出題パターン
パターン1:「学習手法の定義を選べ」
教師あり・教師なし・強化学習の説明文が並び、指定された学習手法に該当するものを選ぶ形式。FE H31春 問4が典型。「正解データを提示→教師あり」「得点を与える→強化学習」「クラスタリング→教師なし」のキーワード対応を反射的に判断できればOK。
パターン2:「具体事例がどの学習手法か選べ」
IP R4 問24のように、具体的なビジネス事例を提示し、どの学習手法に該当するかを判断させる形式。入力データに「正解の組」が与えられているかどうかで判断する。
パターン3:「穴埋めで手法名を選べ」
IP R6 問65のように、文中の空欄に「分類」「回帰」「クラスタリング」を当てはめる形式。教師あり学習=分類+回帰、教師なし学習=クラスタリングの対応を正確に覚えておけば即答できる。
試験ではここまででOKです。各アルゴリズムの数式やパラメータ設定は午前問題では問われないので、深追いは不要です。
【確認テスト】理解度チェック
ここまでの内容を理解できたか、簡単なクイズで確認してみましょう。
Q. 機械学習において、正解ラベルを付けた訓練データを使い、未知のデータに対する分類や数値予測を行う学習手法はどれでしょうか?
- A. 正解ラベル付きの訓練データを与え、入力と正解の対応関係を学習させることで、未知データに対して分類や数値予測を行う手法。
- B. 正解ラベルなしのデータをモデルに投入し、データ間の類似度をもとに自動でグループ化する手法。
- C. 行動に対して報酬を与え、累積報酬を最大化する行動戦略を試行錯誤で獲得する手法。
正解と解説を見る
正解:A
解説:
教師あり学習は、正解ラベル付きの訓練データで入力と出力の対応関係を学ばせ、未知データに対する予測を可能にする手法です。FE H31春 問4やIP R4 問24で繰り返し出題されています。
選択肢Bは教師なし学習の説明です。正解ラベルを使わずにデータ構造を発見する手法であり、クラスタリングがその代表です。選択肢Cは強化学習の説明です。「報酬」をフィードバックとして最適行動を探索する手法であり、訓練データに正解ラベルを付ける教師あり学習とはアプローチが異なります。
よくある質問(FAQ)
Q. 「半教師あり学習」とは何ですか?
半教師あり学習(Semi-supervised Learning)は、少量の正解ラベル付きデータと大量のラベルなしデータを組み合わせて学習する手法です。正解ラベルの付与にはコスト(人手と時間)がかかるため、すべてのデータにラベルを付けるのが現実的でない場合に有効です。IPA試験の範囲では深掘りされませんが、「教師あり」と「教師なし」の中間に位置する概念として知っておくと理解が整理されます。
Q. 教師なし学習のクラスタリングと教師あり学習の分類は何が違いますか?
どちらも「データをグループに分ける」という点では似ていますが、決定的な違いがあります。教師あり学習の分類は「迷惑メール/正常メール」のように分類先があらかじめ定義されており、正解ラベルに基づいて振り分けます。一方、教師なし学習のクラスタリングは分類先が事前に定義されておらず、データ間の類似度だけを頼りにモデル自身がグループを生成します。AP R1秋 午前問4で出題された際も、この違いが正解の根拠になっています。
Q. 画像認識は教師あり学習と教師なし学習のどちらですか?
画像認識は一般的に教師あり学習に分類されます。「犬」「猫」などのラベルが付いた大量の画像で訓練し、未知の画像に対してカテゴリを判定するのが典型的な構成です。ただし、大量のラベルなし画像を使って画像の特徴表現を学習する「自己教師あり学習」のようなアプローチも存在します。試験では「画像認識=教師あり学習」と判断して問題ありません。
Q. 教師あり学習・教師なし学習は実務ではどう使い分けますか?
正解データが十分に集まる場合は教師あり学習が第一選択です。迷惑メール判定、不良品検知、需要予測など「何を予測したいか」が明確な場面で力を発揮します。一方、正解データが存在しない、あるいは「まずデータの全体像を把握したい」という場面では教師なし学習を使います。ECサイトの顧客を購買傾向ごとにグループ化するセグメンテーションや、通信ログから異常パターンを検出する異常検知が代表的な活用例です。