情報処理試験を勉強していると、「適合率と再現率、結局どっちがどっち?」と混乱しがちです。
この記事では、適合率の意味と計算式を日常の例え話で噛み砕き、試験で得点できる状態まで導きます。
対象試験と出題頻度
適合率は、応用情報技術者(AP)の午前問題で出題されるテーマです。
機械学習の2クラス分類モデルを評価する文脈で、再現率やROC曲線とセットで問われます。
単体で「適合率の式を選べ」と問われることもあれば、ROC曲線の選択肢に紛れ込む形で登場することもあります。
詳細をクリックして確認
応用情報技術者
★★★☆☆
ランクC(応用)余裕があれば覚える
用語の定義
適合率(Precision)とは、一言で言うと
「モデルが『陽性』と予測した件数のうち、実際に陽性だった件数の割合」
のことです。
イメージとしては、「迷惑メールフィルタの信頼度」です。
フィルタが「これは迷惑メールだ」と判定したメールが10通あったとして、そのうち本当に迷惑メールだったのが8通なら、適合率は80%です。残り2通は通常のメールを誤って弾いてしまった「誤検知」にあたります。
つまり適合率は、「陽性と言い切ったものの正確さ」を測る指標です。
📊 適合率の基本情報
| 項目 | 内容 |
|---|---|
| 英語名 | Precision |
| 計算式 | TP ÷(TP + FP) |
| 分類 | 2クラス分類モデルの評価指標 |
| 関連指標 | 再現率(Recall)、F値、正解率(Accuracy)、ROC曲線 |
解説
混同行列と4つの判定結果
適合率の計算式を理解するには、まず「混同行列(Confusion Matrix)」を押さえる必要があります。
ディープラーニングを含む機械学習の2クラス分類では、モデルの予測結果と実際の正解ラベルの組み合わせが4パターンに分かれます。
混同行列(Confusion Matrix)
| 予測 | |||
| 陽性 | 陰性 | ||
| 実際 | 陽性 | TP (真陽性) |
FN (偽陰性) |
| 陰性 | FP (偽陽性) |
TN (真陰性) |
|
▲ 緑=正しい判定、赤=誤った判定
TP(True Positive)は「陽性を正しく陽性と予測」、FP(False Positive)は「本当は陰性なのに陽性と予測」した件数です。適合率はこのTPとFPだけを使って計算します。
適合率の計算式と具体例
適合率の計算式
Precision = TP ÷(TP + FP)
例として、病気の検査モデルが100人を判定した結果を考えます。モデルが「陽性(病気あり)」と判定したのが20人、そのうち本当に病気だったのが15人だった場合、適合率は 15 ÷ 20 = 0.75(75%)です。
📊 具体的な数値例
| 予測 | |||
| 陽性 | 陰性 | ||
| 実際 | 陽性 | TP = 15 | FN = 5 |
| 陰性 | FP = 5 | TN = 75 | |
適合率 = 15 ÷(15 + 5)= 0.75(75%)
再現率 = 15 ÷(15 + 5)= 0.75(75%)
再現率(Recall)との違い
ここだけは確実に押さえてください。適合率と再現率は「分母が違う」だけですが、この違いが意味するところは大きく異なります。
| 指標 | 計算式 | 意味 |
|---|---|---|
| 適合率 | TP ÷(TP + FP) | 「陽性と予測した」中での正解率。誤検知の少なさを示す |
| 再現率 | TP ÷(TP + FN) | 「実際に陽性」の中での捕捉率。見逃しの少なさを示す |
両者はトレードオフの関係にあります。
判定基準を厳しくすると「確信のあるものだけ陽性にする」ため適合率は上がりますが、見逃し(FN)が増えて再現率は下がります。逆に基準を緩めると再現率は上がるものの、誤検知(FP)が増えて適合率は下がります。
この両者のバランスを1つの数値で表す指標がF値(F1スコア)で、適合率と再現率の調和平均で算出します。
詳細解説:なぜ「調和平均」なのか(クリックで展開)
F値は「2 ×(適合率 × 再現率)÷(適合率 + 再現率)」で求めます。相加平均(普通の平均)ではなく調和平均を使う理由は、一方が極端に低い場合にF値も低くなるようにするためです。
例えば適合率が1.0、再現率が0.01の場合、相加平均は0.505と高く見えますが、調和平均は約0.02となり「再現率がほぼゼロで使いものにならない」ことを正しく反映します。
試験ではF値の計算式を直接問われることは少ないですが、「適合率と再現率の調和平均」という定義は押さえておくと安心です。
では、この用語が試験でどのように出題されるか見ていきましょう。
💡 適合率の核心を3行で
・計算式は TP ÷(TP + FP)。分母は「モデルが陽性と予測した全件数」
・再現率とはトレードオフの関係にあり、F値で両者のバランスを評価する
・「誤検知の少なさ」を重視する場面(スパム判定など)で特に重要な指標
試験ではこう出る!
適合率は、APの午前問題で「混同行列から評価指標の式を選ぶ」問題や「ROC曲線の定義を選ぶ」問題の選択肢として登場しています。
📊 過去問での出題実績
| 試験回 | 出題内容 | 問われたポイント |
|---|---|---|
| AP R5春 午前 問3 |
ROC曲線の説明として適切なものを選ぶ問題 | ・正解は「真陽性率と偽陽性率の関係を示す曲線」 ・「真陽性率と適合率の関係」はPR曲線(ひっかけ) |
| AP R7秋 午前 問3 |
ROC曲線で使われる偽陽性率の説明を選ぶ問題 | ・混同行列の4指標(TP/FP/TN/FN)の理解が前提 ・適合率そのものは問われないが背景知識として必要 |
📝 IPA試験での出題パターン
パターン1:「ROC曲線の説明を選べ」
ROC曲線は「真陽性率 × 偽陽性率」のグラフですが、選択肢に「真陽性率と適合率の関係」(=PR曲線の説明)が紛れます。適合率の定義を正確に知っていれば、この選択肢を消去できます。
パターン2:「混同行列から指標の計算式を選べ」
TP・FP・TN・FNの表が与えられ、適合率や再現率の式を選ぶ形式です。「分母がTPとFPの合計(=モデルが陽性と判定した数)」であることを覚えていれば即答できます。
IPAシラバス(Ver.7.2)の「機械学習」セクションに、正解率(Accuracy)、適合率(Precision)、再現率(Recall)、F値、ROC曲線、PR曲線、AUCが用語例として明記されています。今後さらに出題が増える可能性が高い分野です。
【確認テスト】理解度チェック
ここまでの内容を理解できたか、簡単なクイズで確認してみましょう。
Q. 機械学習の2クラス分類モデルにおいて、適合率(Precision)の説明として最も適切なものはどれでしょうか?
- A. 実際に陽性であるデータのうち、モデルが正しく陽性と予測したデータの割合
- B. 全データのうち、モデルが正しく予測したデータの割合
- C. モデルが陽性と予測したデータのうち、実際に陽性であったデータの割合
正解と解説を見る
正解:C
解説:
適合率(Precision)は TP ÷(TP + FP)で求められ、モデルが「陽性」と判定した件数を分母とする指標です。
選択肢Aは再現率(Recall)の説明です。再現率は TP ÷(TP + FN)で、分母が「実際に陽性であるデータの全数」である点が適合率と異なります。選択肢Bは正解率(Accuracy)の説明です。正解率は(TP + TN)÷ 全データ数で算出し、陽性・陰性の両方を含む全体の正答率を表します。
よくある質問(FAQ)
Q. 適合率と再現率、実務ではどちらを重視しますか?
業務の目的によって変わります。スパムフィルタや広告配信のように「誤って陽性と判定するコストが大きい」場面では適合率を重視します。一方、がん検診やセキュリティ侵入検知のように「見逃しが致命的」な場面では再現率を重視します。どちらか一方だけでは判断しにくい場合にF値を使います。
Q. PR曲線とROC曲線はどう使い分けますか?
PR曲線は縦軸に適合率、横軸に再現率をとったグラフで、データの陽性・陰性の比率が大きく偏っている(不均衡データ)場合に有効です。ROC曲線は真陽性率と偽陽性率の関係を示すグラフで、データのバランスが比較的均等な場合に適しています。AP R5春 午前問3では、ROC曲線の選択肢にPR曲線の説明が紛れ込む形式で出題されました。
Q. 「精度」と「適合率」は同じ意味ですか?
文脈によります。英語の「Precision」を「精度」と訳す文献もありますが、IPA試験の文脈では「適合率」と表記されます。一方、「Accuracy」を「精度」と訳すケースもあるため、日本語の「精度」だけでは適合率なのか正解率なのか判別できません。試験対策としては、英語名(Precision / Accuracy)で区別する癖をつけるのが確実です。
Q. 適合率の計算式を覚えるコツはありますか?
「P」で揃えて覚えるのが手軽です。Precisionの「P」、True Positiveの「P」、False Positiveの「P」——分母も分子もPが付くもので構成されています。再現率(Recall)はTPとFNで構成され、Pが付かないFNが含まれる点で区別できます。