情報処理試験を勉強していると、「再現率って何?適合率とどう違うの?」と混乱しがちです。この記事では、再現率(Recall)の意味・計算式・適合率との違いを図解付きで整理します。
対象試験と出題頻度
再現率は、応用情報技術者試験で出題されるテーマです。
ディープラーニングやROC曲線の問題で、混同行列の各指標を正確に区別できるかが問われます。
詳細をクリックして確認
応用情報技術者
★★★☆☆
ランクC(応用)余裕があれば覚える
用語の定義
再現率(Recall)とは、一言で言うと
「実際に陽性(正例)であるデータのうち、モデルが正しく陽性と予測できた割合」
のことです。
イメージとしては、「池の魚をどれだけ捕まえられたか」です。
池に100匹の魚がいるとして、網を投げて80匹捕まえたなら再現率は80%。網に石やゴミが混ざっていても関係ありません。「本物をどれだけ取りこぼさなかったか」だけに注目する指標です。
📊 再現率の基本情報
| 項目 | 内容 |
|---|---|
| 英語名 | Recall(リコール) |
| 別名 | 真陽性率(TPR)、感度(Sensitivity) |
| 計算式 | TP ÷(TP + FN) |
| 分野 | 機械学習(2クラス分類モデルの評価指標) |
解説
機械学習の分類モデルは「陽性か陰性か」を予測しますが、その予測は完璧ではありません。予測結果と実際の正解の組み合わせを整理した表が混同行列(Confusion Matrix)です。
混同行列の4区分
混同行列は「予測」と「実際」の2軸で4つのセルに分かれます。
混同行列(Confusion Matrix)
| 実際のクラス | |||
|---|---|---|---|
| 陽性(Positive) | 陰性(Negative) | ||
| 予測 | 陽性 | TP 真陽性 |
FP 偽陽性 |
| 陰性 | FN 偽陰性 |
TN 真陰性 |
|
▲ 緑セルが正解、赤セルが不正解の予測
TPは「陽性を正しく陽性と予測」、FNは「陽性なのに陰性と予測(見逃し)」です。
再現率はTP ÷(TP + FN)で求めるため、「本物の陽性をどれだけ拾えたか」を数値化した指標と言えます。
図解:再現率の計算イメージ
再現率(Recall)の計算範囲
| 実際 | |||
|---|---|---|---|
| 陽性 | 陰性 | ||
| 予測 | 陽性 | TP = 80 | FP = 30 |
| 陰性 | FN = 20 | TN = 70 | |
▲ 紫枠の列(実際に陽性)が計算対象
計算式:
Recall = TP ÷ (TP + FN)
= 80 ÷ (80 + 20)
= 0.80(80%)
適合率・F値との違い
再現率と混同しやすい指標が適合率(Precision)とF値(F-measure)です。それぞれ「何の割合を見ているか」が異なります。
| 指標 | 計算式 | 何を測っているか |
|---|---|---|
| 再現率(Recall) | TP ÷ (TP + FN) | 実際に陽性のうち、正しく陽性と予測できた割合(取りこぼしの少なさ) |
| 適合率(Precision) | TP ÷ (TP + FP) | 陽性と予測したうち、実際に陽性だった割合(誤検知の少なさ) |
| F値(F-measure) | 2 × Precision × Recall ÷ (Precision + Recall) | 適合率と再現率の調和平均(両者のバランス) |
| 正解率(Accuracy) | (TP + TN) ÷ 全データ | 全予測のうち正しかった割合(全体の正しさ) |
再現率を上げようとすると「とりあえず全部陽性と予測すればFNは0になる」ため、適合率が犠牲になります。逆に適合率を上げようとすると慎重に予測するため見逃しが増えます。この二律背反の関係をトレードオフと呼びます。
では、この指標が試験でどのように出題されるか見ていきましょう。
💡 再現率の核心を3行で
・「実際に陽性のデータをどれだけ正しく陽性と予測できたか」を示す指標
・計算式は TP ÷(TP + FN)。別名は真陽性率・感度
・適合率とはトレードオフの関係にあり、F値で両者のバランスを評価する
試験ではこう出る!
再現率そのものを単独で問う問題は少なく、ROC曲線や混同行列に関連する問題の中で周辺知識として登場する形式が中心です。
📊 過去問での出題実績
| 試験回 | 出題内容 | 問われたポイント |
|---|---|---|
| AP R5春 午前 問3 |
ROC曲線の説明として適切なものを選ぶ問題。 | ・正解は「真陽性率と偽陽性率の関係を示す曲線」 ・「真陽性率と適合率」はPR曲線の説明でひっかけ |
| AP R7秋 午前 問3 |
ROC曲線で用いる偽陽性率の定義を選ぶ問題。 | ・偽陰性率・特異度・誤分類率との区別が必要 ・再現率=真陽性率と偽陽性率の定義を正確に把握しているかが前提 |
📝 IPA試験での出題パターン
パターン1:「ROC曲線の定義を選べ」
ROC曲線が「真陽性率(=再現率)と偽陽性率」の関係を示すことを知っていれば解ける形式。ひっかけとして「真陽性率と適合率」(PR曲線)や「正解率と適合率」の記述が紛れ込む。
パターン2:「偽陽性率・偽陰性率等の定義を選べ」
混同行列の4値(TP/FP/FN/TN)から導出される各指標の定義を正確に区別する力が問われる。再現率=TP÷(TP+FN)、偽陽性率=FP÷(FP+TN) をセットで押さえておけば対処できる。
試験ではここまででOKです。F値の導出やROC曲線のAUC計算まで深追いする必要はありません。
【確認テスト】理解度チェック
ここまでの内容を理解できたか、簡単なクイズで確認してみましょう。
Q. 機械学習の2クラス分類モデルにおける「再現率(Recall)」の説明として、最も適切なものはどれでしょうか?
- A. モデルが陽性と予測したデータのうち、実際に陽性だったデータの割合である。
- B. 全データのうち、モデルが正しく予測できたデータの割合である。
- C. 実際に陽性であるデータのうち、モデルが正しく陽性と予測できたデータの割合である。
正解と解説を見る
正解:C
解説:
再現率(Recall)は TP ÷(TP + FN)で計算され、実際に陽性であるデータの中からどれだけ正しく陽性と予測できたかを測る指標です。
選択肢Aは適合率(Precision)の説明です。適合率は TP ÷(TP + FP)であり、「陽性と予測した側」を母集団にしている点が再現率と異なります。選択肢Bは正解率(Accuracy)の説明です。正解率は(TP + TN)÷ 全データであり、陽性・陰性を問わず全体の正しさを評価する指標です。
よくある質問(FAQ)
Q. 再現率を重視すべき場面はどのようなケースですか?
「見逃し」が致命的になる場面です。代表的な例として、がんの診断があります。がん患者を「陰性」と判定してしまう(偽陰性)と治療の遅れに直結するため、多少誤検知が増えてでも陽性を取りこぼさないことが優先されます。スパムメールのフィルタリングでも、悪意あるメールを通過させるリスクを下げたい場合に再現率が重視されます。
Q. 「真陽性率」「感度」「再現率」は全部同じ意味ですか?
同じ計算式(TP ÷(TP + FN))を指す同義語です。機械学習の文脈では「再現率(Recall)」、医療統計の文脈では「感度(Sensitivity)」、ROC曲線の文脈では「真陽性率(TPR: True Positive Rate)」と呼ばれます。IPA試験では「真陽性率(再現率、感度)」とまとめて表記されることが多いため、どの名称で出ても同じ指標だと判断してください。
Q. 再現率100%のモデルは優秀と言えますか?
言えません。全データを「陽性」と予測すればFNは0になるため、再現率は100%になります。しかし、その場合は陰性データもすべて陽性と判定しているため適合率は大幅に低下します。実用上は再現率と適合率の両方を考慮する必要があり、そのバランスを一つの数値で見るためにF値が使われます。
Q. ROC曲線とPR曲線はどう使い分けますか?
ROC曲線は「真陽性率(再現率)と偽陽性率」の関係を描くグラフで、データの陽性・陰性の比率(クラス不均衡)に影響されにくい特徴があります。一方、PR曲線は「適合率と再現率」の関係を描くグラフで、陽性データが極端に少ないケース(不均衡データ)でモデルの実力を正確に評価できます。IPA試験ではROC曲線が主に出題されますが、AP R5春 午前問3ではPR曲線がひっかけ選択肢として登場しているため、両者の違いを把握しておくと安心です。