対象試験と出題頻度
正解率(Accuracy)は、応用情報技術者で出題されるテーマです。
ディープラーニングを含む機械学習全般の分類モデル評価に関する問題で登場し、混同行列の読み取りや他の評価指標(適合率・再現率・偽陽性率)との区別が問われます。
詳細をクリックして確認
応用情報技術者
★★★☆☆
ランクC(応用)余裕があれば覚える
用語の定義
情報処理試験を勉強していると、「正解率と適合率って何が違うの?」「再現率やF値と混ざって覚えられない…」と混乱しがちです。
正解率(Accuracy)とは、一言で言うと
「分類モデルの全予測のうち、正しく予測できた割合」
のことです。
イメージとしては、「100問のテストで何問正解したかの得点率」です。
100問中90問正解なら正解率90%。
対象を「陽性 or 陰性」に分類するAIモデルでも同じ考え方で、全データのうち「陽性を陽性」「陰性を陰性」と正しく言い当てた割合が正解率です。
📊 正解率(Accuracy)の基本情報
| 項目 | 内容 |
|---|---|
| 英語名 | Accuracy |
| 分野 | 機械学習(2クラス分類・多クラス分類の評価指標) |
| 計算式 | (TP + TN)÷(TP + FP + FN + TN) |
| 関連指標 | 適合率(Precision)、再現率(Recall)、F値、偽陽性率 |
解説
機械学習でモデルを構築したら、「そのモデルはどれくらい使い物になるのか」を数値で評価する必要があります。
そこで使われるのが混同行列(Confusion Matrix)と、そこから導出される各種指標です。
混同行列の構造
2クラス分類では、モデルの予測と実際のクラスの組み合わせを4つのセルに整理します。これが混同行列です。
混同行列(Confusion Matrix)
| 予測 | |||
| 陽性 | 陰性 | ||
| 実 際 |
陽性 | TP 真陽性 |
FN 偽陰性 |
| 陰性 | FP 偽陽性 |
TN 真陰性 |
|
▲ 緑のセル(TP・TN)が「正しい予測」、赤のセル(FP・FN)が「誤った予測」
正解率は、この4セルのうち「正しい予測」であるTPとTNの合計を全体で割った値です。つまり、緑セルの合計÷全セルの合計で求まります。
計算例:スパムメール判定
スパムメール判定モデルが100通のメールを分類した結果を例に、実際に計算してみましょう。
計算例:スパムメール判定(全100通)
| 予測 | |||
| スパム | 正常 | ||
| 実際 | スパム | TP = 40 | FN = 10 |
| 正常 | FP = 5 | TN = 45 | |
正解率 =(40 + 45)÷(40 + 10 + 5 + 45)= 85 ÷ 100 = 0.85(85%)
正解率の弱点:クラス不均衡
正解率には「データの偏りに弱い」という明確な弱点があります。
例えば、1000人の検査で病気の人が10人しかいない場合、全員を「陰性(健康)」と予測するだけで正解率は99%になります。しかし、病気の人を1人も見つけられていないため、モデルとしては使い物になりません。
このような偏ったデータ(クラス不均衡)に対しては、適合率・再現率・F値といった指標を併用して多角的に評価する必要があります。
他の評価指標との比較
| 指標 | 意味 | 計算式 |
|---|---|---|
| 正解率 | 全体のうち正しく予測できた割合 | (TP+TN)÷ 全体 |
| 適合率 | 陽性と予測した中で実際に陽性だった割合 | TP ÷(TP+FP) |
| 再現率 | 実際に陽性のデータをどれだけ漏れなく検出できたか | TP ÷(TP+FN) |
| F値 | 適合率と再現率の調和平均 | 2×適合率×再現率 ÷(適合率+再現率) |
| 偽陽性率 | 実際に陰性のデータを誤って陽性と予測した割合 | FP ÷(FP+TN) |
では、この用語が試験でどのように出題されるか見ていきましょう。
💡 正解率(Accuracy)の核心を3行で
・全データのうちモデルが正しく予測した割合=(TP+TN)÷ 全体
・混同行列の「緑セル(正しい予測)」だけを足して全体で割る計算
・クラス不均衡のデータでは高い値が出ても信頼できないため、適合率・再現率との併用が必要
試験ではこう出る!
正解率そのものを単独で問う問題は少ないですが、ROC曲線や偽陽性率など「2クラス分類モデルの評価指標」を問う問題の選択肢に頻繁に登場します。混同行列から各指標を正しく導出できるかが得点のカギです。
📊 過去問での出題実績
| 試験回 | 出題内容 | 正解率との関連 |
|---|---|---|
| AP R5春 午前 問3 |
ROC曲線の説明として適切なものを選ぶ問題。選択肢に「正解率と適合率の関係を示す曲線」が含まれる。 | 正解率を含む選択肢はひっかけ(正解は「真陽性率と偽陽性率」)。各指標の定義を混同させる典型パターン。 |
| AP R7秋 午前 問3 |
ROC曲線で用いられる偽陽性率の説明を選ぶ問題。選択肢に「全データのうち正しく予測できなかった割合」が含まれる。 | 「正しく予測できなかった割合」は誤分類率(1−正解率)であり偽陽性率ではない。正解率の裏返しとして混同させるひっかけ。 |
📝 IPA試験での出題パターン
パターン1:「ROC曲線の説明を選べ」
混同行列ベースの各指標の定義が選択肢に並び、ROC曲線で使われる組み合わせ(真陽性率×偽陽性率)を選ばせる形式。「正解率と適合率の関係」は誤りの選択肢として定番化している。
パターン2:「○○率の定義を選べ」
偽陽性率・特異度・誤分類率など特定の指標の定義を答えさせる形式。正解率の定義「(TP+TN)÷全体」と偽陽性率の定義「FP÷(FP+TN)」を正確に区別できるかが問われる。
ここだけは確実に押さえてください:混同行列の4セル(TP・FP・FN・TN)の意味を覚え、「正解率=(TP+TN)÷全体」を即座に立式できる状態にしておけば、試験ではここまででOKです。
【確認テスト】理解度チェック
ここまでの内容を理解できたか、簡単なクイズで確認してみましょう。
Q. 機械学習の2クラス分類モデルにおいて、混同行列から算出される「正解率(Accuracy)」の計算式として正しいものはどれでしょうか?
- A. 全予測のうち、真陽性(TP)と真陰性(TN)の合計が占める割合。すなわち(TP + TN)÷(TP + FP + FN + TN)で求める。
- B. 陽性と予測したデータのうち、実際に陽性であったデータの割合。すなわち TP ÷(TP + FP)で求める。
- C. 実際に陽性であるデータのうち、モデルが正しく陽性と予測できたデータの割合。すなわち TP ÷(TP + FN)で求める。
正解と解説を見る
正解:A
解説:
正解率(Accuracy)は、モデルの全予測のうち正しく分類できた割合を示す指標で、(TP + TN)÷(TP + FP + FN + TN)で算出します。
選択肢Bは適合率(Precision)の計算式です。適合率は「陽性と予測した中での的中率」であり、全体の正解割合を示す正解率とは分母が異なります。選択肢Cは再現率(Recall)の計算式です。再現率は「実際の陽性をどれだけ漏れなく拾えたか」を測る指標であり、陰性の正解(TN)を一切考慮しない点が正解率との違いです。
よくある質問(FAQ)
Q. 正解率が高ければ「良いモデル」と言い切れますか?
言い切れません。クラス不均衡のデータ(例:陽性1%・陰性99%)では、全てを陰性と予測するだけで正解率99%になります。このようなケースでは、少数派クラスの検出精度を測る再現率やF値を併用しないと、モデルの実力を正しく評価できません。
Q. 「誤分類率」と正解率の関係は?
誤分類率(Error Rate)は「1 − 正解率」で求まります。正解率が0.85なら誤分類率は0.15です。AP R7秋 午前問3では、選択肢に「全データのうち正しく予測できなかったデータの割合」が登場しましたが、これは偽陽性率ではなく誤分類率の説明です。正解率の裏返しとしてセットで押さえておくと、ひっかけ選択肢を見抜けます。
Q. ROC曲線と正解率はどう関係しますか?
ROC曲線は縦軸に真陽性率、横軸に偽陽性率をとり、しきい値を変化させながら描くグラフです。正解率はROC曲線の軸には直接使われません。ただし、ROC曲線上の各点に対応するしきい値ごとに正解率を計算することは可能であり、「AUC(曲線下面積)が大きいモデルほど、適切なしきい値を選べば正解率も高くなりやすい」という間接的な関係はあります。
Q. 実務ではどの評価指標を優先すべきですか?
用途によって異なります。スパムフィルタのように「正常なメールを誤ってスパム扱いしたくない」場面では適合率を重視し、病気の診断のように「見逃しを最小限にしたい」場面では再現率を重視します。正解率はデータの偏りがない場面での全体的な精度把握に向いており、万能な指標ではありません。