分類問題の精度指標

更新日：2022年6月24日

✔︎HPもぜひご覧ください : https://www.hrl.jp/

▶︎分類問題における実測値と予測値

　・TP：True Positive, 実測値と予測値の両方が正であったもの

　・FP：False Positive, 実測値が負であるのに、誤って正と予測値したもの（偽陽性）

　・TN：True Negative, 実測値と予測値の両方が負であったもの

　・FN：False Negative, 実測値が正なのに、誤って負と予測値したもの（偽陰性）

▶︎Accuracy・・・予測がどれだけ正しかったかを表す指標

　　　　　　　　　特にデータが不均衡である場合（例：正データ数=90,

　　　　　　　　　負データ数=10）, 全てを正と推定すればAccuracyは

　　　　　　　　　高くなりますが, これは明らかに正しい評価結果とは言えません。

　　　　　　　　　そこで, 以下に述べる複数の指標を併用する必要があります。

▶︎Precision・・・正と予測したものがどれだけ正しかったかを表す指標

▶︎Recall・・・実際に正であったもののうち, どれだけ正と予測できたかを表す指標

▶︎F1 score・・・PrecisionとRecallはの両方の値を考慮して予測結果の評価をした指標

▶︎AUC・・・AUC(Area Under the Curve)では, ある曲線の下側の面積をモデルの

　　　　　　評価指標とします。

　　　　　　　ROC曲線はTPR(True Positive Rate)を縦軸, FPR(False Positive Rate)を

　　　　　　横軸にとって描画します。なお, TPRはRecallと同じです。

　　　　　　FPRは”本来負であるもののうち, 誤って正であると予測されたものの

　　　　　　割合”を表します。

　　　　　　　ROCは分類モデルが算出した予測確率値に対し様々な閾値を適用し,

　　　　　　その時々のTRRとFPRの値をプロットすることで以下のように描画されます。　　　　

　　　　　　TPRは高く, FPRは低い方が良いことを踏まえると、良いモデルというのは

　　　　　　曲線が左上に引きあがったモデル, つまりAUCが大きくなるようなモデル

　　　　　　となります。

▶︎AUPRC・・・PR曲線はPrecisionを縦軸、Recallを横軸にとって以下のように

　　　　　　　　描画することができます。PrecisionとRecallの両方が高い場合が

　　　　　　　　望ましいことを踏まえると, ROC-AUCと同様AUCが高いモデルが

　　　　　　　　適当であると言えます。

　※ROC曲線とPR曲線の使い所としては, 不均衡データの分類の場合はPR曲線,

　それ以外はROC曲線の方が良いとされています *1。

*1 Davis and Goadrich, The Relationship Between Precision-Recall and ROC Curves, 2006

✔︎HPもぜひご覧ください : https://www.hrl.jp/

最新記事