✔︎HPもぜひご覧ください : https://www.hrl.jp/
▶︎分類問題における実測値と予測値
・TP:True Positive, 実測値と予測値の両方が正であったもの
・FP:False Positive, 実測値が負であるのに、誤って正と予測値したもの(偽陽性)
・TN:True Negative, 実測値と予測値の両方が負であったもの
・FN:False Negative, 実測値が正なのに、誤って負と予測値したもの(偽陰性)
▶︎Accuracy・・・予測がどれだけ正しかったかを表す指標
特にデータが不均衡である場合(例:正データ数=90,
負データ数=10), 全てを正と推定すればAccuracyは
高くなりますが, これは明らかに正しい評価結果とは言えません。
そこで, 以下に述べる複数の指標を併用する必要があります。
▶︎Precision・・・正と予測したものがどれだけ正しかったかを表す指標
▶︎Recall・・・実際に正であったもののうち, どれだけ正と予測できたかを表す指標
▶︎F1 score・・・PrecisionとRecallはの両方の値を考慮して予測結果の評価をした指標
▶︎AUC・・・AUC(Area Under the Curve)では, ある曲線の下側の面積をモデルの
評価指標とします。
ROC曲線はTPR(True Positive Rate)を縦軸, FPR(False Positive Rate)を
横軸にとって描画します。なお, TPRはRecallと同じです。
FPRは”本来負であるもののうち, 誤って正であると予測されたものの
割合”を表します。
ROCは分類モデルが算出した予測確率値に対し様々な閾値を適用し,
その時々のTRRとFPRの値をプロットすることで以下のように描画されます。
TPRは高く, FPRは低い方が良いことを踏まえると、良いモデルというのは
曲線が左上に引きあがったモデル, つまりAUCが大きくなるようなモデル
となります。
▶︎AUPRC・・・PR曲線はPrecisionを縦軸、Recallを横軸にとって以下のように
描画することができます。PrecisionとRecallの両方が高い場合が
望ましいことを踏まえると, ROC-AUCと同様AUCが高いモデルが
適当であると言えます。
※ROC曲線とPR曲線の使い所としては, 不均衡データの分類の場合はPR曲線,
それ以外はROC曲線の方が良いとされています *1。
*1 Davis and Goadrich, The Relationship Between Precision-Recall and ROC Curves, 2006
✔︎HPもぜひご覧ください : https://www.hrl.jp/
Comments