top of page
  • 執筆者の写真HiSR

分類問題の精度指標

更新日:2022年6月24日

✔︎HPもぜひご覧ください : https://www.hrl.jp/


▶︎分類問題における実測値と予測値

 ・TP:True Positive, 実測値と予測値の両方が正であったもの

 ・FP:False Positive, 実測値が負であるのに、誤って正と予測値したもの(偽陽性)

 ・TN:True Negative, 実測値と予測値の両方が負であったもの

 ・FN:False Negative, 実測値が正なのに、誤って負と予測値したもの(偽陰性)


▶︎Accuracy・・・予測がどれだけ正しかったかを表す指標

         特にデータが不均衡である場合(例:正データ数=90,

         負データ数=10), 全てを正と推定すればAccuracyは

         高くなりますが, これは明らかに正しい評価結果とは言えません。

         そこで, 以下に述べる複数の指標を併用する必要があります。



▶︎Precision・・・正と予測したものがどれだけ正しかったかを表す指標



▶︎Recall・・・実際に正であったもののうち, どれだけ正と予測できたかを表す指標



▶︎F1 score・・・PrecisionとRecallはの両方の値を考慮して予測結果の評価をした指標



▶︎AUC・・・AUC(Area Under the Curve)では, ある曲線の下側の面積をモデルの

      評価指標とします。

       ROC曲線はTPR(True Positive Rate)を縦軸, FPR(False Positive Rate)を

      横軸にとって描画します。なお, TPRはRecallと同じです。

      FPRは”本来負であるもののうち, 誤って正であると予測されたものの

      割合”を表します。

       ROCは分類モデルが算出した予測確率値に対し様々な閾値を適用し,

      その時々のTRRとFPRの値をプロットすることで以下のように描画されます。    

      TPRは高く, FPRは低い方が良いことを踏まえると、良いモデルというのは

      曲線が左上に引きあがったモデル, つまりAUCが大きくなるようなモデル

      となります。



▶︎AUPRC・・・PR曲線はPrecisionを縦軸、Recallを横軸にとって以下のように

        描画することができます。PrecisionとRecallの両方が高い場合が

        望ましいことを踏まえると, ROC-AUCと同様AUCが高いモデルが

        適当であると言えます。


 ※ROC曲線とPR曲線の使い所としては, 不均衡データの分類の場合はPR曲線,

 それ以外はROC曲線の方が良いとされています *1。


*1 Davis and Goadrich, The Relationship Between Precision-Recall and ROC Curves, 2006



✔︎HPもぜひご覧ください : https://www.hrl.jp/

閲覧数:60回0件のコメント

最新記事

すべて表示

ChatGPTを用いた音響解析

「opensmileを使ってfeature importanceを計算して」 以下の通り、概ね妥当なコードを生成していると考えられます。 #開始 OpenSMILEは、オーディオ特徴抽出ライブラリであり、音声データからさまざまな特徴を抽出することができます。特徴重要度(Feature Importance)を計算するためには、通常、機械学習モデルを使用することになります。 具体的には、以下の手順で

bottom of page