100%に近いクラスラベルが1つのクラスに属しているときに分類子のパフォーマンスを測定する方法


9

私のデータには、で示されるクラス変数があります。このクラス変数の値は(バイナリ)です。ほとんどすべての観測値は0です(100%に近い、より正確には97%)。さまざまな分類モデルの「パフォーマンス」テストを希望します(精度の場合もあります)。発生を恐れているのは、観測を常にクラス0に分類する分類モデルがある場合、そのモデルは97%正確であることです(他の変数を考慮しない場合でも)。C0,1C

非常にまれなイベントを処理するデータの分類モデルの既知のパフォーマンステストはありますか?

回答:


3

いくつかの可能性が頭に浮かびます。

全体的なヒット率を確認することは、異なるクラスのパフォーマンスが異なる場合、テストセットの構成に依存するため、通常はあまり良い考えではありません。したがって、少なくとも、意味のある値を導き出すには、テストデータ内のクラスの相対頻度を指定(および正当化)する必要があります。

次に、@ Shorackがすでに述べたように、どのタイプのエラーがどれほど重要であるかを指定します。多くの場合、分類子は、有用であるために特定のパフォーマンス基準を満たす必要があります(そして、全体的な正確さはめったに適切な尺度ではありません)。感度、特異度、正と負の予測値など、さまざまなクラスやさまざまなタイプの誤分類を考慮した測定値があります。これらの指標は分類子に関するさまざまな質問に答えると言えます。

  • 感度:本当にクラスCに属するケースのどの部分がそのように認識されますか?
  • 特異性:本当にクラスCに属さないケースのどの部分がそのように認識されますか?
  • 正の予測値:分類子がクラスCを予測する場合、この予測が正しい確率はどれくらいですか?
  • 陰性予測値:クラシファイアがケースがされていることを予測して考えるとないクラスCを形成し、この予測が正しい確率は何ですか?

これらの質問では、分類子が役立つために必要な仕様を定式化できることがよくあります。

予測値は、分類子の実用的なアプリケーションの観点からより重要になることがよくあります。これらは予測に基づいています。これは、分類子を適用するときの状況です(患者は通常、テストは、罹患した症例を認識することですが、述べられている診断がどれほど正しいかを示します)。ただし、それらを適切に計算するには、分類子が使用されている母集団内のさまざまなクラスの相対頻度を知る必要があります(この情報があるようです-そのため、それを見るのを妨げるものはありません)。

また、ポジティブまたはネガティブな予測によって得られる情報の増加も確認できます。これは、正および負の尤度比LR⁺およびLR⁻によって測定されます。簡単に言えば、それらは予測が問題のクラスに対するオッズをどれだけ変えるかをあなたに伝えます。(詳細な説明については、ここ私の答えを参照しください)

単純な分類子の場合、次のようになります。問題のクラスとして「0」クラスを使用するので、「正」はクラス「0」を意味します。100ケースのうち、100が陽性と予測されます(クラス0に属する)。それらの97は本当にします、3はしません。クラス0の感度は100%(本当にクラス0に属する97ケースすべてが認識された)、特異度は0(他のケースはどれも認識されなかった)。正の予測値(97:3の相対頻度が代表的であると仮定)は97%であり、負の予測値は負の予測が発生していないため計算できません。

LR+=sensitivity1specificity=1
LR=1sensitivityspecificity=00
LR⁺とLR⁻は、ケースが陽性クラス( "0")に属するオッズを掛ける係数です。持つ1つのLR⁺正の予測はあなたにすべての情報を与えていないことを意味する:それはオッズを変更しません。したがって、ここには、自明な分類子が情報を追加しないという事実を明確に表す尺度があります


まったく異なる方向性:さまざまな分類子を評価したいとおっしゃっています。これは、分類子の比較や選択に少し似ています。上記で説明した測定の注意点は、「ハード」クラスラベルで評価すると、非常に高いランダムな不確実性(多くのテストケースが必要になることを意味します)の影響を受けることです。予測が主に連続的である場合(メトリック、たとえば事後確率)、同じ種類の質問を検討するが、ケースの一部ではなく連続的メジャーを使用する関連メジャーを使用できますここを参照してください。これらは、予測の小さな違いを検出するのにも適しています。

(@FrankHarrellは、「適切なスコアリングルール」が必要であることを通知するので、これは覚えておくべき別の検索用語です。)


3

まず第一に:すべてのヒットは等しく重要であり、すべてのミスは等しく重要ですか?その場合、nullモデルのスコアリングに問題はなく、優れたソリューションです。

1の予測で優れたパフォーマンスを発揮することが重要であるとわかった場合は、代わりにFメジャーを使用できます。基本的には、再現率(実際の1のどの部分が1として予測されたか)と精度(予測された1のどの部分が実際に1であったか)の調和平均です。モデルがこの測定で高いスコアを得るには、次のことが必要です。

  1. 1のほとんどを見つけます。
  2. それが実際に0であるときに1を予測することはあまりありません。

そして、両方を同時に行う必要があります。モデルが2つのうちの1つだけをほぼ完全に実行する場合でも、他の要件を満たさない場合はスコアが低くなります。 https://en.wikipedia.org/wiki/F1_score


これは、予測からの1ビットの情報のみを使用する不適切なスコアリングルールです。不適切なスコアリングルールは、偽のモデルによって最適化されます。
フランクハレル2013

2

@cbeleitesがドアを開けたことはうれしいです。2 進特別なケースでROC領域に偶然一致する一致確率またはインデックスは、予測差別の優れた要約です。ROC曲線自体はインク:情報の比率が高いですが、曲線の下の面積は一致確率に等しいため、多くの優れた機能を備えています。その1つは、条件が付けられているため、有病率とは無関係であることです。。これはあまり適切ではなく(一般化されたメジャーまたは尤度比を使用してそれを実現します)、2つのモデルを比較するために使用するには感度が十分ではないため、1つのモデルの要約です。Y Y = 1 Y R 2 χ 2cYY=1YR2χ2


1

受信者動作特性(ROC)http://en.wikipedia.org/wiki/Receiver_operating_characteristic曲線および関連する計算(つまり、曲線下面積-AUC)が一般的に使用されます。基本的に、分類子が連続的な応答(例:0と1の間)を与えると想像し、決定しきい値が0と1の間で変化するときの感度対誤警報率(1-特異度)をプロットします。飛行機?)


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.