回答:
いくつかの可能性が頭に浮かびます。
全体的なヒット率を確認することは、異なるクラスのパフォーマンスが異なる場合、テストセットの構成に依存するため、通常はあまり良い考えではありません。したがって、少なくとも、意味のある値を導き出すには、テストデータ内のクラスの相対頻度を指定(および正当化)する必要があります。
次に、@ Shorackがすでに述べたように、どのタイプのエラーがどれほど重要であるかを指定します。多くの場合、分類子は、有用であるために特定のパフォーマンス基準を満たす必要があります(そして、全体的な正確さはめったに適切な尺度ではありません)。感度、特異度、正と負の予測値など、さまざまなクラスやさまざまなタイプの誤分類を考慮した測定値があります。これらの指標は分類子に関するさまざまな質問に答えると言えます。
これらの質問では、分類子が役立つために必要な仕様を定式化できることがよくあります。
予測値は、分類子の実用的なアプリケーションの観点からより重要になることがよくあります。これらは予測に基づいています。これは、分類子を適用するときの状況です(患者は通常、テストは、罹患した症例を認識することですが、述べられている診断がどれほど正しいかを示します)。ただし、それらを適切に計算するには、分類子が使用されている母集団内のさまざまなクラスの相対頻度を知る必要があります(この情報があるようです-そのため、それを見るのを妨げるものはありません)。
また、ポジティブまたはネガティブな予測によって得られる情報の増加も確認できます。これは、正および負の尤度比LR⁺およびLR⁻によって測定されます。簡単に言えば、それらは予測が問題のクラスに対するオッズをどれだけ変えるかをあなたに伝えます。(詳細な説明については、ここで私の答えを参照してください)
単純な分類子の場合、次のようになります。問題のクラスとして「0」クラスを使用するので、「正」はクラス「0」を意味します。100ケースのうち、100が陽性と予測されます(クラス0に属する)。それらの97は本当にします、3はしません。クラス0の感度は100%(本当にクラス0に属する97ケースすべてが認識された)、特異度は0(他のケースはどれも認識されなかった)。正の予測値(97:3の相対頻度が代表的であると仮定)は97%であり、負の予測値は負の予測が発生していないため計算できません。
LR⁺とLR⁻は、ケースが陽性クラス( "0")に属するオッズを掛ける係数です。持つ1つのLR⁺正の予測はあなたにすべての情報を与えていないことを意味する:それはオッズを変更しません。したがって、ここには、自明な分類子が情報を追加しないという事実を明確に表す尺度があります。
まったく異なる方向性:さまざまな分類子を評価したいとおっしゃっています。これは、分類子の比較や選択に少し似ています。上記で説明した測定の注意点は、「ハード」クラスラベルで評価すると、非常に高いランダムな不確実性(多くのテストケースが必要になることを意味します)の影響を受けることです。予測が主に連続的である場合(メトリック、たとえば事後確率)、同じ種類の質問を検討するが、ケースの一部ではなく連続的メジャーを使用する関連メジャーを使用できます。ここを参照してください。これらは、予測の小さな違いを検出するのにも適しています。
(@FrankHarrellは、「適切なスコアリングルール」が必要であることを通知するので、これは覚えておくべき別の検索用語です。)
まず第一に:すべてのヒットは等しく重要であり、すべてのミスは等しく重要ですか?その場合、nullモデルのスコアリングに問題はなく、優れたソリューションです。
1の予測で優れたパフォーマンスを発揮することが重要であるとわかった場合は、代わりにFメジャーを使用できます。基本的には、再現率(実際の1のどの部分が1として予測されたか)と精度(予測された1のどの部分が実際に1であったか)の調和平均です。モデルがこの測定で高いスコアを得るには、次のことが必要です。
そして、両方を同時に行う必要があります。モデルが2つのうちの1つだけをほぼ完全に実行する場合でも、他の要件を満たさない場合はスコアが低くなります。 https://en.wikipedia.org/wiki/F1_score
受信者動作特性(ROC)http://en.wikipedia.org/wiki/Receiver_operating_characteristic曲線および関連する計算(つまり、曲線下面積-AUC)が一般的に使用されます。基本的に、分類子が連続的な応答(例:0と1の間)を与えると想像し、決定しきい値が0と1の間で変化するときの感度対誤警報率(1-特異度)をプロットします。飛行機?)
非常に不均衡なデータを処理する場合、Precision-Recall曲線は非常に優れたツールであり、より一般的ないとこであるROC曲線よりも優れています。
デイビス他 al。ROC曲線下の面積を最適化するアルゴリズムは、PR曲線下の面積を最適化することが保証されていないことを示しています。