バイナリ分類のための損失関数の選択


18

私は人々がしばしばROC-AUCまたはAveP(平均精度)を報告する問題領域で働いています。しかし、最近では、代わりにログ損失を最適化する論文を見つけましたが、ヒンジ損失を報告する論文もあります。

これらのメトリックがどのように計算されるかは理解していますが、それらの間のトレードオフを理解するのに苦労しています。

ROC-AUC対Precision-Recallに関しては、このスレッドは、ROC-AUC-maximizationが、「少なくとも真正と同程度の真の負のランク付け」(より高いと仮定して)スコアは正に対応します)。また、この他のスレッドは、Precision-Recallメトリックとは対照的に、ROC-AUCの有用な説明も提供します。

ただし、たとえばROC-AUCAveP、または ヒンジ損失よりも、どのような種類の問題に対してログ損失が優先されますか?最も重要なことは、バイナリ分類のためにこれらの損失関数を選択するときに、問題についてどのような質問をするべきでしょうか?

回答:


8

この問題に関する最新の参考文献は[1]です。基本的に、指定したすべての損失関数が、高速でベイズ分類器に収束することを示しています。

有限サンプルのこれらの選択は、いくつかの異なる引数によって駆動できます。

  1. イベントの確率(および分類だけでなく)を回復したい場合、ロジスティック対数損失、またはその他の一般化線形モデル(プロビット回帰、相補対数対数回帰、...)は自然な候補です。
  2. 分類のみを目的としている場合、SVMは分類の境界での観測のみを対象とし、遠方の観測を無視するため、優先される選択肢である可能性があります。したがって、想定される線形モデルの真実性の影響が軽減されます。
  3. 観測値が多くない場合、2の利点は欠点になる可能性があります。
  4. 記載されている最適化問題と、使用している特定の実装の両方で、計算上の違いがある場合があります。
  5. 要するに、あなたは単にそれらすべてを試して、最高のパフォーマーを選ぶことができます。

[1]バートレット、ピーターL、マイケルIジョーダン、ジョンDマコーリフ。「凸面、分類、およびリスク限界」。米国統計協会誌101、no。473(2006年3月):138–56。doi:10.1198 / 016214505000000907

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.