評価としてAUCの代わりに正規化されたGiniスコアを使用する理由


14

Kaggleの競合Porto SeguroのSafe Driver Predictionでは、評価指標として正規化されたGiniスコアを使用しているため、この選択の理由に興味がありました。評価にAUCなどの最も一般的なメトリックの代わりに正規化されたginiスコアを使用する利点は何ですか?


1
KaggleのWebサイトには、「正の例のすべてがすぐに発生するわけではないため、「完全な」モデルの最大達成可能領域があります。モデルのGini係数をGini係数で除算して正規化Gini係数を使用します完璧なモデルの。」しかし、それはもう利用できません。webcache.googleusercontent.com/...
セクストス・エンペイリコス

1
したがって、giniは異なる規模の単なるaucです。または、aucとginiは異なる曲線に適用されますか?機械学習の専門家ではないことは私には明らかではありません。これについての質問はあまり明確ではありません。
セクストゥスエンピリカス

回答:


3

Giniスコアは単にAUCの再定式化であると考えています: 一般的に使用されるAUCの代わりにこれを使用する理由について、私が考えることができる唯一の理由は、ランダムな予測がGiniを生成することです0.5になるAUCとは対照的に、スコアは0です。

gn=2×AうんC1

6
それに加えて、gini係数を使用すると、ランダムな分類器のパフォーマンスが0のスコアに設定されます...正規化は、スケールのもう一方の端を「改善」し、完全な分類器のスコアが達成可能な最大ではなく1に等しくなるようにしますAUC <1。改善は、より直感的なスケールが良いかどうかに応じてのみ相対的です。この簡単な解釈を超えて、あなたはそれ(正規化)が異なるデータセットの一般化と比較も改善すると主張するかもしれません。
セクストゥスエンピリカス

macimumで達成可能なAUCを1未満にする必要があるのはなぜですか。また、giniで1に設定する方法がわかりません。
rep_ho

それは、ジニ係数を計算する曲線の種類に依存します。ROC曲線とは異なるものを使用している可能性があります(実際の最大AUCは1です)。kaggleのWebサイトの言葉を考えると、最大AUCが1でないことがもっともらしいようです。> 「次に、データの左端のx%で累積応答をどれだけ蓄積しましたか?」
セクストゥスエンピリカス

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.