KS、AUROC、およびGiniの関係


11

コルモゴロフ–スミルノフ検定(KS)、AUROCジニ係数などの一般的なモデル検証統計はすべて機能的に関連しています。しかし、私の質問は、これらがすべて関連していることを証明することに関係しています。誰かがこれらの関係を証明するのを手伝ってくれる人がいるかどうか知りたいです。私はオンラインで何も見つけることができませんでしたが、証明がどのように機能するかについて本当に興味があります。たとえば、私はGini = 2AUROC-1を知っていますが、私の最良の証明はグラフを指すことです。正式な証明に興味があります。どんな助けでも大歓迎です!


1
KSとは、コルモゴロフ-スミルノフ統計を意味しますか?AUROCはおそらくROC曲線の下の面積ですか?
Nitesh 2014年

ウィキペディアから始めて、元のリファレンスを参照することから始めるとよいようです。
LauriK 2014年

回答:


1

レシーバーの動作特性のWikipediaのエントリは、Gini = 2AUROC-1の結果についてこのペーパーを参照しています。そして、ティル、ロバート・J(2001)。複数のクラス分類問題に対するROC曲線の下の領域の単純な一般化、機械学習、45、171–186。しかし、私はそれがあなたが望むものにどれだけ近づくかを確認するためにそれに簡単にアクセスすることができないと思います。


1
...そして、それは役に立たない結果になる可能性があります。ジニは通常、2つのカテゴリラベルを持つデータに適用され、AUROCは数値ランキングデータ+バイナリラベルに適用されるためです。あなたのランキングがバイナリの場合にのみそれら 一致するかもしれませんか?その場合、AUROCは2自由度しかない3点曲線であるため、まったく使用しても意味がありません...(この結果は確認していませんが、最近Wikipediaで紙のスパムが多すぎます。)
QUITあり-Anony-Mousse 2015

0

論文(Adeodato、PJ LおよびMelo、SB 2016)によれば、KS曲線下の面積(AUKS)とROC曲線下の面積(AUROC)の間には線形関係があります。

AUROC=0.5+AUKS

同等性の証明は論文に含まれています。


0

結果Gini = 2 * AUROC-1は、必ずしも真ではないため、証明するのは困難です。受信者動作特性曲線に関するウィキペディアの記事は、ジニの定義として結果を示しており、Hand and Till(nealmcbによって引用)による記事は、ROC曲線を使用したジニのグラフィック定義がこの式につながると単に述べています。

問題は、ジニのこの定義が機械学習とエンジニアリングのコミュニティで使用されていることですが、エコノミストと人口統計学者は別の定義を使用しています(ジニの元の論文に戻る)。ジニ係数に関するウィキペディアの記事は、ローレンツ曲線に基づいてこの定義を示しています。

Schechtman&Schechtman(2016)による論文では、 AUCと元ジニ定義との間の関係を設定します。しかし、それらが完全に同じではないことを確認するために、イベントの比率がpであり、完全な分類器があると仮定します。次に、ROC曲線は左上隅を通過し、AUCROCは1です。ただし、(反転した)ローレンツ曲線は(0,0)から(p、1)まで(1,1)になり、エコノミストのジニは1です。 - P / 2、近くではなく、正確に1です。

イベントがまれである場合、Gini = 2 * AUROC-1の関係は、Giniの元の定義を使用した場合、ほぼ正確ですが正確ではありません。関係が真になるのは、Giniを再定義して真にする場合のみです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.