ジニ係数とジニ不純物-決定木


25

問題は、意思決定ツリーの構築に関するものです。ウィキペディアによると、「ジニ係数」は「ジニ不純物」と混同しないでください。ただし、ディシジョンツリーを構築するときに両方のメジャーを使用できます。これらは、アイテムのセットを分割するときの選択をサポートできます。

1)「ジニ不純物」-これは標準の決定木分割メトリックです(上記のリンクを参照)。

2)「ジニ係数」-各分割は、AUC基準に基づいて評価できます。分割シナリオごとに、ROC曲線を作成し、AUCメトリックを計算できます。ウィキペディアによると、AUC =(GiniCoeff + 1)/ 2;

質問は次のとおりです。これらの対策はどちらも同等ですか?一方では、Gini係数をGini不純物と混同しないでください。一方、これらの両方の手段は、同じことを行うために使用できます-決定木の分割の品質を評価します。


定義を探してこの質問に来ました:en.wikipedia.org/wiki/Decision_tree_learning#Gini_impurity
Martin Thoma

回答:


28

いいえ、それらの名前にもかかわらず、それら同等ではなく、類似していません

  • ジニ不純物は、誤分類の尺度であり、マルチクラス分類器コンテキストに適用されます。
  • ジニ係数はバイナリ分類に適用され、ポジティブクラスにある可能性に応じて何らかの方法で例をランク付けできる分類器が必要です。

場合によっては両方を適用することもできますが、それらは異なるものに対する異なる尺度です。不純物は、決定木で一般的に使用されるものです。


7

ユニット1とユニット3がそれぞれ豊富な2人の人AとBのデータの例を取り上げました。ウィキペディアによるジニ不純物= 1-[(1/4)^ 2 +(3/4)^ 2] = 3/8

ウィキペディアによるジニ係数は、次のグラフの赤線と青線の間の面積と青線の下の総面積の比です

ここに画像の説明を入力してください

赤い線の下の面積は1/2 + 1 + 3/2 = 3

青い線の下の総面積= 4

したがって、ジニ係数= 3/4

明らかに、2つの数字は異なります。さらに多くのケースをチェックして、それらが比例しているか、正確な関係があるかどうかを確認し、答えを編集します。

編集:他の組み合わせもチェックしましたが、比率は一定ではありません。以下は、私が試したいくつかの組み合わせのリストです。 ここに画像の説明を入力してください


なんて説明!!
外れ値

0

どちらも同じ概念を表していると思います。

分類ツリーでは、Giniインデックスを使用してデータパーティションの不純度を計算します。したがって、それぞれが同じ確率で4つのクラスで構成されるデータパーティションDを想定します。すると、Giniインデックス(Gini不純物)は次のようになります:Gini(D)= 1-(0.25 ^ 2 + 0.25 ^ 2 + 0.25 ^ 2 + 0.25 ^ 2)

CARTでは、バイナリ分割を実行します。したがって、giniインデックスは結果のパーティションの加重合計として計算され、最小のginiインデックスを持つ分割を選択します。

したがって、Gini不純物(Giniインデックス)の使用は、バイナリの状況に限定されません。

Gini不純物のもう1つの用語は、所得分布の尺度として通常使用されるGini係数です。


3
ジニ係数はジニ不純物ではありません。質問のリンクを参照してください
ショーンオーウェン14

2
ウィキペディアは必ずしも信頼できる情報源ではありません:-)
Pasmod Turing 14

2
確かに。他の場所で調べてみてください:mathworld.wolfram.com/GiniCoefficient.html Gini係数= Gini不純物と思われる理由は何ですか?
ショーンオーウェン14


1
決定木について話していると思います。私たちは機械学習の分野にいます!質問をもっと注意深く読んでください
パスモドチューリング14
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.