情報ゲインではなく、Gini不純物をいつ使用する必要がありますか?


66

(エントロピーに基づいて)Gini不純物情報ゲインの背後にある原理を誰かが実際に説明できますか?

意思決定ツリーを使用する際に、さまざまなシナリオで使用するのに適したメトリックはどれですか?


5
@ Anony-Mousseそれはあなたのコメントの前に明らかだったと思います。問題は、両方に利点があるかどうかではなく、どちらのシナリオで一方が他方より優れているかです。
マーティントーマ

関連リンクでマークされているように、「エントロピー」ではなく「情報ゲイン」を提案しました。次に、Gini不純物をいつ使用するか、および情報ゲインをいつ使用するかについて
ローランデュバル

1
ここに、役に立つかもしれないGiniの不純物の簡単な解釈を掲載しました。
ピコーヴィンセント

回答:


47

ジニの不純物と情報ゲインエントロピーはほとんど同じです。そして、人々は価値を交換可能に使用します。以下は両方の式です。

  1. Gini:Gini(E)=1j=1cpj2
  2. Entropy:H(E)=j=1cpjlogpj

選択肢があれば、計算量が多い対数関数を計算する必要がないため、Giniの不純物を使用します。その解決策の閉じた形も見つけることができます。

意思決定ツリーを使用する際に、さまざまなシナリオで使用するのに適したメトリックはどれですか?

上記の理由により、ジニ不純物。

したがって、CART分析に関してはほぼ同じです。

2つの方法の計算比較の参考資料


1
エントロピーの公式を見ることは非常に一般的ですが、決定木で実際に使用されるものは条件付きエントロピーのように見えます。私はそれが重要な区別であるか、何かが欠けていると思いますか?
user1700890

@ user1700890 ID3アルゴリズムはInfoを使用します。エントロピーを獲得します。条件付きエントロピーについて読む必要があります。おそらくID3に対する改善:)
Dawny33

1
ジニ不純物の定義が間違っている可能性があると思います:en.wikipedia.org/wiki/Decision_tree_learning#Gini_impurity
マーティントーマ

22

一般に、Giniの不純物を使用してもエントロピーを使用しても、パフォーマンスは変わりません。

Laura Elena RaileanuとKilian Stoffelは、「ジニインデックスと情報獲得基準の理論的比較」で両方を比較しました。最も重要な発言は次のとおりです。

  • ジニ不純物を使用するかエントロピーを使用するかは、ケースの2%でのみ重要です。
  • エントロピーは計算が少し遅くなる場合があります(対数を使用するため)。

私はかつて、両方の測定基準が科学の異なる分野で出現したために存在すると言われました。


16

分数fと(1-f)で表示さ
れる2つの値を持つ変数の場合、ジニとエントロピーは次のようになります
。gini = 2 * f(1-f)
エントロピー= f * ln(1 / f)+ (1-f)* ln(1 /(1-f))
これらの測定値は、1.0にスケーリングした場合に非常に似ています(2 * giniとエントロピー/ ln(2)をプロット):

比較のためにスケーリングされたGini(y4、purple)およびEntropy(y3、green)値


14

Giniは連続属性を対象としており、エントロピーはクラスで発生する属性を対象としています

Giniは誤分類を最小限に抑えるための
エントロピーは探索的分析用です

エントロピーは計算が少し遅い


7

ほぼ同じであるという事実に追加するには、次の事実も考慮してください。 そのため、 次の2つのプロットを参照してください最大値として1を取得するように正規化された関数:赤い曲線はGiniに対して、黒い曲線はエントロピーに対してです。

0<u<1,log(1u)=uu2/2u3/3+0<p<1,log(p)=p1(1p)2/2(1p)3/3+
0<p<1,plog(p)=p(1p)+p(1p)2/2+p(1p)3/3+
正規化されたジニおよびエントロピーの基準

最終的に@NIMISHANで説明されているように、Giniは対称性が0.5であるため、誤分類を最小限に抑えるのに適していますが、エントロピーは小さな確率をよりペナルティにします。


3

エントロピーは、ログ計算のためにGiniインデックスよりもわずかに長い計算時間を要します。これが、Giniインデックスが多くのMLアルゴリズムのデフォルトオプションになった理由かもしれません。しかし、タンらから。データマイニング入門

「不純物測定値は互いに非常に一貫しています。実際、ツリーの剪定に使用される戦略は、不純物測定値の選択よりも最終的なツリーに大きな影響を与えます。」

したがって、不純物測定の選択は、単一の決定木アルゴリズムのパフォーマンスにほとんど影響を与えないように見えます。

また。「Giniメソッドは、ターゲット変数がバイナリ変数である場合にのみ機能します。」-Pythonによる予測分析の学習。


3

私は過去1週間以上、バイナリ分類の最適化を行ってきましたが、どの場合でもエントロピーはginiを大幅に上回っています。これはデータセット固有のものかもしれませんが、ハイパーパラメータの調整中に両方を試すことは合理的な選択であり、事前にモデルについて仮定するのではないように思われます。

統計を実行するまで、データがどのように反応するかはわかりません。


0

節約の原則として、Giniは計算が容易なため、エントロピーよりも優れています(ログは、プロセッサ/マシンレベルでの単純な乗算ではなく、より多くの計算が含まれていることは明らかです)。

しかし、エントロピーは、高い不均衡を伴う一部のデータの場合には間違いなく優位性があります。

エントロピーは確率のログを使用し、イベントの確率で乗算するため、バックグラウンドで発生しているのは、低い確率の値がスケールアップされることです。

データの確率分布が指数関数またはラプラスの場合(鋭い点での確率分布が必要なディープラーニングの場合など)、エントロピーはGiniよりも優れています。

2つのイベントに1つの.01確率と他の.99確率がある場合の例を挙げます。

Gini Probのsqは.01 ^ 2 + .99 ^ 2になります。.0001+ .9801は、すべてが多数決確率によって支配されるため、低い確率は何の役割も果たしません。

エントロピーの場合は.01 * log(.01)+。99 * log(.99)= .01 *(-2)+ .99 *(-。00436)= -.02-.00432明らかに見られる確率が低いほど、より良い重量年齢が与えられる

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.