ジニ不純物の簡単で明確な説明?


9

決定木分割のコンテキストでは、ジニ不純物ノードt不純物の測定値である理由を確認することは明らかではありません。これについて簡単な説明はありますか?

i(t)=1j=1kp2(j|t)

関連する質問に対するこの回答は、直感をよりよく理解するのに役立つ場合があります。stats.stackexchange.com
Scott

回答:


13

可能な出力カテゴリがある実験を想像してみてください。カテゴリは発生確率持ちます()kjp(j|t)j=1,..k

次に、エクスペリエンスを2回再現し、これらの観察を行います。

  • カテゴリ 2つの同一の出力が得られる確率はjp2(j|t)
  • カテゴリに関係なく、2つの同一の出力が得られる確率は次のとおりです。j=1kp2(j|t)
  • したがって、2つの異なる出力が得られる確率は次のとおりです1j=1kp2(j|t)

それでおしまい!ジニ不純物は単に2つの異なる出力が得られる確率であり、これは「不純物測定」です。他の方向では、(したがって他のp(j | t)= 0)であるようながある場合、ジニ不純物あり、常にカテゴリ 2つの同一の出力を取得します。これは「純粋な」状況です!。jp(j|t)=1i(t)=0j


同じ数学ですが、より実用的な解釈があります。確率クラスを選択することにより、セット内の要素のクラスを予測するのは自然です。1-Giniは単純に(Rand)精度を提供します。したがって、ジニ不純物が0の場合、要素のクラスを予測する際の精度は100%であるため、すべて同じクラスになります。同様に、0.5手段のジニ不純物が正しくこの自然法などの組の要素を分類する50%の確率j=1kjp(j)
エリックO Lebigot

0

ジニ不純物=論理的エントロピー=ジニ-シンプソン生物多様性指数=論理的距離関数(1-Kroneckerdelta)を用いた二次エントロピーなど。参照:エラーマン、デビッド。2018.「論理エントロピー:古典的および量子的論理情報理論の概要」エントロピ20(9):文書番号679 https://doi.org/10.3390/e20090679、およびそこに含まれる参考文献。


経済学者はこれをハーフィンダール・ヒルシュマン指数と呼んでいます。
Nick Cox
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.