GINIスコアと対数尤度比の関係は何ですか


21

私は分類木と回帰木を研究していますが、分割された場所の尺度の1つはGINIスコアです。

今では、2つの分布間の同じデータの尤度比のログがゼロである場合に、最適な分割位置を決定することに慣れています。

私の直感では、何らかの接続が必要であり、GINIは情報の数学的理論(シャノン)に優れた基礎を持たなければならないが、私はGINIを自分で理解するのに十分に理解していないと言います。

質問:

  • 分割の尺度としてのGINI不純物スコアの「第一原理」導出とは何ですか?
  • GINIスコアは、尤度比のログまたは他の情報理論的基礎にどのように関係しますか(シャノンエントロピー、pdf、およびクロスエントロピーはそれらの一部です)?

参照:

シャノンのエントロピーは次のように説明されます。

H(x)=ΣiP(xi)logbP(xi)

これを多変量のケースに拡張すると、次のようになります。

H(X,Y)=ΣxΣyP(x,y)logbP(x,y)

条件付きエントロピーは次のように定義されます。

H(バツ|Y=Σypバツyログbpバツpバツyまたは、Hバツ|Y=HバツYHY

尤度比のログは、急激な変化の検出に使用され、これらを使用して導出されます。(目の前に派生物はありません。)

GINI不純物:

  • GINI不純物の一般的な形式は、==1mf1f

考え:

  • 分割は、不純物の測定で行われます。高い「純度」は、低エントロピーと同じ可能性があります。このアプローチは、エントロピーの最小化に関連している可能性があります。
  • 仮定された基底分布は均一である可能性が高く、おそらくは手を振っているガウス分布である可能性があります。彼らはおそらく分布の混合物を作っています。
  • シューハートチャートの派生がここで適用できるのだろうか?
  • GINI不純物は、2つの試行と1つの成功を伴う二項分布の確率密度関数の積分のように見えます。 P(x=k)=(21)p(1p)

(追加)

  • この形式は、超幾何分布の事前共役であるベータ二項分布とも一致しています。超幾何学的なテストは、多くの場合、サンプル内でどのサンプルが過剰または過少であるかを判断するために使用されます。また、フィッシャーの正確なテストとは関係があります(それが何であれ、自己に注意してください、これについてもっと学びに行きます)。

編集:デジタルロジックやrbツリーで非常にうまく機能するGINIの形式があると思います。この秋、クラスプロジェクトでこれを探求したいと思います。


1
自分の質問に答えると問題がありますか?
EngrStudent-モニカを復活させる14年

1
いいえ、まったくありません。あなたが合理的な答えだと思うことを思いついたなら、消してください。
GUNG -復活モニカ

@EngrStudent。良い質問がありますが参照セクションで提供最初のリンクはCARTで使用ジニ対策とは何の関係もありませんジニ係数に関する
アントワーヌ・

:私はちょうど簡単な解釈掲載に関するジニ係数stats.stackexchange.com/questions/308885/...
Picaudヴィンセント

回答:


11

ここで使用したのと同じ表記法を使用します。分類および回帰ツリーの背後にある数学

IGI

  1. Gini:Gini(E)=1j=1cpj2
  2. Entropy:H(E)=j=1cpjlogpj

β

Hβ(E)=1β1(1j=1cpjβ)

Giniβ=2Hβ1

G

G-statistic=2|E|IG

コミュニティ(統計/データマイニング)に応じて、人々はどちらか一方のメジャーを好みます(関連する質問はこちら)。これらは、決定木誘導プロセスではほぼ同等である可能性があります。対数尤度は、多くのクラスがある場合にバランスのとれたパーティションに高いスコアを与える可能性があります[テクニカルノート:分割基準の一部のプロパティ。ブライマン1996]。

Gini Gainは対数を持たず、ランダムな分割仮定の下で期待値と分散の閉じた形を見つけることができるため、より良くなる可能性があります[Alin Dobra、Johannes Gehrke:Bias Correction in Classification Tree Construction。ICML 2001:90-97]。情報の獲得はそれほど簡単ではありません(興味がある場合は、こちらを参照してください)。


1

良い質問。残念ながら、私はまだ投票やコメントをするほどの評判がありませんので、代わりに答えます!

私は比率検定にあまり詳しくありませんが、2つ(またはそれ以上)の異なる分布から生じるデータの尤度を比較するために使用される形式主義であるのに対して、Gini係数は単一の分布の要約統計量です。

ジニ係数(IMO)を考える便利な方法は、ローレンツ曲線(cdfに関連する)の下の面積としてです。

エントロピーのOPで与えられた定義を使用して、シャノンのエントロピーをジニと同等にすることが可能かもしれません:

H=ΣiP(xi)logbP(xi)

そしてGiniの定義:

G=11μΣiP(xi)(Si1+Si)

Si=Σj=1iP(xi)xixi

しかし、それは簡単なタスクのようには見えません!


対数尤度比は、同じデータで処理されます。分布の1つは他の分布と同じ一般的な形式にできますが、そのパラメーターは、他の基準が真であるときにデータに適合しました。たとえば、パラメーターが健全な生産プロセス変動(必ずしもガウス分布ではない)を表す分布と、現在の生産プロセス値に適合する別の分布を持ち、両方を現在の生産プロセス値で操作して、対数尤度比を示すしきい値と比較することができます遠足の可能性。実際と理想とを比較することができます。
EngrStudent-モニカの復元14年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.