私は分類木と回帰木を研究していますが、分割された場所の尺度の1つはGINIスコアです。
今では、2つの分布間の同じデータの尤度比のログがゼロである場合に、最適な分割位置を決定することに慣れています。
私の直感では、何らかの接続が必要であり、GINIは情報の数学的理論(シャノン)に優れた基礎を持たなければならないが、私はGINIを自分で理解するのに十分に理解していないと言います。
質問:
- 分割の尺度としてのGINI不純物スコアの「第一原理」導出とは何ですか?
- GINIスコアは、尤度比のログまたは他の情報理論的基礎にどのように関係しますか(シャノンエントロピー、pdf、およびクロスエントロピーはそれらの一部です)?
参照:
- 加重Gini基準はどのように定義されていますか?
- 分類および回帰木の背後にある数学
- http://www.cs.put.poznan.pl/jstefanowski/sed/DM-5-newtrees.pdf
(追加) - http://www.ibe.med.uni-muenchen.de/organisation/mitarbeiter/020_professuren/boulesteix/pdf/gini.pdf
- https://www.youtube.com/watch?v=UMtBWQ2m04g
- http://www.ius-migration.ch/files/content/sites/imi/files/shared/documents/papers/Gini_index_fulltext.pdf
- /programming/4936788/decision-tree-learning-and-impurity
シャノンのエントロピーは次のように説明されます。
これを多変量のケースに拡張すると、次のようになります。
条件付きエントロピーは次のように定義されます。
尤度比のログは、急激な変化の検出に使用され、これらを使用して導出されます。(目の前に派生物はありません。)
GINI不純物:
- GINI不純物の一般的な形式は、
考え:
- 分割は、不純物の測定で行われます。高い「純度」は、低エントロピーと同じ可能性があります。このアプローチは、エントロピーの最小化に関連している可能性があります。
- 仮定された基底分布は均一である可能性が高く、おそらくは手を振っているガウス分布である可能性があります。彼らはおそらく分布の混合物を作っています。
- シューハートチャートの派生がここで適用できるのだろうか?
- GINI不純物は、2つの試行と1つの成功を伴う二項分布の確率密度関数の積分のように見えます。
(追加)
- この形式は、超幾何分布の事前共役であるベータ二項分布とも一致しています。超幾何学的なテストは、多くの場合、サンプル内でどのサンプルが過剰または過少であるかを判断するために使用されます。また、フィッシャーの正確なテストとは関係があります(それが何であれ、自己に注意してください、これについてもっと学びに行きます)。
編集:デジタルロジックやrbツリーで非常にうまく機能するGINIの形式があると思います。この秋、クラスプロジェクトでこれを探求したいと思います。