2
GINIスコアと対数尤度比の関係は何ですか
私は分類木と回帰木を研究していますが、分割された場所の尺度の1つはGINIスコアです。 今では、2つの分布間の同じデータの尤度比のログがゼロである場合に、最適な分割位置を決定することに慣れています。 私の直感では、何らかの接続が必要であり、GINIは情報の数学的理論(シャノン)に優れた基礎を持たなければならないが、私はGINIを自分で理解するのに十分に理解していないと言います。 質問: 分割の尺度としてのGINI不純物スコアの「第一原理」導出とは何ですか? GINIスコアは、尤度比のログまたは他の情報理論的基礎にどのように関係しますか(シャノンエントロピー、pdf、およびクロスエントロピーはそれらの一部です)? 参照: 加重Gini基準はどのように定義されていますか? 分類および回帰木の背後にある数学 http://www.cs.put.poznan.pl/jstefanowski/sed/DM-5-newtrees.pdf (追加) http://www.ibe.med.uni-muenchen.de/organisation/mitarbeiter/020_professuren/boulesteix/pdf/gini.pdf https://www.youtube.com/watch?v=UMtBWQ2m04g http://www.ius-migration.ch/files/content/sites/imi/files/shared/documents/papers/Gini_index_fulltext.pdf /programming/4936788/decision-tree-learning-and-impurity シャノンのエントロピーは次のように説明されます。 H(x)=ΣiP(xi)logbP(xi)H(x)=ΣiP(xi)logbP(xi) H \left(x \right) = \Sigma_{i} P\left(x_{i} \right)\log_{b} P\left(x_{i} \right) これを多変量のケースに拡張すると、次のようになります。 H(X,Y)=ΣxΣyP(x,y)logbP(x,y)H(X,Y)=ΣxΣyP(x,y)logbP(x,y) H \left(X,Y \right)= \Sigma_{x}\Sigma_{y} P\left(x,y \right)\log_{b} P\left(x,y \right) 条件付きエントロピーは次のように定義されます。 H(X|Y)H(X|Y)=Σyp(x,y)logbp(x)p(x,y)or,=H(X,Y)−H(Y)H(バツ|Y)=Σyp(バツ、y)ログbp(バツ)p(バツ、y)または、H(バツ|Y)=H(バツ、Y)−H(Y)\begin{align} H \left(X|Y \right) &= \Sigma_{y} p\left(x,y \right)\log_{b} \frac {p\left(x \right)} {p\left(x,y \right)} …