タグ付けされた質問 「gini」

2
GINIスコアと対数尤度比の関係は何ですか
私は分類木と回帰木を研究していますが、分割された場所の尺度の1つはGINIスコアです。 今では、2つの分布間の同じデータの尤度比のログがゼロである場合に、最適な分割位置を決定することに慣れています。 私の直感では、何らかの接続が必要であり、GINIは情報の数学的理論(シャノン)に優れた基礎を持たなければならないが、私はGINIを自分で理解するのに十分に理解していないと言います。 質問: 分割の尺度としてのGINI不純物スコアの「第一原理」導出とは何ですか? GINIスコアは、尤度比のログまたは他の情報理論的基礎にどのように関係しますか(シャノンエントロピー、pdf、およびクロスエントロピーはそれらの一部です)? 参照: 加重Gini基準はどのように定義されていますか? 分類および回帰木の背後にある数学 http://www.cs.put.poznan.pl/jstefanowski/sed/DM-5-newtrees.pdf (追加) http://www.ibe.med.uni-muenchen.de/organisation/mitarbeiter/020_professuren/boulesteix/pdf/gini.pdf https://www.youtube.com/watch?v=UMtBWQ2m04g http://www.ius-migration.ch/files/content/sites/imi/files/shared/documents/papers/Gini_index_fulltext.pdf /programming/4936788/decision-tree-learning-and-impurity シャノンのエントロピーは次のように説明されます。 H(x)=ΣiP(xi)logbP(xi)H(x)=ΣiP(xi)logb⁡P(xi) H \left(x \right) = \Sigma_{i} P\left(x_{i} \right)\log_{b} P\left(x_{i} \right) これを多変量のケースに拡張すると、次のようになります。 H(X,Y)=ΣxΣyP(x,y)logbP(x,y)H(X,Y)=ΣxΣyP(x,y)logb⁡P(x,y) H \left(X,Y \right)= \Sigma_{x}\Sigma_{y} P\left(x,y \right)\log_{b} P\left(x,y \right) 条件付きエントロピーは次のように定義されます。 H(X|Y)H(X|Y)=Σyp(x,y)logbp(x)p(x,y)or,=H(X,Y)−H(Y)H(バツ|Y)=Σyp(バツ、y)ログb⁡p(バツ)p(バツ、y)または、H(バツ|Y)=H(バツ、Y)−H(Y)\begin{align} H \left(X|Y \right) &= \Sigma_{y} p\left(x,y \right)\log_{b} \frac {p\left(x \right)} {p\left(x,y \right)} …

1
ブライマンのランダムフォレストは、情報ゲインまたはGiniインデックスを使用しますか?
ブライマンのランダムフォレスト(R randomForestパッケージのランダムフォレスト)が分割基準(属性選択の基準)情報ゲインまたはGiniインデックスとして使用するかどうかを知りたいのですが?私はhttp://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htmとRのrandomForestパッケージのドキュメントでそれを見つけようとしました。しかし、私が見つけた唯一のことは、Giniインデックスを使用できることです変数重要度計算。


1
logloss対gini / auc
2つのモデル(h2o AutoMLを使用するバイナリ分類器)をトレーニングしたので、使用するモデルを1つ選択します。次の結果が得られました。 model_id auc logloss logloss_train logloss_valid gini_train gini_valid DL_grid_1 0.542694 0.287469 0.092717 0.211956 0.872932 0.312975 DL_grid_2 0.543685 0.251431 0.082616 0.186196 0.900955 0.312662 aucそしてlogloss列が交差検定メトリクス(クロスバリデーションのみトレーニングデータを使用する)です。..._trainそして..._validメトリックは、それぞれのモデルを通じてトレーニングと検証のメトリックを実行することによって発見されました。logloss_validまたはを使用しgini_validて、最適なモデルを選択します。 モデル1は優れたジニ(つまりAUC)を持っていますが、モデル2は優れた対数損失を持っています。私の質問は、どちらを選択するべきかという質問です。決定基準としてgini(AUC)またはloglossを使用することの利点/欠点は何ですか。

1
GINIとAUC曲線の解釈の違いは何ですか?
以前は、スコアカードモデリングの良い点と悪い点の割合を利用して作成されたリフトを使用して、GINI曲線を作成していました。しかし、私が調査したROC曲線は、x軸として特異性(1- True Negative)を持ち、Y軸として感度(true positive)を持つ混同行列を使用して作成されます。 したがって、GINIとROCの結果は同じですが、1つの違いは、後者が一致と不一致の値(TP、FP、FN、TN)も考慮に入れていることです。
13 roc  gini 

3
差は要約統計量:ジニ係数と標準偏差
いくつかの要約統計があります。分布の広がりを記述したい場合は、たとえば標準偏差やジニ係数を使用できます。 標準偏差は中心傾向、つまり平均からの偏差に基づいており、ジニ係数は分散の一般的な測定値であることを知っています。また、ジニ係数には下限と上限[0 1]があり、標準偏差にはないことも知っています。これらの特性は知っておくと良いですが、ジニでは不可能で逆に標準偏差でどのような洞察が得られますか?2つのうちの1つを使用することを選択する必要がある場合、有益で洞察力を持つことに関して、他のものと比較して1つを使用する利点は何ですか。

1
ジニ係数と誤差範囲
各時点でN = 14カウントの時系列データがあり、Gini係数と各時点でのこの推定の標準誤差を計算したいと考えています。 私は各時点でN = 14カウントしかないので、ジャックナイフの分散、つまりvar (G )= n − 1を計算しました。トムソンOgwangの式7から標準誤差」ジニ指数とを計算する便利な方法」。ここで、G(N、kは)要素なしでN値のジニ係数であり、K及び ˉ G(X)の平均値であるG(N、K)。var(G )= n − 1ん× Σんk = 1(G (n 、k )− G¯(n ))2var⁡(G)=n−1n×∑k=1n(G(n,k)−G¯(n))2\operatorname{var}(G) = \frac{n-1}{n} \times \sum_{k=1}^n (G(n,k)-\bar{G}(n))^2G (n 、k )G(n,k)G(n,k)kkkG¯(x )G¯(x)\bar{G}(x)G (n 、k )G(n,k)G(n,k) 上記の分散の式の直接の単純な実装。 calc.Gini.variance <- function(x) { N <- length(x) # using jacknifing as suggested …

4
StackOverflowレピュテーション分布でGiniインデックスを計算しようとしていますか?
SOデータエクスプローラーを使用してSOレピュテーション分布のGiniインデックスを計算しようとしています。私が実装しようとしている方程式はこれです: ここで:n=サイト上のユーザー数。i=ユーザーのシリアルID(1-1,225,000); yi=ユーザーiの評判。G (S)= 1n − 1( n + 1 − 2 (∑んi = 1(n + 1 − i )y私Σんi = 1y私))G(S)=1n−1(n+1−2(∑i=1n(n+1−i)yi∑i=1nyi)) G(S)=\frac{1}{n-1}\left(n+1-2\left(\frac{\sum^n_{i=1}(n+1-i)y_i}{\sum^n_{i=1}y_i}\right)\right) んnn私iiyiyiy_iiii これは私がそれを実装した方法です(ここからコピーされます): DECLARE @numUsers int SELECT @numUsers = COUNT(*) FROM Users DECLARE @totalRep float SELECT @totalRep = SUM(Users.Reputation) FROM Users DECLARE @giniNominator float SELECT @giniNominator = SUM( …
11 gini 

5
単語頻度データの分散を測定する方法は?
単語数のベクトルの分散量をどのように定量化できますか?頻繁に発生するさまざまな単語が多く含まれているため、ドキュメントAで高く、頻繁に発生する1つの単語(またはいくつかの単語)が含まれているため、ドキュメントBで低くなる統計を探しています。 より一般的には、公称データの分散または「広がり」をどのように測定しますか? テキスト分析コミュニティでこれを行う標準的な方法はありますか?

1
観測されたイベントと期待されたイベントを比較する方法は?
4つの可能なイベントの頻度の1つのサンプルがあるとします。 Event1 - 5 E2 - 1 E3 - 0 E4 - 12 そして、私は自分のイベントの発生が予想される確率を持っています: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 4つのイベントの観測頻度の合計(18)を使用して、イベントの予想頻度を計算できますか? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

2
ジニ不純物の簡単で明確な説明?
決定木分割のコンテキストでは、ジニ不純物 がノードt不純物の測定値である理由を確認することは明らかではありません。これについて簡単な説明はありますか?i(t)=1−∑j=1kp2(j|t)i(t)=1−∑j=1kp2(j|t) i(t)=1-\sum\limits_{j=1}^k p^2(j|t)
9 cart  intuition  gini 
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.