タグ付けされた質問 「auc」

AUCは曲線下面積を表し、通常は受信者オペレーター特性(ROC)曲線下の面積を指します。


1
logloss対gini / auc
2つのモデル(h2o AutoMLを使用するバイナリ分類器)をトレーニングしたので、使用するモデルを1つ選択します。次の結果が得られました。 model_id auc logloss logloss_train logloss_valid gini_train gini_valid DL_grid_1 0.542694 0.287469 0.092717 0.211956 0.872932 0.312975 DL_grid_2 0.543685 0.251431 0.082616 0.186196 0.900955 0.312662 aucそしてlogloss列が交差検定メトリクス(クロスバリデーションのみトレーニングデータを使用する)です。..._trainそして..._validメトリックは、それぞれのモデルを通じてトレーニングと検証のメトリックを実行することによって発見されました。logloss_validまたはを使用しgini_validて、最適なモデルを選択します。 モデル1は優れたジニ(つまりAUC)を持っていますが、モデル2は優れた対数損失を持っています。私の質問は、どちらを選択するべきかという質問です。決定基準としてgini(AUC)またはloglossを使用することの利点/欠点は何ですか。

3
AUCの確率論的解釈を導き出す方法は?
ROC曲線の下の領域が、分類子がランダムに選択された「ポジティブ」インスタンスを(取得された予測から)ランダムに選択された「ポジティブ」インスタンス(元のポジティブクラスから)よりもランク付けする確率が高いのはなぜですか?このステートメントを積分を使用して数学的に証明し、真の正と負のクラス分布のCDFとPDFをどのように証明しますか?
14 probability  roc  auc 

1
尤度を最大化するロジスティック回帰は、線形モデルよりもAUCも最大化する必要がありますか?
バイナリの結果およびいくつかの予測行列データセットが与えられると、標準ロジスティック回帰モデルは係数推定します二項尤度を最大化します。がフルランクの場合、は一意です。完全な分離が存在しない場合、有限です。y∈{0,1}ny∈{0,1}ny\in\{0,1\}^nX∈Rn×pX∈Rn×pX\in\mathbb{R}^{n\times p}βMLEβMLE\beta_{MLE}XXXβMLEβMLE\beta_{MLE} この最尤モデルはROC AUC(別名統計)も最大化しますか、またはより高いROC AUCを取得する係数推定存在しますか?MLEが必ずしもROC AUCを最大化するとは限らない場合、この質問を見るもう1つの方法は、「ロジスティック回帰のROC AUCを常に最大化する尤度最大化の代替手段はありますか?」です。cccβAUC≠βMLEβAUC≠βMLE\beta_{AUC} \neq \beta_{MLE} それ以外のモデルは同じであると仮定しています:で予測子を追加または削除したり、モデルの仕様を変更したりすることはなく、尤度最大化モデルとAUC最大化モデルが同じリンク関数を使用していると仮定しています。XXX

1
ROC曲線が互いに交差するときの2つのモデルの比較
2つ以上の分類モデルを比較するために使用される一般的な尺度の1つは、ROC曲線下面積(AUC)を間接的にパフォーマンスを評価する方法として使用することです。この場合、通常、AUCが大きいモデルは、AUCが小さいモデルよりもパフォーマンスが高いと解釈されます。しかし、Vihinen、2012(https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3303716/)によると、両方の曲線が交差すると、そのような比較はもはや有効ではなくなります。なぜそうですか? たとえば、ROC曲線と以下のAUCに基づいてモデルA、B、Cについて確認できるものは何ですか?

1
ランダムフォレストの評価:OOB vs CV
たとえば、AUCを使用してランダムフォレストの品質を評価する場合、Out of Bag Samplesまたはホールドアウトクロス検証セットでこれらの数量を計算する方が適切ですか? OOBサンプルで計算すると、より悲観的な評価が得られると聞いていますが、その理由はわかりません。

3
(平均)ROC AUC、感度および特異性に関して2つの分類子を比較するための統計的有意性(p値)
100のケースと2つの分類子のテストセットがあります。 両方の分類子の予測を生成し、ROC AUC、感度、特異度を計算しました。 質問1:p値を計算して、すべてのスコア(ROC AUC、感度、特異性)に関して一方が他方よりも有意に優れているかどうかを確認するにはどうすればよいですか? 今、100ケースの同じテストセットに対して、ケースごとに異なる独立した機能割り当てがあります。これは、私の機能が固定されているが主観的であり、複数の被験者によって提供されるためです。 そのため、テストセットの5つの「バージョン」について2つの分類子を再度評価し、両方の分類子について5つのROC AUC、5つの感度、5つの特異性を取得しました。次に、両方の分類子の5つの被験者(平均ROC AUC、平均感度、平均特異性)の各パフォーマンス測定値の平均を計算しました。 質問2:平均スコア(平均ROC AUC、平均感度、平均特異性)に関して、一方が他方よりも有意に優れているかどうかを確認するためにp値を計算するにはどうすればよいですか? いくつかのサンプルPython(できれば)またはMatLabコードの回答は大歓迎です。

1
(d-prime)とAUC(ROC曲線下の領域)の間の接続。基礎となる仮定
機械学習では、ROC曲線の下の領域(多くの場合、省略されたAUCまたはAUROC)を使用して、システムが2つのカテゴリーをどれだけうまく区別できるかを要約します。信号検出理論では、d′d′d'(感度指数)が同様の目的で使用されることがよくあります。この2つは密接に関連しており、特定の前提条件が満たされていれば、両者は同等であると思います。 の計算は、通常、(例えば、上記のリンクウィキペディアを参照)の信号分布のために正規分布を仮定に基づいて提示されます。ROC曲線の計算ではこの仮定は行われません。これは、しきい値処理可能な連続値の決定基準を出力する分類子に適用できます。d′d′d' ウィキペディアによれば、は2 AUC − 1に相当します。両方の仮定が満たされている場合、これは正しいようです。しかし、仮定が同じでない場合、それは普遍的な真実ではありません。d′d′d'2AUC−12AUC−12 \text{AUC} - 1 仮定の違いを「AUCは基礎となる分布についての仮定を少なくする」と特徴づけることは公正ですか?または、実際にはAUCと同じくらい広く適用できますが、d ′を使用する人々が正規分布を仮定する計算を使用する傾向があるのは、単なる一般的な慣習ですか?私が見逃した根本的な仮定に他の違いはありますか?d′d′d'd′d′d'

2
バイナリ分類問題でのaucとloglossの最適化
私は、結果の確率がかなり低い(aroung 3%)バイナリ分類タスクを実行しています。AUCで最適化するか、ログ損失で最適化するかを決定しようとしています。私が理解しているように、AUCはモデルの能力を最大化してクラスを区別しますが、対数損失は実際の確率と推定された確率の相違にペナルティを課します。私の仕事では、精度の精度を校正することが非常に重要です。だから私はログロスを選びますが、最高のログロスモデルは最高のAUC / GINIモデルでもあるべきかどうか疑問に思います。


3
診断メトリック(
私は自分のモデルを適合させ、それが良いかどうかを理解しようとしています。私はそれを評価するために推奨されるメトリック(R2R2R^2 / AUC /精度/予測誤差/など)を計算しましたが、それらを解釈する方法がわかりません。要するに、私のモデルがメトリックに基づいて良いかどうかはどのようにしてわかりますか?あるR2R2R^2、私は推論やベース科学/ビジネス上の意思決定を描画するために進んでみましょうするのに十分な(例えば)0.6のは? この質問は、メンバーが頻繁に遭遇するさまざまな状況をカバーするために、意図的に広くなっています。このような質問は、この質問の重複として閉じることができます。ここで説明したメトリックを超えて範囲を広げる編集、およびその他の回答、特に他のクラスのメトリックに関する洞察を提供するものは歓迎されます。


1
R / mgcv:なぜte()とti()テンソル積が異なる表面を生成するのですか?
のmgcvパッケージにRは、テンソル積の相互作用をフィッティングするための2つの関数がte()ありti()ます。私は2つの作業の基本的な分業を理解しています(非線形の相互作用を当てはめるか、この相互作用を主効果と相互作用に分解するか)。私が理解していないのは、なぜte(x1, x2)、そしてti(x1) + ti(x2) + ti(x1, x2)(わずかに)異なる結果を生成するのかということです。 MWE(から適応?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

3
精度-再現率曲線に適したAUCとは何ですか?
非常に不均衡なデータセット(9%の肯定的な結果)があるので、ROC曲線よりも精度-再現率曲線の方が適切であると判断しました。PR曲線下の面積の類似の要約測定値(興味がある場合は.49)を取得しましたが、それをどのように解釈するかわかりません。.8以上がROCに適したAUCであると聞きましたが、一般的なカットオフは、精度-再現率曲線のAUCと同じですか?

1
Anova()とdrop1()がGLMMに異なる回答を提供したのはなぜですか?
次の形式のGLMMがあります。 lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 私が使用している場合drop1(model, test="Chi")、私は私が使用している場合とは異なる結果を得るAnova(model, type="III")車のパッケージからかsummary(model)。後者の2つは同じ答えを与えます。 大量の偽造データを使用して、これらの2つの方法は通常違いがないことがわかりました。それらは、平衡線形モデル、不平衡線形モデル(異なるグループでnが等しくない場合)、および平衡一般化線形モデルに対して同じ答えを示しますが、平衡一般化線形混合モデルに対しては同じ答えを与えません。したがって、ランダムな要素が含まれている場合にのみ、この不一致が現れます。 これらの2つの方法の間に違いがあるのはなぜですか? GLMMを使用する場合は必要がありますAnova()かdrop1()使用できますか? これらの2つの違いは、少なくとも私のデータでは、かなりわずかです。どちらを使用するかは問題ですか?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.