タグ付けされた質問 「roc」

ROC曲線とも呼ばれる受信者動作特性。

2
100%のヒット率確率と0%の誤警報確率を持つd素数
古いアイテムと新しいアイテムの検出を含むメモリタスクのdプライムを計算したいと思います。私が抱えている問題は、一部の被験者のヒット率が1であるか、誤警報率が0であるということです。これにより、確率がそれぞれ100%と0%になります。 dプライムの式はですd' = z(H) - z(F)。ここでz(H)、z(F)はヒット率のz変換と誤警報です。 z変換を計算するには、Excel関数NORMSINV(つまり、z(H)=NORMSINV(hit rate))を使用します。ただし、ヒット率または誤警報率がそれぞれ1または0の場合、関数はエラーを返します。これは、私が理解しているように、z変換がROC曲線の下の領域を示しているため、数学的に100%または0%の確率が許容されていないためです。この場合、天井性能の被験者のd 'の計算方法がわかりません。 1つのウェブサイトでは、1と0のレートを1-1 /(2N)と1 / 2Nに置き換えることを提案しています。Nはヒットと誤警報の最大数です。別のWebサイトでは、「HもFも0でも1でもない(そうであれば、少し上または下に調整する)」とあります。これは恣意的です。誰かがこれについて意見を持っているか、適切なリソースを私に指摘したいですか?

1
不均衡なデータセットのROC曲線
入力行列とバイナリ出力考えます。XXXyyy 分類子のパフォーマンスを測定する一般的な方法は、ROC曲線を使用することです。 ROCプロットでは、対角線はランダム分類子から得られる結果です。不均衡な出力場合、ランダム分類子のパフォーマンスは、異なる確率でまたはを選択して改善できます。yyy000111 このような分類子のパフォーマンスは、ROC曲線プロットでどのように表すことができますか?もう斜めではなく、角度の異なる直線にすべきでしょうか?

1
PR曲線の下の領域の解釈
私は現在3つの方法を比較していますが、測定基準として精度、auROC、auPRがあります。そして、私は次の結果を持っています: 方法A-acc:0.75、auROC:0.75、auPR:0.45 方法B-acc:0.65、auROC:0.55、auPR:0.40 方法C-acc:0.55、auROC:0.70、auPR:0.65 私は正確さとauROCをよく理解しています(よく覚えておくために、「auROC =陽性クラスを予測する能力を特徴づける」などの文を考えようとすることがよくありますが、正確に正確ではないので覚えておくのに役立ちます)。私はこれまでにauPRデータを取得したことがなく、それがどのように構築されているかを理解している間は、その背後に「感覚」を得ることができません。 実際、メソッドCがauPRのスコアが非常に高いのに、精度とauPRが悪い/平均的である理由を理解できません。 誰かが私を理解するのを手伝ってくれれば、本当に素晴らしい簡単な説明でそれをより良く理解できます。ありがとうございました。

1
Anova()とdrop1()がGLMMに異なる回答を提供したのはなぜですか?
次の形式のGLMMがあります。 lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 私が使用している場合drop1(model, test="Chi")、私は私が使用している場合とは異なる結果を得るAnova(model, type="III")車のパッケージからかsummary(model)。後者の2つは同じ答えを与えます。 大量の偽造データを使用して、これらの2つの方法は通常違いがないことがわかりました。それらは、平衡線形モデル、不平衡線形モデル(異なるグループでnが等しくない場合)、および平衡一般化線形モデルに対して同じ答えを示しますが、平衡一般化線形混合モデルに対しては同じ答えを与えません。したがって、ランダムな要素が含まれている場合にのみ、この不一致が現れます。 これらの2つの方法の間に違いがあるのはなぜですか? GLMMを使用する場合は必要がありますAnova()かdrop1()使用できますか? これらの2つの違いは、少なくとも私のデータでは、かなりわずかです。どちらを使用するかは問題ですか?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

2
Coxモデルを使用してRでROC分析を行う方法
いくつかのCox回帰モデルを作成しました。これらのモデルのパフォーマンスを確認したいと思います。ROC曲線またはc統計が、この記事で使用しているのと同じように役立つと思います。 JNアーミテージとJHファンデルムーレン、「Royal College of Surgeons Charlsonスコアによる管理データを使用した外科患者の共存症の特定」、British Journal of Surgery、vol。97、num。5、ss。772-781、Maj 2010。 アーミテージはロジスティック回帰を使用しましたが、サバイバルパッケージのモデルを使用できるかどうか、サバイバル ROCはこれが可能であるというヒントを示していますが、通常のCox回帰でそれを機能させる方法を理解できません。 この例についてROC分析を行う方法を誰かに教えてもらえれば幸いです。 library(survival) data(veteran) attach(veteran) surv <- Surv(time, status) fit <- coxph(surv ~ trt + age + prior, data=veteran) summary(fit) 可能であれば、生のc-statics出力と素敵なグラフの両方に感謝します ありがとう! 更新 回答ありがとうございます。@Dwin:私はあなたの答えを選択する前に、私がそれを正しく理解していることを確認したいと思います。 DWinの提案によると、私が理解している計算: library(survival) library(rms) data(veteran) fit.cph <- cph(surv ~ trt + age + prior, data=veteran, x=TRUE, …
10 r  survival  roc 

2
AUCを使用する根拠は?
特に機械学習の文献のコンピューターサイエンス指向の側面では、AUC(レシーバーオペレーターの特性曲線の下の面積)が分類子を評価するための一般的な基準です。AUCを使用する理由は何ですか?たとえば、最適な決定が最良のAUCの分類器である特定の損失関数はありますか?

4
AUCは、各クラスからランダムに選択されたインスタンスを正しく分類する確率ですか?
私はこのキャプションを紙で読んで、このように記述されたAUCを他のどこでも見たことはありません。これは本当ですか?これを確認するための証明または簡単な方法はありますか? 図2は、受信者操作特性曲線(AUC)の下の面積で表される二分変数の予測精度を示しています。これは、ランダムに選択された2人のユーザーを各クラス(男性と女性など)から正しく分類する確率に相当します。 )。 AUC = 0.5の場合、コインフリップが2回続けて正しく予測される確率が50%であることを示唆しているため、それは真実ではないように思えますが、実際には25%の確率しかありません2つのコインフリップを続けて正しく予測する方法。少なくとも、それが私がこの発言について考えている方法です。

1
どのようにして、リーブワンアウト相互検証のROC曲線を生成しますか?
(たとえば)5分割交差検証を実行する場合、通常は5分割ごとに個別のROC曲線を計算し、多くの場合stdで平均ROC曲線を計算します。開発者。曲線の太さとして表示されます。 ただし、各フォールドに単一のテストデータポイントしかないLOO交差検証の場合、この単一のデータポイントのROC "曲線"を計算することは意味がありません。 私はすべてのテストデータポイントを(個別に計算されたp値と共に)取得し、それらを1つの大きなセットにプールして単一のROC曲線を計算しましたが、これは統計的に正確な方法ですか? (LOO相互検証の場合のように)各フォールドのデータポイントが1つである場合にROC分析を適用する正しい方法は何ですか?

2
ROC曲線のカットオフポイント。簡単な機能はありますか?
人類学的測定に基づいて性別のカットオフポイントを見つけたいと思います。曲線を描くことができ、感度と特異度の両方が同様に重要な場合は、フレームの左上隅に最も近い点(または曲線が負の場合は右下隅に最も近い点)を決定する必要があることを知っていますカットオフとして。 しかし、Rにすでに実装されている関数や、これを決定するための他のプログラムがあるかどうかはわかりません。SPSSにはそのような機能がないことを知っています。プログラム、またはすでに実装されている関数を介してそれを実行できるRを知っていますか?
10 roc 

2
感度と特異性を組み合わせた分類器の性能測定?
複数の分類子を使用して分類を実行している2クラスのラベル付きデータがあります。そして、データセットはバランスが取れています。分類子のパフォーマンスを評価するとき、真の陽性だけでなく真の陰性も判別する際に、分類子がどれほど正確であるかを考慮する必要があります。したがって、精度を使用し、分類子がポジティブに偏っており、すべてをポジティブとして分類すると、真のネガティブの分類に失敗したとしても、約50%の精度が得られます。このプロパティは、1つのクラスのみに焦点を当て、さらにF1スコアに焦点を当てているため、精度と再現率まで拡張されています。(これは、たとえば「精度、Fスコア、およびROCを超えて:パフォーマンス評価のための判別指標のファミリ」など、このペーパーからでも理解できることです)。 したがって、感度と特異度(TPRとTNR)を使用して、クラスごとに分類子がどのように機能するかを確認し、これらの値を最大化することを目指しています。 私の質問は、これらの両方の値を1つの意味のある指標に結合する指標を探しているということです。私はその論文で提供されている対策を調査しましたが、それは重要なことでした。そして、私の理解に基づいて、なぜFスコアのようなものを適用できないのかと思っていましたが、精度と再現率を使用する代わりに、感度と特異度を使用するのでしょうか。したがって、式は 、私の目的は最大化することですこの対策。私はそれが非常に代表的だと思います。同様の式はすでにありますか?そして、これは理にかなっていますか、それとも数学的にも正しいですか?my Performance Measure=2∗sensitivity∗specificitysensitivity+specificitymy Performance Measure=2∗sensitivity∗specificitysensitivity+specificity \text{my Performance Measure} = \frac{2 * \text{sensitivity} * \text{specificity}}{\text{sensitivity} + \text{specificity}}

2
通常のロジスティック回帰におけるAUC
私は2種類のロジスティック回帰を使用しています。1つはバイナリ分類用の単純なタイプで、もう1つは順序ロジスティック回帰です。最初の精度を計算するために、交差検証を使用しました。各検証でAUCを計算し、平均AUCを計算しました。通常のロジスティック回帰の場合はどうすればよいですか?マルチクラス予測子の一般化されたROCについて聞いたことがありますが、それを計算する方法がわかりません。 ありがとう!

2
データのROC曲線を計算する
そのため、ハミング距離を使用して生体認証特性から個人を認証しようとしている16のトライアルがあります。しきい値は3.5に設定されています。私のデータは以下であり、トライアル1のみが真陽性です。 Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 私の混乱のポイントは、このデータからROC曲線(FPR対TPR OR FAR対FRR)を作成する方法が本当にわからないということです。どちらでもかまいませんが、どうやって計算するのか混乱しています。任意の助けいただければ幸いです。
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 

2
「受信者動作特性」(ROC)の用語の起源は何ですか?
謝罪なし:私はこれを調査しようとしませんでした(このクエリに回答した可能性があるCVが提供した質問のリストを確認することを超えて)。私は先週、ロジスティック重回帰モデルを診断するためにクラスでこれを教え、名前の由来がわからないことを生徒に事前に警告しました。 ROC曲線の名前の歴史:受信者操作特性は何ですか? 召喚の本(『Lady Tasting Tea』や 『Mario Livio』の本など)で言及されていることについて思い出しますが、誰かが共有する歴史があれば、それを歓迎します。
9 logistic  roc  history 

1
不均衡なデータのアップサンプリングまたはダウンサンプリングは実際に効果的ですか?どうして?
不均衡なデータの分類を処理する方法として、データのアップサンプリングまたはダウンサンプリングについてよく耳にします。 これは、(確率的またはスコアベースではなく)バイナリ分類器を使用してブラックボックスとして扱う場合に役立つ可能性があることを理解しているため、「ROC曲線上の位置を微調整する唯一の方法はサンプリングスキーム"(引用符で囲んでいるのは、分類子が本質的にバイナリの場合、実際のROC曲線がないためですが、偽陽性と偽陰性をトレードオフする同じ概念が依然として適用されます)。 しかし、実際に何らかのスコアにアクセスして、後でしきい値を決定して決定を下す場合も、同じ理由が成り立たないようです。この場合、実際のROC分析などのより優れたツールを使用できる場合に、誤検出と誤検出の間の望ましいトレードオフについての見解を表現するための特別な方法ではありませんか?この場合、アップサンプリングまたはダウンサンプリングで各クラスの分類子の「前」を変更することを期待するのは変だと思われます(つまり、そのクラスになる無条件の確率、ベースライン予測)。分類子の「オッズ比」が変化すると予想します(分類子が共変量に基づいてベースライン予測をどの程度調整するか)。 だから私の質問です:バイナリブラックボックスではない分類子がある場合、アップサンプリングまたはダウンサンプリングがしきい値を好みに合わせて調整するよりもはるかに優れた効果を期待する理由はありますか?それができない場合、合理的なパフォーマンスメトリック(たとえば、精度ではない)でのアップまたはダウンサンプリングのかなり大きな影響を示す経験的研究はありますか?

3
ブートストラップによる内部検証:提示するROC曲線は?
標準のロジスティック回帰またはエラスティックネットで構築された多変量モデルの内部検証にブートストラップアプローチを使用しています。 私が使用する手順は次のとおりです。 1)データセット全体を使用してモデルを構築し、予測値を取得して、AUC(AUC_ap、見かけ)を計算します 2)元のデータセットから派生した100-500のブートストラップサンプルを生成する 3)各ブートストラップサンプルについて、#1と同じ手順に従い、i)現在のブートストラップサンプル、ii)元のデータセットの予測値とaucを取得します。 4)100-500のブートストラップサンプルそれぞれについて、i)とii)(#3で)の差を計算し、平均を取る-> "optimism" 5)楽観主義が修正されたAUCを計算します:AUC_ap-楽観主義 私の質問は、ROC曲線が論文に提示するのに最も適しているのは何ですか?たとえば、手順1で取得したROCは1つの選択肢ですが、明らかに楽観的です。あるいは、ステップ#3(ii)で導出されたROC曲線に基づいて、RパッケージROCRを使用して「平均ROC」を生成しようとしました。ただし、[これらのROC曲線の平均]のAUCは、ステップ5で取得した値と同等ではないと考えています。 どんな入力でも大歓迎です!-M

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.