タグ付けされた質問 「roc」

ROC曲線とも呼ばれる受信者動作特性。

2
ROC曲線分析での共変量の調整
この質問は、相関スケールの存在下で、バイナリエンドポイントを予測するための多次元スクリーニングアンケートのカットオフスコアの推定に関するものです。 アルコール依存症のスクリーニングに使用される可能性のある測定スケール(性格特性)の各次元でカットオフスコアを考案する際に、関連するサブスコアを制御することの関心について尋ねられました。つまり、この特定のケースでは、人は外部共変量(予測子)の調整に関心がありませんでした-これは、共変量調整ROC曲線((1-2)など)の下の(部分)領域につながりますが、本質的には他のスコアそれらは互いに相関しているため、同じアンケートから(例えば、「衝動性」と「感覚を求める」)。左側に関心のあるスコア(カットオフを求める)と同じアンケートから計算された別のスコアを含むGLMを構築しますが、右側には結果が飲酒ステータスである場合があります。 (@robinリクエストごとに)明確にするために、我々は持っていると仮定し言う、スコアを(例えば、不安、衝動性、神経症、感覚求めて)を、そして私たちは、カットオフ値の検索したい場合(すなわち、「正の場合」、それ以外の場合は「負のケース」)。通常、このようなカットオフを考案する際に、性別や年齢などの他のリスク要因を調整します(ROC曲線分析を使用)。さて、SSはIMPと相関することが知られているので、性別、年齢、および感覚探索(SS)の衝動性(IMP)を調整するのはどうでしょうか。言い換えれば、年齢、性別、不安レベルの影響が取り除かれたIMPのカットオフ値があります。x j t j x j > t jj = 4j=4j=4バツjxjx_jtjtjt_jバツj> tjxj>tjx_j>t_j カットオフはできる限りシンプルに保つ必要があると言うこととは別に、私の応答は 共変量については、予測パフォーマンスが向上するかどうかを確認するために、調整ありと調整なしでAUCを推定することをお勧めします。ここで、共変量は同じ測定機器から定義された他のサブスコアに過ぎず、このような状況に直面したことはありません(通常、年齢や性別などの既知のリスク要因に基づいて調整します)。[...]また、あなたは予後の問題(すなわち、アンケートのスクリーニング効果)に興味があるので、陽性の予測値(PPV、陽性結果が正しく分類された患者の確率)の推定にも興味があります。アンケートのサブスコアに応じて、被験者を「ポジティブ」または「ネガティブ」に分類できます。ただし、 可能であれば、関連する論文へのリンクを使用して、この特定の状況をより完全に理解していますか? 参照資料 Janes、H and Pepe、MS(2008)。診断、スクリーニング、または予後マーカーの研究における共変量の調整:新しい設定における古い概念。American Journal of Epidemiology、168(1):89-97。 Janes、H and Pepe、MS(2008)。ROC分析における共変量の調整。UW Biostatistics Working Paper Series、ペーパー322。
20 epidemiology  roc 

2
回帰分析と曲線近似の違い
可能であれば例を使って、回帰分析と曲線近似(線形および非線形)の実際の違いを説明してもらえますか? どちらも2つの変数間の関係(従属と独立)を見つけようとし、提案されているモデルに関連するパラメーター(または係数)を決定しようとするようです。たとえば、次のようなデータセットがある場合: Y = [1.000 1.000 1.000 0.961 0.884 0.000] X = [1.000 0.063 0.031 0.012 0.005 0.000] 誰もがこれら2つの変数間の相関式を提案できますか?これら2つのアプローチの違いを理解するのが困難です。他のデータセットで答えをサポートしたい場合、それは適合しにくいと思われるので大丈夫です(おそらく私だけのために)。 上記のデータセットは、受信者動作特性(ROC)曲線のおよび軸を表します。ここで、は真陽性率(TPR)、は偽陽性率(FPR)です。xxxy xyyyyyyxxx 特定のFPR(またはその逆)のTPRを推定するために、これらのポイントの中で、曲線を近似するか、元の質問に従って回帰分析を行っていますが、まだ定かではありません。 まず、2つの独立変数(TPRとFPR)の間にこのような曲線近似関数を見つけることは科学的に受け入れられますか? 第二に、実際のネガティブなケースと実際のポジティブなケースの分布が正規でないことを知っている場合、そのような関数を見つけることは科学的に受け入れられますか?

3
不均衡なデータセットのROC対精度-再現率曲線
私はこの議論を読み終えました。彼らは、PR AUCが不均衡なデータセットのROC AUCよりも優れていると主張しています。 たとえば、テストデータセットには10​​個のサンプルがあります。9個のサンプルが陽性で、1個が陰性です。私たちはすべてを肯定的に予測する恐ろしいモデルを持っています。したがって、TP = 9、FP = 1、TN = 0、FN = 0というメトリックが得られます。 次に、精度= 0.9、再現率= 1.0。精度と再現率はどちらも非常に高いですが、分類子が不十分です。 一方、TPR = TP /(TP + FN)= 1.0、FPR = FP /(FP + TN)= 1.0。FPRは非常に高いため、これは適切な分類器ではないことがわかります。 明らかに、ROCは不均衡なデータセットのPRよりも優れています。誰かがPRの方が良い理由を説明できますか?

1
AUCが半適切なスコアリングルールであることはどういう意味ですか?
適切なスコアリングルールは、「真の」モデルによって最大化されるルールであり、システムの「ヘッジ」やゲームを許可しません(スコアを改善するためのモデルの真の信念である異なる結果を意図的に報告する)。ブライアースコアは適切であり、正確性(正しく分類された割合)は不適切であり、しばしば落胆します。時々、AUCは半適切なスコアリングルールと呼ばれ、精度が完全に偽ではなく、適切なルールよりも感度が低くなることがわかります(たとえば、https://stats.stackexchange.com/a/90705/53084)。 準適切なスコアリングルールとはどういう意味ですか?どこかで定義されていますか?

3
不均衡なデータのROC曲線の下の領域またはPR曲線の下の領域?
使用するパフォーマンス測定値、ROC曲線下の領域(FPRの関数としてのTPR)または精度-リコール曲線下の領域(リコールの関数としての精度)について疑問があります。 私のデータは不均衡です。つまり、負のインスタンスの数は正のインスタンスよりもはるかに多くなっています。 wekaの出力予測を使用しています。サンプルは次のとおりです。 inst#,actual,predicted,prediction 1,2:0,2:0,0.873 2,2:0,2:0,0.972 3,2:0,2:0,0.97 4,2:0,2:0,0.97 5,2:0,2:0,0.97 6,2:0,2:0,0.896 7,2:0,2:0,0.973 そして、私はpROCおよびROCR rライブラリーを使用しています。

2
ROC曲線下の精度と面積
診断システムのROC曲線を作成しました。曲線の下の面積は、AUC = 0.89とノンパラメトリックに推定されました。最適なしきい値設定(ポイント(0、1)に最も近いポイント)で精度を計算しようとすると、診断システムの精度は0.8になりました。これはAUCよりも低い値です。最適なしきい値とはかけ離れた別のしきい値設定で精度を確認すると、精度は0.92になりました。最適なしきい値設定での診断システムの精度を、別のしきい値での精度よりも低く、曲線の下の領域よりも低くすることは可能ですか?添付の写真をご覧ください。


4
勾配ブースティングマシンの精度は、反復回数が増えると低下します
caretR のパッケージを介して勾配ブースティングマシンアルゴリズムを試しています。 小さな大学入学データセットを使用して、次のコードを実行しました。 library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

2
コインをひっくり返して分類器を組み合わせる
私は機械学習コースを勉強しており、講義のスライドには推奨されている本と矛盾する情報が含まれています。 問題は次のとおりです。3つの分類子があります。 低い範囲のしきい値でより良いパフォーマンスを提供する分類子A より高い範囲のしきい値でより優れたパフォーマンスを提供する分類子B 分類子C pコインを反転し、2つの分類子から選択することで得られるもの。 ROC曲線で見た分類器Cのパフォーマンスはどうなりますか? 講義のスライドでは、このコインを反転させるだけで、分類器AとBのROC曲線の魔法の「凸包」が得られると述べています。 私はこの点を理解していません。コインをひっくり返すだけで、どのようにして情報を得ることができますか? 講義スライド 本が言うこと 一方、推奨される本(Ian H. Witten、Eibe Frank、Mark A. HallによるData Mining ...)は次のように述べています。 これを確認するには、tAとfAのそれぞれ正と偽の正の割合を与えるメソッドAの特定の確率カットオフと、tBとfBを与えるメソッドBの別のカットオフを選択します。これら2つのスキームを確率pとq(p + q = 1)でランダムに使用すると、pの真と偽の陽性率が得られます。tA + q tBおよびp fA + q fB。これは、ポイント(tA、fA)と(tB、fB)を結ぶ直線上にあるポイントを表し、pとqを変えることにより、これら2つのポイント間のライン全体をトレースできます。 私の理解では、本が言うことは、実際に情報を得て凸包に到達するためには、単にpコインをひっくり返すよりも高度なことをする必要があるということです。 私の知る限り、正しい方法は(本で提案されているように)次のとおりです。 分類器Aの最適なしきい値Oaを見つける必要があります 分類器Bの最適なしきい値Obを見つける必要があります Cを次のように定義します。 t <Oaの場合、tで分類器Aを使用します t> Obの場合、tで分類器Bを使用 Oa <t <Obの場合、OaとObの間の位置の線形結合としての確率により、Oaを持つ分類器AとObを持つBの間を選択します。 これは正しいです?はいの場合、スライドが示唆するものと比較していくつかの重要な違いがあります。 それは単純なコインの反転ではなく、どの地域に属するかに基づいて手動で定義されたポイントとピックを必要とするより高度なアルゴリズムです。 OaとObの間のしきい値で分類子AとBを使用することはありません。 私の理解が正しくなかった場合、この問題とそれを理解する正しい方法は何ですか? スライドが示すように、単にpコインを反転させるだけで何が起こるでしょうか?AとBの間のROC曲線が得られると思いますが、特定のポイントでより良い曲線よりも「良い」曲線になることはありません。 私が見る限り、私はスライドがどのように正しいかを本当に理解していません。左側の確率的計算は私には意味がありません。 更新: …

2
Cox比例ハザードモデルで相互検証を行う方法
1つのデータセット(モデル構築データセット)で特定の疾患の発生に関する予測モデルを構築し、新しいデータセット(検証データセット)でモデルがどのように機能するかを確認したいとします。ロジスティック回帰で構築されたモデルの場合、モデル構築データセットから取得したモデル係数に基づいて検証データセット内の各人の予測確率を計算し、カットオフ値でそれらの確率を二分した後、2x2テーブルを構築できますこれにより、真の陽性率(感度)と真の陰性率(特異性)を計算できます。さらに、カットオフを変更してROC曲線全体を作成し、ROCグラフのAUCを取得できます。 ここで、実際に生存データがあると仮定します。そのため、モデル作成データセットでCox比例ハザードモデルを使用し、検証データセットでモデルがどのように機能するかを確認したいと思います。ベースラインリスクはCoxモデルのパラメトリック関数ではないため、モデル構築データセットで取得したモデル係数に基づいて検証データセットの各人の予測生存確率を取得する方法はわかりません。それでは、検証データセットでモデルがどのように機能するかを確認するにはどうすればよいですか?これを行うための確立された方法はありますか?はいの場合、それらはソフトウェアに実装されていますか?提案を事前に感謝します!

4
ROC曲線の利点
ROC曲線の利点は何ですか? たとえば、バイナリ分類の問題であるいくつかの画像を分類しています。約500個のフィーチャを抽出し、フィーチャ選択アルゴリズムを適用してフィーチャセットを選択し、SVMを分類に適用しました。この場合、どのようにしてROC曲線を取得できますか?特徴選択アルゴリズムのしきい値を変更し、出力の感度と特異度を取得してROC曲線を描画する必要がありますか? 私の場合、ROC曲線を作成する目的は何ですか?

2
確率推定による繰り返し10倍相互検証の平均ROC
機械学習アルゴリズムを使用して、約10,000件のケースで繰り返し(10回)成層10倍クロス検証を使用する予定です。繰り返しは、異なるランダムシードで行われます。 このプロセスでは、各ケースの確率推定値のインスタンスを10個作成します。10倍交差検証の10回の繰り返しごとの確率推定の1つのインスタンス 各ケースで平均10個の確率を平均し、新しい平均ROC曲線(反復10倍CVの結果を表す)を作成して、ペア比較により他のROC曲線と比較できますか?
15 roc 

4
ROCおよびmultiROC分析:最適なカットポイントの計算方法
ROC曲線の最適なカットポイント(感度と特異性が最大になる値)を計算する方法を理解しようとしています。aSAHパッケージのデータセットを使用していますpROC。 outcome変数は、2つの独立変数によって説明することができますs100bとndka。Epiパッケージの構文を使用して、2つのモデルを作成しました。 library(pROC) library(Epi) ROC(form=outcome~s100b, data=aSAH) ROC(form=outcome~ndka, data=aSAH) 出力は、次の2つのグラフに示されています。 最初のグラフ(s100b)では、関数は、最適なカットポイントがに対応する値に局在していることを示していlr.eta=0.304ます。2番目のグラフ(ndka)では、最適なカットポイントがlr.eta=0.335(の意味はlr.eta)に対応する値にローカライズされています。私の最初の質問は: 何対応するs100bとndkaの値lr.etaの値が示されている(の点で最適なカットポイントは何であるs100bとはndka)? 第二の質問: 次に、両方の変数を考慮してモデルを作成するとします。 ROC(form=outcome~ndka+s100b, data=aSAH) 得られるグラフは次のとおりです。 関数によって感性と特異性が最大化されるndkaAND の値を知りたいですs100b。他の面では:の値が何であるかndka及びs100bその時、我々がse = 68.3パーセントとSP値76.4パーセント(グラフから得られた値)を有しますか? この2番目の質問はmultiROC分析に関連していると思いますが、Epiパッケージのドキュメントには、モデルで使用される両方の変数の最適なカットポイントを計算する方法が説明されていません。 私の質問は、簡単に言うとreasearchGateからのこの質問と非常によく似ています。 メジャーの感度と特異性の間のより良いトレードオフを表すカットオフスコアの決定は簡単です。ただし、多変量ROC曲線分析については、ほとんどの研究者がAUCの観点からいくつかのインジケーター(変数)の線形結合の全体的な精度を決定するアルゴリズムに注目していることに注目しました。[...] ただし、これらの方法では、最高の診断精度を提供する複数のインジケーターに関連付けられたカットオフスコアの組み合わせを決定する方法については言及していません。 可能な解決策は、Shultzの論文で提案されたものですが、この記事からは、多変量ROC曲線の最適なカットポイントを計算する方法を理解できません。 Epiパッケージからの解決策は理想的ではないかもしれないので、他の有用なリンクを歓迎します。

3
AUCの確率論的解釈を導き出す方法は?
ROC曲線の下の領域が、分類子がランダムに選択された「ポジティブ」インスタンスを(取得された予測から)ランダムに選択された「ポジティブ」インスタンス(元のポジティブクラスから)よりもランク付けする確率が高いのはなぜですか?このステートメントを積分を使用して数学的に証明し、真の正と負のクラス分布のCDFとPDFをどのように証明しますか?
14 probability  roc  auc 

5
ロジスティック回帰に関する哲学的質問:最適なしきい値がトレーニングされないのはなぜですか?
通常、ロジスティック回帰では、モデルを近似し、トレーニングセットでいくつかの予測を取得します。次に、これらのトレーニング予測(こちらのようなもの)を相互検証し、ROC曲線のようなものに基づいて最適なしきい値を決定します。 しきい値の交差検証を実際のモデルに組み込んで、全体をエンドツーエンドでトレーニングしてみませんか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.