タグ付けされた質問 「roc」

ROC曲線とも呼ばれる受信者動作特性。

1
ROC曲線が互いに交差するときの2つのモデルの比較
2つ以上の分類モデルを比較するために使用される一般的な尺度の1つは、ROC曲線下面積(AUC)を間接的にパフォーマンスを評価する方法として使用することです。この場合、通常、AUCが大きいモデルは、AUCが小さいモデルよりもパフォーマンスが高いと解釈されます。しかし、Vihinen、2012(https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3303716/)によると、両方の曲線が交差すると、そのような比較はもはや有効ではなくなります。なぜそうですか? たとえば、ROC曲線と以下のAUCに基づいてモデルA、B、Cについて確認できるものは何ですか?

2
キャレットパッケージを使用すると、特定のしきい値の混同マトリックスを取得できますか?
trainバイナリ応答のロジスティック回帰モデル(を介して)を取得し、confusionMatrixin を介してロジスティック混同行列を取得しましたcaret。ロジスティックモデルの混同マトリックスが得られますが、それを取得するためにどのしきい値が使用されているのかはわかりません。confusionMatrixin を使用して特定のしきい値の混同マトリックスを取得するにはどうすればよいcaretですか?

1
ロジスティック回帰モデルの評価
私はロジスティックモデルに取り組んでおり、結果を評価するのに苦労しています。私のモデルは二項ロジットです。説明変数は、15レベルのカテゴリ変数、二分変数、および2つの連続変数です。私のNは8000以上です。 私は、投資する企業の決定をモデル化しようとしています。従属変数は投資(yes / no)です。15レベルの変数は、マネージャーが報告する投資のさまざまな障害です。残りの変数は、販売、クレジット、および使用済み容量の制御です。 以下は、rmsR のパッケージを使用した私の結果です。 Model Likelihood Discrimination Rank Discrim. Ratio Test Indexes Indexes Obs 8035 LR chi2 399.83 R2 0.067 C 0.632 1 5306 d.f. 17 g 0.544 Dxy 0.264 2 2729 Pr(> chi2) <0.0001 gr 1.723 gamma 0.266 max |deriv| 6e-09 gp 0.119 tau-a 0.118 Brier 0.213 …

3
(平均)ROC AUC、感度および特異性に関して2つの分類子を比較するための統計的有意性(p値)
100のケースと2つの分類子のテストセットがあります。 両方の分類子の予測を生成し、ROC AUC、感度、特異度を計算しました。 質問1:p値を計算して、すべてのスコア(ROC AUC、感度、特異性)に関して一方が他方よりも有意に優れているかどうかを確認するにはどうすればよいですか? 今、100ケースの同じテストセットに対して、ケースごとに異なる独立した機能割り当てがあります。これは、私の機能が固定されているが主観的であり、複数の被験者によって提供されるためです。 そのため、テストセットの5つの「バージョン」について2つの分類子を再度評価し、両方の分類子について5つのROC AUC、5つの感度、5つの特異性を取得しました。次に、両方の分類子の5つの被験者(平均ROC AUC、平均感度、平均特異性)の各パフォーマンス測定値の平均を計算しました。 質問2:平均スコア(平均ROC AUC、平均感度、平均特異性)に関して、一方が他方よりも有意に優れているかどうかを確認するためにp値を計算するにはどうすればよいですか? いくつかのサンプルPython(できれば)またはMatLabコードの回答は大歓迎です。

1
GINIとAUC曲線の解釈の違いは何ですか?
以前は、スコアカードモデリングの良い点と悪い点の割合を利用して作成されたリフトを使用して、GINI曲線を作成していました。しかし、私が調査したROC曲線は、x軸として特異性(1- True Negative)を持ち、Y軸として感度(true positive)を持つ混同行列を使用して作成されます。 したがって、GINIとROCの結果は同じですが、1つの違いは、後者が一致と不一致の値(TP、FP、FN、TN)も考慮に入れていることです。
13 roc  gini 

4
ROC曲線の解釈方法は?
SASのデータにロジスティック回帰を適用しました。これがROC曲線と分類表です。 私は分類表の数値に満足していますが、roc曲線とその下の領域が何を示すのか正確にはわかりません。どんな説明でも大歓迎です。


1
(d-prime)とAUC(ROC曲線下の領域)の間の接続。基礎となる仮定
機械学習では、ROC曲線の下の領域(多くの場合、省略されたAUCまたはAUROC)を使用して、システムが2つのカテゴリーをどれだけうまく区別できるかを要約します。信号検出理論では、d′d′d'(感度指数)が同様の目的で使用されることがよくあります。この2つは密接に関連しており、特定の前提条件が満たされていれば、両者は同等であると思います。 の計算は、通常、(例えば、上記のリンクウィキペディアを参照)の信号分布のために正規分布を仮定に基づいて提示されます。ROC曲線の計算ではこの仮定は行われません。これは、しきい値処理可能な連続値の決定基準を出力する分類子に適用できます。d′d′d' ウィキペディアによれば、は2 AUC − 1に相当します。両方の仮定が満たされている場合、これは正しいようです。しかし、仮定が同じでない場合、それは普遍的な真実ではありません。d′d′d'2AUC−12AUC−12 \text{AUC} - 1 仮定の違いを「AUCは基礎となる分布についての仮定を少なくする」と特徴づけることは公正ですか?または、実際にはAUCと同じくらい広く適用できますが、d ′を使用する人々が正規分布を仮定する計算を使用する傾向があるのは、単なる一般的な慣習ですか?私が見逃した根本的な仮定に他の違いはありますか?d′d′d'd′d′d'

4
RでROCの下の面積のp値を計算する方法
私は、受信者オペレーター特性(ROC)の下の領域のp値を計算する方法を見つけるのに苦労しています。連続変数と診断テスト結果があります。AUROCが統計的に有意であるかどうかを見たいです。 ROC曲線を扱う多くのパッケージを見つけました:pROC、ROCR、caTools、検証、Epi。しかし、ドキュメントを読んでテストするのに何時間も費やした後でも、私はその方法を見つけることができませんでした。見逃したばかりだと思う。
12 r  p-value  roc 

3
対角線を横切るROC曲線
現在、バイナリ分類器を実行しています。ROC曲線をプロットすると、最初は良好なリフトが得られ、方向が変わり、対角線を横切り、もちろん元に戻り、曲線がSのような傾斜した形状になります。 この効果の解釈/説明は何ですか? ありがとう
12 roc 



1
分類子の評価:学習曲線とROC曲線
大規模なトレーニングデータセットを使用するマルチクラステキスト分類問題の2つの異なる分類子を比較したいと思います。2つの分類子を比較するためにROC曲線を使用するか、学習曲線を使用する必要があるか疑問です。 一方、学習曲線は、分類器が学習を停止する(場合によっては低下させる)データセットのサイズを見つけることができるため、トレーニングデータセットのサイズを決定するのに役立ちます。したがって、この場合の最適な分類子は、最小のデータセットサイズで最高の精度に到達する分類子です。 一方、ROC曲線を使用すると、感度/特異度の間で適切なトレードオフのあるポイントを見つけることができます。この場合の最適な分類子は、左上部分に近い分類子で、FPRのTPRが最も高くなります。 両方の評価方法を使用する必要がありますか?より良い学習曲線を持つメソッドがより悪いROC曲線を持つことは可能ですか?

1
まれなイベントのロジスティック回帰のカットオフ確率を選択する方法
私は100の観測値(9つのダミー指標変数)を持ち、1000のポジティブを持っています。この場合、ロジスティック回帰は問題なく機能するはずですが、カットオフの可能性に戸惑います。 一般的な文献では、1と0を予測するために50%カットオフを選択しています。モデルの最大値が1%以下であるため、これを行うことはできません。したがって、しきい値は0.007またはその付近のいずれかになります。 ROC曲線と、曲線の下の領域が同じデータセットの2つのLRモデルを選択するのにどのように役立つかを理解しています。ただし、ROCは、サンプル外のデータでモデルをテストするために使用できる最適なカットオフ確率を選択するのに役立ちません。 私は単に最小化するカットオフ値を使用する必要がありmisclassification rateますか?(http://www2.sas.com/proceedings/sugi31/210-31.pdf) 追加->このように低いイベントレートの場合、誤分類率は膨大な数の誤検知の影響を受けます。全体のユニバースサイズも大きいので、全体の比率は良好に見えますが、私のモデルはそれほど多くの誤検知があってはなりません(これは投資収益モデルであるため)。5/10係数は重要です。

3
「良い」分類子は私の精密再現率曲線を破壊しました。どうした?
私は不均衡なデータを処理しています。そこでは、すべてのclass = 1に対して約40のclass = 0ケースがあります。個々の機能を使用してクラスを合理的に区別することができ、6つの機能でナイーブベイズとSVM分類器をトレーニングし、データのバランスをとることで、より良い識別が得られました(以下のROC曲線)。 それは結構です、そして私はうまくやっていると思いました。ただし、この特定の問題の慣例は、通常50%から90%の間の精度レベルでヒットを予測することです。例:「90%の精度でいくつかのヒットを検出しました。」これを試したところ、分類子から得られる最大精度は約25%でした(黒い線、下のPR曲線)。 PR曲線は不均衡に敏感でROC曲線はそうではないので、これをクラスの不均衡問題として理解できました。ただし、不均衡は個々の機能に影響を与えていないようです。個々の機能(青とシアン)を使用すると、かなり高い精度を得ることができます。 何が起こっているのかわかりません。結局のところ、データが非常に不均衡であるため、PRスペースですべてがうまく機能していなければ、それを理解できました。分類子がROC と PRの領域で見た目が悪い場合にも、それを理解できました。しかし、ROCによって判断されると分類子をより良くするために何が起こっているのですか? 編集:TPR /リコールの低い領域(TPRが0から0.35の間)では、個々の機能がROC曲線とPR曲線の両方の分類子を常に上回っていることに気付きました。多分私の混乱は、ROC曲線が高いTPR領域(分類器がうまく機能している場合)を「強調」し、PR曲線が低いTPR(分類器が悪い場合)を強調しているためです。 編集2:バランスの取れていないデータ、つまり生データと同じ不均衡でのトレーニングにより、PR曲線が復活しました(以下を参照)。私の問題は分類子の不適切なトレーニングだったと思いますが、何が起こったのか完全には理解できません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.