タグ付けされた質問 「auc」

AUCは曲線下面積を表し、通常は受信者オペレーター特性(ROC)曲線下の面積を指します。

4
AUCは、各クラスからランダムに選択されたインスタンスを正しく分類する確率ですか?
私はこのキャプションを紙で読んで、このように記述されたAUCを他のどこでも見たことはありません。これは本当ですか?これを確認するための証明または簡単な方法はありますか? 図2は、受信者操作特性曲線(AUC)の下の面積で表される二分変数の予測精度を示しています。これは、ランダムに選択された2人のユーザーを各クラス(男性と女性など)から正しく分類する確率に相当します。 )。 AUC = 0.5の場合、コインフリップが2回続けて正しく予測される確率が50%であることを示唆しているため、それは真実ではないように思えますが、実際には25%の確率しかありません2つのコインフリップを続けて正しく予測する方法。少なくとも、それが私がこの発言について考えている方法です。

2
通常のロジスティック回帰におけるAUC
私は2種類のロジスティック回帰を使用しています。1つはバイナリ分類用の単純なタイプで、もう1つは順序ロジスティック回帰です。最初の精度を計算するために、交差検証を使用しました。各検証でAUCを計算し、平均AUCを計算しました。通常のロジスティック回帰の場合はどうすればよいですか?マルチクラス予測子の一般化されたROCについて聞いたことがありますが、それを計算する方法がわかりません。 ありがとう!

3
モデルの選択、特徴の選択、および公開のための分類パフォーマンスメトリックの選択
私は小さなアンバランスデータセット(70ポジティブ、30ネガティブ)を使用しており、BAC(バランス精度)とAUC(曲線の下の面積)を使用してSVMパラメーターのモデル選択をいじっています。libSVMのCパラメーターにさまざまなクラスの重みを使用して、ここでのアドバイス(不均衡データに対する決定木のトレーニング)に従って不均衡データを相殺しました。 k分割交差検証エラーは、パフォーマンス測定のタイプに非常に敏感であるようです。トレーニングと検証のセットがランダムに選択されるため、それ自体にもエラーがあります。たとえば、ランダムシードを変えてBACを2回繰り返すと、異なるエラーが発生し、その後、最適パラメーターの値も異なります。繰り返しBACスコアを平均化する場合、1000回の平均では、10000回の平均とは異なる最適パラメーター値が得られます。さらに、フォールドの数を変更すると、さまざまな最適パラメーター値が得られます。 相互検証の精度指標は、楽観的になりすぎる場合があります。通常、2倍の相互検証を超えると、100%の精度が得られます。また、サンプルサイズが小さいため、エラー率は離散化されます。多くの場合、モデルを選択すると、すべてまたはほとんどのパラメーター値で同じエラー率が得られます。 レポートを作成するとき、分類が「良い」または「許容できる」ことをどのように知ることができますか?現場では、一般的に受け入れられている適合度やp値のしきい値のようなものはないようです。データに繰り返し追加しているので、いつ停止するかを知りたいのですが、モデルが大幅に改善しない場合の良いNは何ですか。 上記の問題を考えると、AUCはパフォーマンスの指標としては不十分であると説明されていますが(たとえば、ここ、またはここを参照)、精度を簡単に比較することはできないようです。 これらの3つの問題のいずれかに取り組む方法に関するアドバイスはありますか?

3
テストサンプルのAUCが高すぎるモデルは、オーバーフィットしないモデルよりも優れています
私は、列車セットで70%の AUC、ホールドアウトテストセットで70%の AUC を実行するモデルを作成したチャレンジに参加しています。 他の参加者は、トレーニングセットでAUC を96%、ホールドアウトテストセットでAUC を76%実行するモデルを作成しました。 私の意見では、ホールドアウトセットと同じレベルで機能するため、私のモデルの方が優れています。Q:テストセットでの彼の76%は単なる偶然であり、別のホールドアウトテストセットでは彼のモデルのパフォーマンスが低下する可能性があると主張することは有効ですか?

1
外れ値の検出:精度再現率曲線の下の領域
外れ値検出アルゴリズムを比較したいと思います。rocの下の領域または精度再現率曲線の下の領域が、使用する尺度であるかどうかはわかりません。 matlabでのクイックテストで奇妙な結果が得られます。完璧な分類のためにROCとPRの値を取得しようとします。 % true labels outlier = 1; normal = 0; % 99% normal data 1% outlier label = normal*ones(1000,1); label(1:10) = outlier; % scores of the algorithm % assume the prediction is perfect score = label; [~,~,~,AUC] = perfcurve(label,score,outlier) % AUC = 1 [~,~,~,PR] = perfcurve(label,score,outlier, 'xCrit', 'reca', 'yCrit', …
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.