ブートストラップによる内部検証:提示するROC曲線は?


8

標準のロジスティック回帰またはエラスティックネットで構築された多変量モデルの内部検証にブートストラップアプローチを使用しています。

私が使用する手順は次のとおりです。

1)データセット全体を使用してモデルを構築し、予測値を取得して、AUC(AUC_ap、見かけ)を計算します

2)元のデータセットから派生した100-500のブートストラップサンプルを生成する

3)各ブートストラップサンプルについて、#1と同じ手順に従い、i)現在のブートストラップサンプル、ii)元のデータセットの予測値とaucを取得します。

4)100-500のブートストラップサンプルそれぞれについて、i)とii)(#3で)の差を計算し、平均を取る-> "optimism"

5)楽観主義が修正されたAUCを計算します:AUC_ap-楽観主義

私の質問は、ROC曲線が論文に提示するのに最も適しているのは何ですか?たとえば、手順1で取得したROCは1つの選択肢ですが、明らかに楽観的です。あるいは、ステップ#3(ii)で導出されたROC曲線に基づいて、RパッケージROCRを使用して「平均ROC」を生成しようとしました。ただし、[これらのROC曲線の平均]のAUCは、ステップ5で取得した値と同等ではないと考えています。

どんな入力でも大歓迎です!-M

回答:


5

ROC曲線は有益であり、適切な決定につながると想定しています。どちらも正しくありません。有用な洞察を提供するROC曲線はまだ見ていません。また、インク:情報の比率も大きくなっています。 -index(一致確率)は、予測判定の良い指標です。AUROCでもない方がいいと思います。ROC曲線を提示する必要はありません。c

情報の収量が少ないことに加えて、ROC曲線はアナリストに、意思決定上の災害である予測確率のカットポイントを求めるように促します。


0

あなたは私が長い間疑問に思っていたという非常に良い質問をしました。おそらく、どのように報告するかを決定するのは、結果に依存します。ほとんどの状況で、著者は楽観的であるかどうかにかかわらず、生/見かけのAUC(つまり、質問のステップ#1)を報告し、次にブートストラップの楽観主義で修正されたAUC(ステップ#5)を報告します。参照してください:http : //journals.plos.org/plosone/article?id= 10.1371/ journal.pone.0125026

AUCが楽観的過ぎないように見えるいくつかの状況では、著者は修正されたAUCを直接報告します。

ステップ#3(ii)のAUCについてはほとんど報告されていないため、無視することをお勧めします。


-2

質問が欠けている詳細はたくさんありますが、テストセットのすべてについて話しているのではないようです。モデルの一般化可能性(ROC曲線の主な使用例)を示す場合は、検証または内部検証セットではなく、テストセットから派生したROCを提示する必要があります。または、複数のテストセットから導出された平均ROC。したがって、テストセットを生成し、そこから取得する方法を見つけることが重要です。

ROC分析(および平均ROC曲線の作成方法)を学習するための適切なリファレンスは次のとおりです。

フォーセット、T。(2006)。ROC分析の概要。パターン認識レター、27(8)、861–874。 http://www.sciencedirect.com/science/article/pii/S016786550500303X


同じデータストリームからテストセットを作成することは依然として内部検証であり、楽観的ブートストラップを使用するよりも信頼性が低くなります。分割サンプルの検証は非常に非効率的であり、実際に誤解を招くことがよくあります。私は中にこれを詳細に議論する生物医学研究のための生物統計学のセクションから入手10.11 biostat.mc.vanderbilt.edu/ClinStat
フランク・ハレル
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.