相互検証された分類精度の信頼区間


11

2つの入力X線画像間の類似性メトリックを計算する分類問題に取り組んでいます。画像が同じ人物の場合(「右」のラベル)、より高いメトリックが計算されます。2人の異なる人物の画像(「間違った」というラベル)を入力すると、メトリックが低くなります。

階層化された10分割交差検証を使用して、誤分類の確率を計算しました。私の現在のサンプルサイズは約40の正しい一致と80の誤った一致で、各データポイントは計算されたメトリックです。私は0.00の誤分類確率を取得していますが、これについてある種の信頼区間/エラー分析が必要です。

私は二項比率信頼区間の使用を検討していました(相互検証の結果を、成功の数に対する正しいラベル付けまたは誤ったラベル付けとして使用しました)。ただし、二項分析の背後にある仮定の1つは、各試行で成功する確率が同じであり、交差検証での「正しい」または「間違った」の分類の背後にある方法が、同じ成功の確率。

私が考えることができる他の唯一の分析は、クロス検証をX回繰り返し、分類エラーの平均/標準偏差を計算することですが、私のデータを再利用しているので、これが適切かどうかはわかりません数回の比較的小さなサンプルサイズ。

何かご意見は?すべての分析にMATLABを使用していますが、統計ツールボックスがあります。すべての支援に感謝します!


誤分類確率0.00は、10の交差検証フォールドのそれぞれで100%の分類精度を得ることを意味しますか?
アメーバは、モニカを

はい、そうです。フォールドのそれぞれで誤分類は発生しませんでした。私が報告した0.00は、テストケースの総数(120)のうち、誤分類の総数(0)を表します。
ショーン

ところで、「層別」相互検証とは、どういう意味ですか?各CVフォールドには、120/10 = 12のテストサンプルがあり、常に4つの一致と8つの不一致がありますか?
アメーバはモニカを復活させると言います

うん、それだけです。少なくとも、MATLABでそれがどのように行われているかを理解する方法です。各折り畳みには、「正しい」/「間違った」クラスラベルの同じ比率、つまり1:2を含める必要があります。
Sean、

回答:


7

異なる代理モデルの予測における不安定性の影響

ただし、二項分析の背後にある仮定の1つは、各試行で成功する確率が同じであり、交差検証での「正しい」または「間違った」の分類の背後にある方法が、同じ成功の確率。

まあ、通常、その同等性は、さまざまなサロゲートモデルの結果をプールするためにも必要な仮定です。

実際には、この仮定に違反する可能性があるというあなたの直感は、しばしば真実です。しかし、これが事実であるかどうかを測定できます。反復交差検証が役立つのは、この場合です。異なるサロゲートモデルによる同じケースの予測の安定性により、モデルが同等(安定した予測)かどうかを判断できます。

k
反復k分割交差検証

ik

各反復のパフォーマンスを計算することもできます(図の3行のブロック)。これらの間の差異は、代理モデルが(相互に、さらにすべてのケースで構築された「グランドモデル」に)等しいという仮定が満たされていないことを意味します。しかし、これはあなたがどれだけ不安定であるかを教えてくれます。二項比率については、真のパフォーマンスが同じである限り(つまり、常に同じケースが誤って予測されるか、または同じ数で異なるケースが誤って予測されるかどうかに関係なく)考えます。サロゲートモデルのパフォーマンスについて特定の分布を賢明に想定できるかどうかはわかりません。しかし、いずれにしても、その不安定性を報告することは、現在一般的な分類エラーの報告よりも有利だと思います。kk


nki

図面はイチジクの新しいバージョンです。この論文の5:Beleites、C.とSalzer、R .:小さなサンプルサイズの状況でのケモメトリックモデルの安定性の評価と改善、Anal Bioanal Chem、390、1261-1271(2008)。DOI:10.1007 / s00216-007-1818-6
この論文を書いたとき、私がここで説明したさまざまな差異の原因を完全には理解していないことに注意してください。したがって、私は議論は各患者内の異なる組織タイプが、特定の組織タイプの新しい患者と同じくらい多くの全体的な情報を提供しているというアプリケーションの結論はおそらく有効ですが、有効なサンプルサイズの見積もりは正しくありません(私はまったく異なるタイプのその方法を示す証拠)。ただし、これについてはまだ完全にはわかっていません(どのようにすれば改善できるか、したがって確認できるようになることもありません)。この問題はあなたの質問とは無関係です。


二項信頼区間に使用するパフォーマンスはどれですか?

これまでは、観測された平均パフォーマンスを使用してきました。また、観測された最悪のパフォーマンスを使用することもできます。観測されたパフォーマンスが0.5に近いほど、分散が大きくなり、信頼区間も大きくなります。したがって、観測されたパフォーマンスの信頼区間が0.5に最も近いと、保守的な「安全マージン」が得られます。

観測された成功数が整数でない場合にも、二項信頼区間を計算するいくつかの方法が機能することに注意してください。ロス、TD:二項比率の正確な信頼区間とポアソンレート推定、Comput Biol Med、33、509-531(2003)で説明されている「ベイジアン事後確率の統合」を使用します
。DOI:10.1016 / S0010-4825(03)00019-2

(Matlabではわかりませんが、R binom::binom.bayesでは両方の形状パラメーターを1に設定して使用できます)。


n

参照:Bengio、Y.とGrandvalet、Y .: No Korse Variance of Variance of K-Fold Cross-Validation、Journal of Machine Learning Research、2004、5、1089-1105

(これらのことについてもっと考えることは私の研究のToDoリストにあります...しかし、私は実験科学から来ているので、理論的およびシミュレーションの結論を実験データで補完したいのです。参照テスト用の独立したケースのセット)


更新:生物分布を仮定することは正当化されますか?

k

n

npn


こんにちは@cbeleitesです。CV分析の結果、特定のデータセットに対して2つの一意の値が得られるとコメントしました(他のデータセットにはN個の一意の値があり、Nは通常5未満です)。この場合、単一のデータセットとCVだけを使用して予測が安定していることをどのように示すことができますか?二項分布については、Agresti-Coull間隔(グリッチなしで高い成功率/ 100%の成功率で機能する)を検討していました。私は二項分布を使用できると言っているようですが、同じ成功確率の仮定をどのように正当化できるかはまだわかりません。
Sean

p

1
@amoeba:不安定性のために二項分布を未知の分布と1つの信頼区間に組み合わせる方法がわかりません。したがって、有限のテストサンプルサイズの(非)安定性と二項ciの観測されたパーセンタイルを報告します。それらをどのように組み合わせるかは、頭に残る調査の質問の1つですが、これまでのところ、解決策を見つけることも、そのような人に会うこともしていません。私たちは研究の最前線に到着したと思います...
cbeleites

1
@Sean:関連する問題についての最近の質問を見ましたか?コメントには非常に興味深い(私にとって)議論が続いており、現在、自分でいくつかのシミュレーションに取り組んでいます。私は二項仮定がひどく間違っていると信じるようになりました!そこに提供されている、同じことを主張するいくつかの参考文献にも興味があるかもしれません。
アメーバはモニカを復活させる

1
@Sean:私はこれら2つのスレッドを最新の状態に保つように努めます。つまり、問題がさらに明確化された場合(およびその場合)、状況を要約し、ここで新しい答えを提供します。今のところ、この論文が他のスレッドにリンクされていることに気づきましたか?著者はあなたの質問を正確に議論し、彼らがうまくいくと主張するブートストラップ手順を提供します。今、あなたの質問に対する回答を書くとしたら、彼らの手順をお勧めします。しかし、その論文を引用している24の論文を最初にチェックすることは理にかなっています。
アメーバはモニカを復活させる'11

3

クロスバリデーションを何度も繰り返すというあなたの考えは正しいと思います。

CVを1000回繰り返してみましょう。毎回、データを異なる方法で10分割(10倍CVの場合)に分割します(ラベルをシャッフルしないでください)。分類精度の推定値は1000になります。もちろん、同じデータを再利用するので、これらの1000の見積もりは独立したものにはなりません。しかし、これはブートストラップ手順に似ています。全体的な精度推定の平均の標準誤差として、これらの精度に対する標準偏差をとることができます。または、95%信頼区間として95%パーセンタイル間隔。

あるいは、交差検証ループとブートストラップループを組み合わせて、データの10%をランダム(おそらく層別ランダム)にテストセットとして選択し、これを1000回行うこともできます。上記と同じ理由がここでも当てはまります。ただし、これにより繰り返しの分散が大きくなるため、上記の手順の方が良いと思います。

誤判別率が0.00の場合、分類子はエラーを発生させず、これが各ブートストラップ反復で発生する場合、広い信頼区間はゼロになります。しかし、これは単に、分類子がほぼ完璧であることを意味します。


こんにちは@amoeba、ご返信ありがとうございます。サンプルをランダムに並べ替えてCVを1000回繰り返す最初の提案についてもう少し説明してもらえませんか?テストセット:トレーニングセットの事前に確立された比率がある必要がありますか(たとえば、10分割交差検証では10:90)。10倍の検証を繰り返すと、時間の経過とともに分散がどのように増加するかは、少しわかりにくいと思います。
ショーン

1
@amoebaが提案する2番目の手順は楽観的すぎると思います:不完全な分類器は、特定のデータセットで完璧なパフォーマンスを発揮できます(たとえば、サンプルが4つしかないと仮定します-すべてを分類するのは1:8です)偶然正しく)。amoebaが指摘したように、train-test foldsの異なる割り当ての分散を測定すると、幅の信頼区間が0になりますが、この場合は明らかに正しくありません。
Trisoloriansunscreen 14

1
最終的に、この問題は、まだ観察していないものとは異なるデータを観察する確率を見つけることに帰着すると思います。私のサンプルの信頼区間を取得することは、@ amoebaが私の元の質問に対して提案したものであり(CVの反復ごとにランダムなフォールドを使用しました)、結果はより現実的に見えます(95%CI:[0.0028、0.0033])。ただし、将来のデータ予測に適した別の手法があるかどうかはわかりません。おそらく、データに曲線を当てはめて、それらの重なりを計算する、ある種のモデルベースのアプローチですか?
Sean

3
@amoeba:説明をありがとう、私はあなたの答えを十分に注意深く読んでいなかったと思います。それでも、このアプローチ(両方の手順)の楽観的なバイアスについては、まだ問題があります。さまざまなCV分割を試行しながら精度を測定することにより、任意の分割によって引き起こされる変動性を推定します。それでも、データ全体が(収集しなかった)観測のより大きな母集団のランダムなサンプルであるという事実を無視します。(CV分割に関係なく)偶然に完全なパフォーマンスを達成する小さなデータセットがある場合、信頼区間はゼロであり、これは正しくありません。
Trisoloriansunscreen 14

1
@amoeba:観測自体をブートストラップできないため、トリッキーです(このような場合は、最近傍分類子を検討してください)。私はその問題に自分自身で取り組んでいます。誰か他の人がアイデアを考え出すかどうか見てみましょう。
Trisoloriansunscreen 14

2

分類エラーは不連続であり、スコアリングルールが不適切です。これは精度が低く、最適化すると誤った機能が選択され、それらに誤った重みが与えられます。


OPが99〜100%の相互検証された分類精度を取得している場合、これはOPにとってほとんど問題になりません。
アメーバは、モニカ

1
@amoeba:100または0%に近い正しい比率が観察される場合も問題になる可能性があります。連続スコアに依存するパフォーマンス測定とは対照的に、連続分類スコアを二分した(強化)後に測定されるパフォーマンスの種類は示すことができません予測が正しい側にある限り、予測は決定境界に近づきます。ただし、IMHO比例型のパフォーマンス測定値を報告する正当な理由があります(たとえば、読者/共同編集者がそれらを理解しているが、ブライアースコアなどを理解していない場合)。私はそれを開きたくありませんでした...
cbeleitesは、SX

...質問に最適化の兆候がなかったため、議論の行(これが本当に重要になるところです)。
cbeleitesは2014

「正しく」分類された比率を計算している場合は、判断やアクションを実行するなどの理由でそれを実行している必要があります。この比率は、これらの目的に対して誤解を招く可能性があります。
フランクハレル2014年

1
@FrankHarrell:まあ、私が推測する理由は、それを論文で報告することです。人々は分類の正確さを報告することをやめるべきだと思いますか?
アメーバは、モニカを2014
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.