ボンフェローニ修正と機械学習


9

心理学の研究では、単一のデータセットでいくつかの仮説をテストする場合、ボンフェローニ法を使用して有意水準を調整する必要があることを学びました。

現在、分類のためにサポートベクターマシンやランダムフォレストなどの機械学習手法を使用しています。ここに、最高の精度をもたらす最良のパラメーター(SVMのカーネルパラメーターなど)を見つけるために交差検証で使用される単一のデータセットがあります。

私の直感は、それが同様の問題であると言っています(そしておそらく完全にオフになっています)。考えられるパラメーターの組み合わせの数が多すぎると、素晴らしい結果が得られる可能性が高くなります。しかし、これは単なる偶然かもしれません。

私の質問を要約すると:

機械学習では、分類器の適切なパラメーターを見つけるために交差検証を使用します。使用するパラメーターの組み合わせが多いほど、偶然に大きな組み合わせを見つける可能性が高くなります(オーバーフィット?)。ボンフェローニ修正の背後にある概念はここにも適用されますか?別の問題ですか?もしそうなら、なぜですか?


3
はい、同じ問題で、「データ浚渫」と呼ばれることもあります。
dsaxton 2016年

5
告白するまでデータを拷問する必要があります
Soren Havelund Welling

回答:


5

あなたがp値補正と話していることは関連している程度がありますが、2つのケースを非常に異なるものにするいくつかの詳細があります。重要なのは、パラメーターの選択において、評価するパラメーターまたは評価するデータに独立性がないことです。説明を簡単にするために、K-Nearest-Neighbors回帰モデルのkを例として取り上げますが、概念は他のモデルにも一般化されます。

サンプルのkのさまざまな値についてモデルの精度を取得すると予測している検証インスタンスVがあるとします。これを行うには、T 1、...、T nとして定義するトレーニングセットでk = 1、...、n最も近い値を見つけます。我々の最初の値は、K = 1つの私達の予測P1 1が等しくなるT 1のため、K = 2、予測P 2があろう(T 1 + T 2)/ 2またはP 1 /2 + T 2 /2 、のためにK = 3は、それがあろう(T 1 + T 2 + T 3)/ 3またはP 2 * 2/3 + T 3 /3 。実際、任意の値kに対して、予測P k = P k-1(k-1)/ k + T k / kを定義できます。予測は相互に独立していないため、予測の精度もそうではありません。実際、予測の値がサンプルの平均に近づいていることがわかります。その結果、ほとんどの場合、k = 1:20のテストでは、k = 1:10,000のテストと同じ値のkが選択されます モデルから得られる最良の適合がデータの平均にすぎない場合を除きます。

これが、複数の仮説のテストについてあまり心配せずに、データのさまざまなパラメーターの束をテストしても問題ない理由です。予測へのパラメーターの影響はランダムではないため、偶然のためだけに予測の精度がよく合う可能性ははるかに低くなります。まだあてはめ過ぎについて心配する必要がありますが、それは複数の仮説検定とは別の問題です。

複数の仮説検定と過剰適合の違いを明確にするために、今回は線形モデルを作成することを想像します。データを繰り返しリサンプリングして線形モデル(以下の複数の線)を作成し、それを評価すると、テストデータ(暗い点)で、偶然にもいずれかの線が適切なモデル(赤い線)になります。これは、実際には優れたモデルであるためではなく、データを十分にサンプリングすると、一部のサブセットが機能するためです。ここで注意すべき重要なことは、テストされたすべてのモデルのため、保留されたテストデータでは精度がよく見えることです。実際、テストデータに基づいて「最適な」モデルを選択しているため、モデルは実際にはトレーニングデータよりもテストデータに適している場合があります。多重仮説検定

一方、過剰適合とは、単一のモデルを構築する場合ですが、モデルを一般化可能な範囲を超えてトレーニングデータに適合させるためにパラメーターを歪めます。以下の例では、モデル(線)はトレーニングデータ(空の円)に完全に適合していますが、テストデータ(塗りつぶされた円)で評価すると、適合ははるかに悪くなります。過適合



これはK-Nearest-Neighborsに固有のものではありません。数学が見やすいので、このモデルを選択しました。すべてのモデルで、範囲パラメーターによって生成される検証エラー(交差検証とは)は互いに独立していない。これは、独立したサンプルの複数のテストでp値を補正しようとするBonferroni補正の考え方が適用されないことを意味します。
バーカー

ハイパーパラメーターの多数の組み合わせで巨大なグリッド検索を実行する場合、わずかにオーバーフィットされたモデルが最もよく出て、いくつかの二乗残差損失関数によって定義されます。これは、偶然に検証セットを説明していて+幸運である。少し正則化されたモデルは、バイアスのために幸運になる可能性は低いです。kNNとは異なり、決定木としてのいくつかのモデルは、ハイパーパラメーターの小さな変更によって非常に異なる適合をもたらす可能性があり、多くの異なるツリーをテストする場合...したがって、実際には過剰適合モデルと複数パラメーターのテストを関連付けることができます。
Soren Havelund Welling 2016

小さなパラメーターの変更に基づいて非常に異なる結果が得られるディシジョンツリーモデルは、通常、モデルが安定しておらず、ランダムシードの別の選択がパラメーター自体と同様に非難される可能性があることを示します。これは、言うまでもなく、安定性の問題だと思います。
Barker、2016年

丁度。特定のデータセットの多くのモデルアルゴリズムでは、一連のパラメーター設定により不安定なモデルが生成されます。これらの不安定なモデルの小さなサブセットは、1つの特定の検証セットで、妥当な正則化モデルよりも優れた予測スコアを得る可能性があります。これが、機械学習における複数のテストの影響も考慮する必要がある理由であり、問​​題の少ないkNNの例の結論に単純に依存することはできません。
Soren Havelund Welling 2016

3

私はある程度までバーカーに同意しますが、モデルの選択はkNNだけではありません。検証とテストセットの両方を備えた相互検証スキームを使用する必要があります。モデル選択には検証セットを使用し、モデルエラーの最終推定にはテストセットを使用します。ネストされたk倍CVまたはトレーニングデータの単純な分割である可能性があります。最高のパフォーマンスのモデルを選択したため、最高のパフォーマンスのモデルの検証セットによって測定されたパフォーマンスはバイアスされます。1つのモデルのみを正直にテストしたため、テストセットの測定されたパフォーマンスは偏っていません。疑わしいときはいつでも、データ処理とモデリング全体を外側の相互検証にラップして、将来の精度のバイアスが最も少ない推定を取得します。

私が知っているように、複数の非線形モデル間の選択に適した信頼できる単純な数学修正はありません。私たちは、将来のモデルの精度がどうなるかをシミュレートするために、ブルートフォースブートストラップに依存する傾向があります。ちなみに、将来の予測誤差を推定する場合、トレーニングセットは母集団からランダムにサンプリングされ、将来のテスト予測は同じ母集団からサンプリングされると想定しています。そうでない場合、よく知っているのは...

たとえば、内側の5倍のCVを使用してモデルを選択し、外側の10倍のCVを10回繰り返してエラーを推定する場合、モデルの精度の推定値が過大であると誤解することはほとんどありません。


2
場合によっては、検証セットはキャリブレーションセットと呼ばれ、テストセットは検証セットと呼ばれることがあります。少し混乱しています...
Soren Havelund Welling
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.