モンテカルロの相互検証手順は有効ですか?


7

K分割交差検証は次のステップで構成されると思いました。

  1. データをランダムに分割 K チャンク。
  2. に合う K1 チャンク。
  3. 残りのチャンクを予測します。予測を維持します。
  4. すべての残りについて2〜3を繰り返します。 K1 の組み合わせ K 1つのチャンクを省略したチャンク。
  5. すべての予測を真の値と比較する損失統計を評価します。

今私は(見てきたxbart中でdbartsパッケージは、次の手順):

  1. データをランダムに分割 K チャンク。
  2. に合う K1 チャンク。
  3. 残りのチャンクを予測します。損失統計を評価して保持します。
  4. 1〜3を繰り返す N 回。
  5. 平均 N 他の方法での損失統計またはプール。

手順4と5の違いに注意してください。

最初の手順は標準であり、主要な教科書で推奨されています。2番目の手順は新しいようです。なぜやらないのかすぐにはわかりませんが、分散の観点からは最適ではないようです。2番目の手順に賛成または反対の議論はありますか?

2番目のアプローチは、上記のパッケージに実装されており、これが間違っているのではないかと思います。


2
損失が観測ごとに定義されている場合(特定の観測のeq二乗誤差)、平均損失はどちらの方法でも同じになります。では、どのような状況で損失が観測ごとに定義されるのではなく、一度に観測全体の関数であるのでしょうか。チャンクごとのエラーの中央値?次に、2つのシナリオの違いについて考える必要があります。
リチャードハーディ

1
@RichardHardyわかりません。おそらく、ROC(AUC)統計の下の面積などの比率ベースの推定ですか?確かにエラーの中央値。
tomka

@RichardHardy単純な場合でも、手順1は効率的なもののようです。 N損失推定値の分散を制御するには(ブートストラップのように)大きくする必要があるため、はるかに多くのモデルフィットが必要です。または私はどこかで間違っているのですか?
tomka

最も単純なケースを考えてみてください。損失関数としての2乗損失、2倍、1倍あたり2つの観測: バツ11バツ12バツ21バツ22 および対応する予測エラー ej。どちらの場合でも、どちらの手順を使用してもかまいません。MSE=1212e112+e122+12e212+e222=14e112+e122+e212+e222
リチャードハーディ

@tomka 1)ポイント4と5の違いを正しく理解できますか?2)どの損失統計が許可されていxbartますか?この方法は、副加法であるRMSEには間違いなく正しくありません。
ジム

回答:


5

短い答え:それは間違いでも新しいものでもありません。


この検証スキームについては、「設定の検証」という名前で論じてきました。15年前、論文*を作成するときに説明しましたが、実際には使われていなかったため、実際にはそれを参照することはありませんでした。

ウィキペディアは、反復ランダムサブサンプリング検証またはモンテカルロクロス検証と同じ検証スキームを参照しています

理論的な観点から、この概念は私たちにとって興味深いものでした。

  • これは、通常ホールドアウトと呼ばれる同じ数値の別の解釈です(推定値が使用されるモデルだけが異なります:ホールドアウト推定値は、テストされたモデルの正確なパフォーマンス推定値として使用されます。このセットまたはモンテカルロ検証は、代理モデルとしてのテスト済みモデルと解釈として、データセット全体に基づいて構築されたモデルのパフォーマンス評価と非常に同じ数します-通常、相互検証またはブートストラップ外検証の見積もりで行われます)
  • そしてそれはどこかの間にあります
    • より一般的な相互検証手法(置換によるリサンプリング、全データモデルの推定値としての解釈)、
    • ホールドアウト(上記を参照、同じ計算+数値、通常N回の反復/反復なし、ただし異なる解釈)
    • およびブートストラップ外(N回の反復/繰り返しはブートストラップ外れの典型的なものですが、これがホールドアウトに適用されるのを見たことはありません。[残念ながら]相互検証でめったに行われません)。

* Beleites、C。バウムガートナー、R。ボーマン、C; ソモルジャイ; シュタイナー、G。Salzer、R.&Sowa、MGスパースデータセットを使用した分類誤差の推定における分散の減少、Chemom Intell Lab Syst、79、91-100(2005)。
N = 1の「検証の設定」エラーは図で非表示になっています。6(つまり、そのバイアス+分散は、指定されたデータから再構築できますが、明示的に指定されていません。)


しかし、分散に関しては最適ではないようです。2番目の手順に賛成または反対の議論はありますか?

さて、上記の論文では、ブートストラップ外と繰り返し/反復の合計エラー(bias²+ variance)を見つけました k-交差検証はかなり似ています(oobの分散は多少低くなりますが、バイアスは高くなりますが、このトレードオフのどれがどれくらいの割合で置き換えの有無によるリサンプリングが行われるか、およびどれくらいが原因で行われるかを確認するためのフォローアップは行いませんでした。約1:2の異なる分割比(obbの場合)。
ただし、サンプルサイズが小さい状況での正確さについて話していることに注意してください。分散の不確実性の主な原因は、すべてのリサンプリングスキームで同じです。つまり、テスト用の限られた数の真のサンプルで、OOBでも同じです。 、交差検証またはセット検証。反復/反復により、(サロゲート)モデルの不安定性によって引き起こされる分散を減らすことができますが、サンプルサイズが限られているため、分散の不確実性を減らすことはできません。
したがって、十分な数の反復/反復Nを実行すると仮定すると、これらの検証スキームのパフォーマンスに実際に関連する違いは期待できません。

ただし、1つの検証スキームは、リサンプリングによってシミュレートしようとするシナリオに適している場合があります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.