交差検証:K分割と反復ランダムサブサンプリング


10

分類問題のためにどのタイプのモデル交差検証を選択するのか、Kフォールドかランダムサブサンプリング(ブートストラップサンプリング)か?

私の推測では、トレーニングにはデータセットの2/3(約1000アイテム)を使用し、検証には1/3を使用します。

この場合、Kフォールドは3回の反復(フォールド)しか提供しないため、安定した平均誤差を確認するには不十分です。

一方、ランダムサブサンプリング機能は好きではありません。一部の項目はトレーニング/検証の対象として選択されず、一部は複数回使用されます。

使用される分類アルゴリズム:ランダムフォレストとロジスティック回帰。


1
前の質問は、この選択は評価されるアルゴリズム(主にその動作)に依存しないのでしょうか。
ルーベンス

1
@ルーベンス、私は質問を更新しました:私はRFとロジスティック回帰に
興味があります

回答:


7

適切な数のサンプルがあり、すべてのデータを使用したい場合は、k分割交差検証が適しています。〜1,500にすることは多くのように思えますが、k分割交差検証に適切かどうかは、データの次元(属性の数と属性値の数)にも依存します。たとえば、各観測に100個の属性がある場合、1,500個の観測は低くなります。

k分割交差検証のもう1つの潜在的な欠点は、単一の極端な外れ値が結果を歪める可能性です。たとえば、分類子に大きなバイアスをかける可能性がある1つの極端な外れ値がある場合、10分割の相互検証では、10のパーティションのうち9が影響を受けます(ランダムフォレストの場合、その問題はないと思います) )。

ランダムサブサンプリング(たとえば、ブートストラップサンプリング)は、アンダーサンプリングされている場合、または各観測をk-1倍に表示したくない上記の状況の場合に適しています。


4

データについて何か知っているので、3分割交差検証を使用したいと言っていると思います(k = 10を使用するとオーバーフィッティングが発生しますか?理由に興味があります)。あなたがこれを知っているかどうかはわかりませんが、知らない場合は、より大きなkを使用できます。

それでも標準のk分割交差検証を使用できないと思われる場合は、アルゴリズムを少し変更できます。データを30分割に分割し、毎回20をトレーニングに使用し、10を評価に使用するとします(次にシフトアップ) 1つは折りたたみ、最初と最後の9つを評価として使用し、残りをトレーニングとして使用します)。これは、すべてのデータを使用できることを意味します。

k分割交差検証を使用するときは、通常、異なるランダム化を使用してプロセスを複数回実行し、十分なデータがあることを確認します。そうしないと、ランダム化によって異なるパフォーマンスが表示されます。そのような場合は、サンプリングをお勧めします。トリックはそれから頻繁にそれをすることです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.