分類問題のためにどのタイプのモデル交差検証を選択するのか、Kフォールドかランダムサブサンプリング(ブートストラップサンプリング)か?
私の推測では、トレーニングにはデータセットの2/3(約1000アイテム)を使用し、検証には1/3を使用します。
この場合、Kフォールドは3回の反復(フォールド)しか提供しないため、安定した平均誤差を確認するには不十分です。
一方、ランダムサブサンプリング機能は好きではありません。一部の項目はトレーニング/検証の対象として選択されず、一部は複数回使用されます。
使用される分類アルゴリズム:ランダムフォレストとロジスティック回帰。