2
交差検証:K分割と反復ランダムサブサンプリング
分類問題のためにどのタイプのモデル交差検証を選択するのか、Kフォールドかランダムサブサンプリング(ブートストラップサンプリング)か? 私の推測では、トレーニングにはデータセットの2/3(約1000アイテム)を使用し、検証には1/3を使用します。 この場合、Kフォールドは3回の反復(フォールド)しか提供しないため、安定した平均誤差を確認するには不十分です。 一方、ランダムサブサンプリング機能は好きではありません。一部の項目はトレーニング/検証の対象として選択されず、一部は複数回使用されます。 使用される分類アルゴリズム:ランダムフォレストとロジスティック回帰。