サンプルサイズが小さいと仮定します(例:N = 100、2つのクラス)。機械学習のトレーニング、相互検証、テストセットのサイズをどのように選択すればよいですか?
直感的に選ぶ
- トレーニングセットのサイズは50
- 相互検証セットサイズ25、および
- サイズを25としてテストします。
しかし、おそらくこれは多かれ少なかれ理にかなっています。これらの値を実際にどのように決定すればよいですか?別のオプションを試してみてもいいですか(あまり好ましくないと思いますが...過剰学習の可能性が高くなります)?
3つ以上のクラスがある場合はどうなりますか?