小さいサンプルサイズのデータ​​のトレーニング、交差検証、およびテストセットのサイズを選択するにはどうすればよいですか?


10

サンプルサイズが小さいと仮定します(例:N = 100、2つのクラス)。機械学習のトレーニング、相互検証、テストセットのサイズをどのように選択すればよいですか?

直感的に選ぶ

  • トレーニングセットのサイズは50
  • 相互検証セットサイズ25、および
  • サイズを25としてテストします。

しかし、おそらくこれは多かれ少なかれ理にかなっています。これらの値を実際にどのように決定すればよいですか?別のオプションを試してみてもいいですか(あまり好ましくないと思いますが...過剰学習の可能性が高くなります)?

3つ以上のクラスがある場合はどうなりますか?


2
100は小さすぎます。私は、相互検証とテスト評価の両方について、1つを除外する戦略を選択します。
2014

これに関する文献は見たことがありません(検証のための最小サンプルサイズ)。なぜだかわかりません。重要な問題のようです。
チャールズ

回答:


15

+1は、パラメータの最適化とモデルの複雑さに関するアドバイスのためだけです。しかし、このアドバイスはすべて素晴らしいものです。
チャールズ

1

サンプルサイズが小さい場合、相互検証セクションを省略して、60〜40または70〜30の比率を使用することをお勧めします。

クレメンタインとデータマイニングの概要のセクション2.8 と、MSDNライブラリ-データマイニング-トレーニングとテストセットでわかるように、70〜30の比率が一般的です。Andrew Ngの機械学習の講義によると、60-20-20の比率が推奨されます。

お役に立てば幸いです。宜しくお願いします。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.