小さいサンプルサイズのデータのトレーニング、交差検証、およびテストセットのサイズを選択するにはどうすればよいですか？

10

サンプルサイズが小さいと仮定します（例：N = 100、2つのクラス）。機械学習のトレーニング、相互検証、テストセットのサイズをどのように選択すればよいですか？

直感的に選ぶ

トレーニングセットのサイズは50
相互検証セットサイズ25、および
サイズを25としてテストします。

しかし、おそらくこれは多かれ少なかれ理にかなっています。これらの値を実際にどのように決定すればよいですか？別のオプションを試してみてもいいですか（あまり好ましくないと思いますが...過剰学習の可能性が高くなります）？

3つ以上のクラスがある場合はどうなりますか？

— EST（東部基準時
ソース

2

100は小さすぎます。私は、相互検証とテスト評価の両方について、1つを除外する戦略を選択します。

— 2014

これに関する文献は見たことがありません（検証のための最小サンプルサイズ）。なぜだかわかりません。重要な問題のようです。

— チャールズ

15

あなたはきっと非常によく似た質問を見つけました：K分割交差検証におけるKの選択？
（ロンコハビの作品へのリンクを含む）
$k$ 一般的に推奨されます。
興味深いことに、これらの非常に小さいサンプルサイズの分類問題では、適切なモデルのトレーニングと比較して、検証が（サンプルサイズのニーズの観点から）多くの場合困難です。これに関する文献が必要な場合は、たとえば、サンプルサイズ計画に関する論文を参照してください：
Beleites、C.およびNeugebauer、U.およびBocklitz、T.およびKrafft、C.およびPopp、J .:分類モデルのサンプルサイズ計画。アナルチムアクタ、2013、760、25-33。
DOI：10.1016 / j.aca.2012.11.007
arXivの採択原稿：1211.1323
もう1つの重要な点は、クロス検証を反復/反復する可能性を活用することです（これはLOOに対する理由の1つです）。これにより、トレーニングの摂動（つまり、いくつかの異なるケース）に対する予測の安定性を測定できます。データ。

文献：
- Beleites、C.＆Salzer、R .:小さなサンプルサイズの状況でのケモメトリックモデルの安定性の評価と改善Anal Bioanal Chem、2008、390、1261-1271。
  DOI：10.1007 / s00216-007-1818-6
- ディクソン、SJ; ハインリッヒ、N。Holmboe、M .; シェーファー、ML; リード、RR; Trevejo、J.とBrereton、RG：3つの一般的なアプローチへの事前確率の組み込みによるグループサイズが等しくない場合の分類方法の適用：シミュレーションとマウス尿中化学信号への適用、Chemom Intell Lab Syst、2009、99、111-120。
  DOI：10.1016 / j.chemolab.2009.07.016
ホールドアウトテストセットで1回の実行を決定した場合（反復/反復なし）、
- 交差検証で実行できるほとんどのミス（楽観的なバイアスにつながる）は、ホールドアウトテストセットでも発生する可能性があることに注意してください。
- 結果として得られるパフォーマンス測定の信頼区間の幅をチェックし、これが結果の意味のある解釈を可能にすることを確認します（サンプルサイズの計画用紙を参照）。

— cbeleitesはSXに不満
ソース

+1は、パラメータの最適化とモデルの複雑さに関するアドバイスのためだけです。しかし、このアドバイスはすべて素晴らしいものです。

— チャールズ

1

サンプルサイズが小さい場合、相互検証セクションを省略して、60〜40または70〜30の比率を使用することをお勧めします。

クレメンタインとデータマイニングの概要のセクション2.8 と、MSDNライブラリ-データマイニング-トレーニングとテストセットでわかるように、70〜30の比率が一般的です。Andrew Ngの機械学習の講義によると、60-20-20の比率が推奨されます。

お役に立てば幸いです。宜しくお願いします。

— mrdatamx
ソース

小さいサンプルサイズのデータ​​のトレーニング、交差検証、およびテストセットのサイズを選択するにはどうすればよいですか？

小さいサンプルサイズのデータのトレーニング、交差検証、およびテストセットのサイズを選択するにはどうすればよいですか？