ラベル付きのデータをトレーニング、検証、テストセットに分割すると、50/25/25から85/5/10までのすべてが聞こえてきました。これは、モデルをどのように使用するか、学習アルゴリズムを過剰に適合させる傾向があるかどうかに依存すると確信しています。決定する方法はありますか、それとも経験則によるものですか?ELSIIでさえ、この件についてはあいまいなようです。
ラベル付きのデータをトレーニング、検証、テストセットに分割すると、50/25/25から85/5/10までのすべてが聞こえてきました。これは、モデルをどのように使用するか、学習アルゴリズムを過剰に適合させる傾向があるかどうかに依存すると確信しています。決定する方法はありますか、それとも経験則によるものですか?ELSIIでさえ、この件についてはあいまいなようです。
回答:
膨大なサンプル(例)がない限り、リサンプリングなしの分割サンプル検証(相互検証、またはより適切な方法:ブートストラップ)は信頼できません。すべてのモデル選択ステップをプログラムして各ブートストラップループで繰り返すことができると想定すると、通常、ブートストラップを使用した厳密な内部検証が推奨されます。また、ボラティリティ以外に、分割サンプルアプローチの問題の1つは、分割フラクションを選択するのが難しいことです。
アプリケーションによっては、不確実性をスキップして、代わりにブートストラップを使用できます。
ウィキ:http : //en.wikipedia.org/wiki/Bootstrapping_(statistics)
関連する質問はこちら。検証とモデル選択のためのブートストラップについて
もちろん、(ダブル)リサンプリングの分割比率についても決定する必要があります...
ただし、念頭に置いておくと、通常、リサンプリングはかなり広い範囲の分割比率で機能します。
また、10000 <N <1000000の大規模データ(ビッグデータではない)で作業している場合はどうでしょうか。
リサンプリングが必要かどうかわからない場合にできることは、数回リサンプリングすることです。リサンプリングが必要であったかどうかを測定できるのに十分です。
これらの結果を使用して、リサンプリングの反復を追加する必要があるかどうか、または問題がないかどうかを判断できます。