トレーニング、検証、テストのパーセンテージをどのように決定しますか?


10

ラベル付きのデータをトレーニング、検証、テストセットに分割すると、50/25/25から85/5/10までのすべてが聞こえてきました。これは、モデルをどのように使用するか、学習アルゴリズムを過剰に適合させる傾向があるかどうかに依存すると確信しています。決定する方法はありますか、それとも経験則によるものですか?ELSIIでさえ、この件についてはあいまいなようです。


このStackoverflow Q&Aには、トピックについて2つの良い回答があり、それぞれ30を超える賛成票があります。stackoverflow.com/questions/13610074/...
ルークSingham

回答:


13

膨大なサンプル(例)がない限り、リサンプリングなしの分割サンプル検証(相互検証、またはより適切な方法:ブートストラップ)は信頼できません。すべてのモデル選択ステップをプログラムして各ブートストラップループで繰り返すことができると想定すると、通常、ブートストラップを使用した厳密な内部検証が推奨されます。また、ボラティリティ以外に、分割サンプルアプローチの問題の1つは、分割フラクションを選択するのが難しいことです。N>20000


また、10000 <N <1000000の大規模データ(ビッグデータではない)で作業している場合はどうでしょうか。その時点で、分割は妥当なようです。これは、私が遭遇する多くの状況に当てはまりますが、すべてではありません。
Ed Fine

それはかなり合理的かもしれません。
フランクハレル2013

N = 95,000,000(ホールドアウトセット9,500,000)です。実験を10回繰り返す必要がないことを示すリファレンスはどこにありますか?
dranxo 2014

2
2回実行するだけで(2分割)、結果がどれだけ変化するかがわかります。おそらく変化が非常に少ないため、1つの分割のみが必要です。このような大きなサンプルサイズを持つ比率の信頼区間の幅を考えてください。
フランクハレル2014


3

もちろん、(ダブル)リサンプリングの分割比率についても決定する必要があります...

ただし、念頭に置いておくと、通常、リサンプリングはかなり広い範囲の分割比率で機能します。

  • 可能性のある個別の実行の数を減らす場合は、one-one-outを行わないこと
  • 最内側のトレーニングセットに十分なトレーニングケースを残して、traingアルゴリズムが有用なモデルを生成するための適切な機会を持つようにします。
  • 独立したケースが多いほど、これらの考慮事項の重要性は低くなります。

また、10000 <N <1000000の大規模データ(ビッグデータではない)で作業している場合はどうでしょうか。

リサンプリングが必要かどうかわからない場合にできることは、数回リサンプリングすることです。リサンプリングが必要であったかどうかを測定できるのに十分です。

  • 予測の安定性を確認する
  • モデルパラメータの安定性を確認する

これらの結果を使用して、リサンプリングの反復を追加する必要があるかどうか、または問題がないかどうかを判断できます。


2

これには厳格な規則はありません。しかし、実証分析では、トレーニングデータが多いほど、精度が向上することが示されています。ただし、何をする場合でも、トレーニング/検証/テストデータをすべてまとめて、まとめの際に10倍のCVを実行することを忘れないでください。これは、実験中にオーバーフィット/アンダーフィットの問題があることについて非常に良い洞察を与えてくれます。


1

あなたが答えようとしている質問はすべて問題だと思います。複数のアルゴリズム間のパフォーマンスの違いの正確なビューに興味がありますか?次に、かなり大きな検証セットが必要です。N = 10000サンプルに対してアルゴリズムがどれだけうまく機能するかに興味がありますか?次に、列車セットに少なくとも10000個のサンプルを配置する必要があります。

検証セットが大きいほど、結果に関する統計的確実性が高くなりますが、確実性は、少数のサンプルでトレーニングされたアルゴリズムのパフォーマンスに関するものであり、最終的にはそうではない場合があります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.