検証セットを大きくすると、サンプル外のパフォーマンスをより正確に推定できます。しかし、お気づきのように、ある時点でその見積もりは必要なだけ正確になり、そのポイントに到達するために必要な検証サンプルサイズについて大まかな予測を行うことができます。
シンプル正しい/間違って分類精度のために、あなたに推定の標準誤差を計算することができ(ベルヌイ変数の標準偏差)、pは正しい分類の確率、nは検証セットのサイズです。もちろん、pはわかりませんが、その範囲についてはある程度知っているかもしれません。たとえば、60〜80%の精度を期待しており、推定値の標準誤差が0.1%未満であるとします
。√p(1−p)/n−−−−−−−−−√pnpn(検証セットのサイズ)は
どれくらいの大きさですか?p=0.6の場合:
n> 0.6 − 0.6 2
p(1−p)/n−−−−−−−−−√<0.001
np=0.6
については
、P=0.8、我々が得る:
N>0.8-0.82n>0.6−0.620.0012=240,000
p=0.8
これを教えてくれるので、あなたは、検証のために、あなたの500万データサンプルの5%未満を使用して逃げることができました。より高いパフォーマンスが期待される場合、または特にサンプル外のパフォーマンス推定値の標準誤差が低いことに満足している場合(たとえば、
p=0.7でse <1%の場合、必要な検証サンプルは2100だけです) 、またはデータの20分の1未満)。
n>0.8−0.820.0012=160,000
p=0.7
これらの計算は、Timが答えで指摘した点も示しています。推定の精度は、トレーニングセットに対するサイズではなく、検証セットの絶対サイズ(つまり)に依存するということです。n
(また、ここで代表的なサンプリングを想定していることを付け加えることができます。データが非常に異なる場合は、検証データにトレインおよびテストデータと同じ条件などがすべて含まれていることを確認するために、より大きな検証セットを使用する必要があるかもしれません。 )