テストセットを検証セットとして使用できない理由


8

テストセットを検証セットとして使用しないでください。どうして?

検証セットは、モデルパラメーターが修正されたときに実行され、学習はトレーニングバッチのバックプロップを介してのみ行われます。

では、なぜ検証データを検証データとして使用できないのでしょうか?


8
私のクライアントは、4色の封筒、各色1000枚で広告を郵送しました。オレンジ色のエンベロープのリターンは1000のうち12でしたが、他の3つの色のリターンは1000のうち8から11の間でした。したがって、私のモデルでは、オレンジエンベロープが最良のリターンを得ると予測しています。これを自分のデータに適用することで、これが優れたモデルであることを証明します。確かに、100%正しいです。オレンジの封筒の方が収益は最高でした。これで、マーケティングブックを発行できます。そのアドバイスが統計的に証明されていることがわかります。(これは実際の本の実際の例です。)
whuber

4
あなたはどのように定義することができますが、用語「テストセット」&「検証セット」を使用していますか?(人によって意味が異なります。)また、「トレーニングセット」はありますか?データはどのようにしてこれらの異なるセットになるのですか?等
ガン-モニカの復活

@gung 1000トレーニングデータ、1000テストデータ。私はモデルをトレーニングし、各エポックの後、検証データ=テストデータでモデルを試します。別の方法は、950のトレーニングデータ、50の検証データで、各エポックの後に検証データでモデルを試します。ここの違いは何ですか?
John77、2016

@ john77私の答えは違いが何であるかを説明していると思います-新しいデータでモデルがどのように機能するかを評価するには、モデルの開発に使用されていないデータを使用する必要があります(たとえば、トレーニングを停止するタイミングの決定)
seanv507

回答:


7

トレーニングセットのパフォーマンスがトレーニング済みモデルの実際のパフォーマンスを表していない理由はすでに理解していると思います。つまり、オーバーフィッティングです。トレーニング中に学習したパラメーターは、トレーニングセットに最適化されます。注意しないと、パラメータを最適化しすぎて、トレーニングセットで本当に非常に優れているが、完全には見えない現実世界のデータに一般化されないモデルにつながる可能性があります。

問題は、実際には、トレーニングメソッドの「パラメーター」だけでなく、学習例に指定する必要があることです。ハイパーパラメータもあります。ここで、これらのハイパーパラメーターはモデル学習の明示的な部分(学習率など)である可能性がありますが、他の選択肢を「ハイパーパラメーター」として表示することもできます。SVMまたはニューラルネットワークを選択しますか?早期停止を実装する場合、どの時点で停止しますか?

トレーニングセットのパラメーターの過剰適合と同様に、ハイパーパラメーターを検証セットに過剰適合させることができます。検証セットのメソッドの結果を使用してモデリングの方法を通知するとすぐに、トレーニング+検証セットの組み合わせに過剰適合する可能性があります。おそらく、この特定の検証セットは、SVMの方が一般的なケースよりも優れています。

これが、検証セットとテストセットを分離する主な理由です。モデルのフィッティング中にセットを使用する場合-「うーん、そのメソッドはうまくいかない、たぶん私は試してみる必要があります...」レベル-そのセットで得られる結果は一般的なものを完全に示すものではありません完全に新しいデータで得られる結果。それのは、なぜあなたはまでデータの一部を保持する非常にあなたが何をすべきか上の任意の意思決定をしている点を越え、終わり。


5

私はニューラルネットワークに固執します。一部の人々は検証とテストセットを交換していることに注意してください。

ニューラルネットでは、検証セットでのパフォーマンスが悪化し始めるまでトレーニングします(「トレーニングの停止」)。したがって、重みは検証セットの影響を受けます(バックプロップではなく)。

次に、モデル構築プロセスでまったく使用されていない新しいデータ(テストセット)でネットワークをテストします。この同じアプローチは、ドロップアウトレベル/ L2正則化パラメーターなどのハイパーパラメーターを選択するときにも適用されます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.