10000の正の例と50000の負の例で構成されるデータにラベルを付け、合計60000の例を示しています。明らかに、このデータは不均衡です。
ここで、検証セットを作成し、データの10%を使用して作成したいとします。私の質問は次のとおりです:
検証セットが不均衡であることを確認する必要がありますか(トレーニングセットの真の分布への同意として)、または検証セットが均衡していることを確認する必要がありますか?したがって、たとえば、私の検証セットは、
- 10%の正の例+ 10%の負の例で、1000 +および5000-の例を示します。(この検証セットは、元のデータの不均衡を反映しています)。
- または、検証セットは、たとえば10%が正で1000+を与え、(10/5 = 2%)が負で1000-の例も与えられるようにすべきでしょうか?
(テストセットについても同じ質問です)。
不均衡なデータでトレーニングする方法については多くの方法があるようですが、私の検証セットが元の不均衡を反映すべきかどうかについてのベストプラクティスを見つけるための場所はどこにもありません。最後に、相互検証は行っていません。単一の検証セットとニューラルネットワークを使用します。
ありがとう!