トレーニングデータは不均衡ですが、検証セットも同じですか？

10000の正の例と50000の負の例で構成されるデータにラベルを付け、合計60000の例を示しています。明らかに、このデータは不均衡です。

ここで、検証セットを作成し、データの10％を使用して作成したいとします。私の質問は次のとおりです：

検証セットが不均衡であることを確認する必要がありますか（トレーニングセットの真の分布への同意として）、または検証セットが均衡していることを確認する必要がありますか？したがって、たとえば、私の検証セットは、

10％の正の例+ 10％の負の例で、1000 +および5000-の例を示します。（この検証セットは、元のデータの不均衡を反映しています）。
または、検証セットは、たとえば10％が正で1000+を与え、（10/5 = 2％）が負で1000-の例も与えられるようにすべきでしょうか？

（テストセットについても同じ質問です）。

不均衡なデータでトレーニングする方法については多くの方法があるようですが、私の検証セットが元の不均衡を反映すべきかどうかについてのベストプラクティスを見つけるための場所はどこにもありません。最後に、相互検証は行っていません。単一の検証セットとニューラルネットワークを使用します。

ありがとう！

— スペイシー
ソース

これについての具体的なリファレンスはありませんが、次の理由があると思います。a）トレーニング/検証の分割に関する論文を公開しており、全体の陽性率が両方のセットで同等になるように常に分割を作成している; b）私はこれがあなたがすべきことを示しているレビュアーコメントを思い出します。

— ガンマー2017年

@gammer申し訳ありませんが、私の投稿でメソッド（1）を選択したということですか？

— スペイシー2017年

はい、最初のもの

— ガンマー2017年

@gammerええ、それは私が最初に考えたものですが、トレーニングセットを信頼しているのであれば、その分布も尊重し、検証セットでそれを複製する必要があるので、私はそれを考えると少し変に見えるようになりますあまりにも...

— スペイシー2017年

多分それは元のデータセットがどのように収集されたかに依存すると思います。ランダムなサンプルですか？その場合、検証セットが母集団をより代表的に表すため、バランスの取れた分割は理にかなっています。遡及的である場合（例：ケースコントロール）、異なる場合があります。よく分かりません。私の経験を伝えました。うまくいけば、あなたは決定的な答えを得ます。あなたがそれを理解したら、答えを投稿してください。

— ガンマー2017年

回答:

検証セットのポイントは、ニューラルネットワークがテストセットで最高のパフォーマンスを発揮する可能性が最も高いエポック/反復を選択することです。その後、検証セット内のクラスの分布がテストセット内のクラスの分布を反映することが望ましいので、検証セット上のパフォーマンスメトリックは、テストセット上のパフォーマンスメトリックの適切な近似になります。つまり、検証セットは元のデータの不均衡を反映している必要があります。

— フランク・ダーノンコート
ソース

私は同じフランクを疑った。さて、これで（検証セットは元の歪んだデータ分布を反映するはずです）、トレーニングセットでデータを歪曲しないことに同意しますか？

— スペイシー2017年

自然に不均衡なトレーニングデータとテストデータを使用して、モデルが時間とともに改善しているように見えるシナリオに遭遇しましたが、実際には、トレーニングセットのマイノリティクラスのサンプルを記憶し、他のすべてのメジャークラスを常に予測することを学習していました。

私はテストデータのバランスをとり、エポックが増えるとテストデータの精度と損失が悪化することを確認することでこの問題を診断しました（テストデータのバランスが崩れている場合とは異なりました）。

このような問題を診断する別の方法は、全体的な精度/損失ではなく、単一のクラスの感度、特異度、または精度などのメトリックを使用することです。このブログ投稿では、これについて詳しく説明し、Kerasでのこれらのメトリックのサンプル実装を示していますhttp://www.deepideas.net/unbalanced-classes-machine-learning/

適切なソリューションは、モデルの実際のアプリケーションと、少数派クラスの正確さがどれほど重要であるかによって異なると思います。たとえば、imagenetのようなものをトレーニングしていて、おそらく「シースラッグ」クラスの精度が低いことに気付いた場合、これはおそらく問題ありません。しかし、誰かががんにかかっているかどうかを予測するモデルをトレーニングしている場合は、少数派クラスの正確さが非常に重要になります。

— 奪う
ソース