直感的な推論はブログ投稿で説明されています:
目標が予測である場合、これは明確なバイアスを引き起こします。さらに悪いことに、サンプルサイズが大きくなると一貫した推定値が得られないという意味で、それは永続的なバイアスになります。
したがって、(人工的に)バランスのとれたデータの問題は、バランスの取れていない場合よりもひどいでしょう。
バランスの取れたデータは分類に適していますが、明らかに出現頻度に関する情報を失うため、精度メトリック自体と生産パフォーマンスに影響を与えます。
英語のアルファベットの手書き文字(26文字)を認識しているとします。すべての文字の外観のバランスをとると、すべての文字が約1/26に分類される可能性があります(正しくまたは正しくない)ため、分類子は元のサンプルの実際の文字の分布を忘れます。そして、それはだ、OK分類器は、高精度ですべての文字を一般化して認識することができるとき。
しかし、精度と最も重要な一般化が「それほど高くない」(定義を与えることはできません-あなたはそれを「最悪のケース」と考えることができます)-誤分類されたポイントは、ほとんどすべての文字に等しく分配されます、 何かのようなもの:
"A" was misclassified 10 times
"B" was misclassified 10 times
"C" was misclassified 11 times
"D" was misclassified 10 times
...and so on
バランスをとることとは対照的に(「A」と「C」はテキストに出現する確率がはるかに高いと仮定)
"A" was misclassified 3 times
"B" was misclassified 14 times
"C" was misclassified 3 times
"D" was misclassified 14 times
...and so on
そのため、頻繁なケースでは誤分類が少なくなります。それが良いかどうかはあなたのタスクに依存します。自然なテキスト認識の場合、元のテキストのセマンティクスを保持し、認識タスクを予測(セマンティクスが傾向を表す)に近づけるため、より高い頻度の文字がより実行可能であると主張できます。しかし、ECDSAキーのスクリーンショットのようなもの(よりエントロピー->予測の少ないもの)を認識しようとしている場合-データのバランスを保つことは役に立ちません。したがって、再び、それは依存します。
最も重要な違いは、精度の推定自体に偏りがあることです(バランスのとれたアルファベットの例でわかるように)。そのため、モデルの動作が最もまれなポイントまたは最も頻繁なポイントによってどのように影響を受けるかわかりません。
PS常に最初にPrecision / Recallメトリックを使用して不均衡な分類のパフォーマンスを追跡し、バランスを追加する必要があるかどうかを決定できます。
編集:推定理論に正確にサンプル平均と母平均の差にある追加の混乱があります。たとえば、英字のアルファベット)の実際の分布をほぼ間違いなく)知っているかもしれませんが、サンプル(トレーニングセット)は正しく推定するのに十分な大きさではありません()。したがって、を補正するために、 母集団自体またはより大きなサンプルから既知のパラメーターのいずれかに応じてクラスのバランスを再調整することが推奨される場合がありますp (x私| θ)p (x私| θ^)θ^私- θ私(したがって、より良い推定量)。ただし、実際には、「より大きなサンプル」が各ステップで偏ったデータを取得するリスクがあるために同じように配布される保証はありません(たとえば、技術文献からフィクション対ライブラリ全体に対して収集された英語の文字)
この回答は、バランシングの適用基準も明確にする必要があります。
クラスの不均衡の問題は、マイノリティクラスに属するパターンが十分にないために発生します。ポジティブパターンとネガティブパターン自体の比率ではありません。通常、十分なデータがある場合、「クラスの不均衡の問題」は発生しません
結論として、トレーニングセットが十分に大きい場合、人工的なバランス調整はほとんど役に立ちません。同じように大きく分散したサンプルからの統計データの欠如は、(特に予測のために)人為的なバランスを取る必要がないことも示唆しています。そうでなければ、推定量の質は「恐竜に出会う確率」と同等です。
通りで恐竜と出会う確率は?
1/2恐竜に会うか、恐竜に会わない