トレーニングデータセットのクラスのバランスをとるべきなのはいつですか？

29

トレーニングデータの不均衡なクラスが問題につながる可能性があることを学んだオンラインコースがありました。これは、不均衡が多すぎる場合に良い結果が得られるため、分類アルゴリズムが多数決ルールに従うためです。割り当てでは、多数派クラスのアンダーサンプリングによりデータのバランスを取る必要がありました。

ただし、このブログでは、バランスの取れたデータはさらに悪いと誰かが主張しています。

https://matloff.wordpress.com/2015/09/29/unbalanced-data-is-a-problem-no-balanced-data-is-worse/

それでどちらですか？データのバランスを取るべきかどうかクラスの不均衡な割合に順応できる人もいるかもしれないので、使用されるアルゴリズムに依存しますか？その場合、不均衡なデータで信頼できるのはどれですか？

machine-learning classification unbalanced-classes

— ゼルフィア・カルトスタール
ソース

28

直感的な推論はブログ投稿で説明されています：

目標が予測である場合、これは明確なバイアスを引き起こします。さらに悪いことに、サンプルサイズが大きくなると一貫した推定値が得られないという意味で、それは永続的なバイアスになります。

したがって、（人工的に）バランスのとれたデータの問題は、バランスの取れていない場合よりもひどいでしょう。

バランスの取れたデータは分類に適していますが、明らかに出現頻度に関する情報を失うため、精度メトリック自体と生産パフォーマンスに影響を与えます。

英語のアルファベットの手書き文字（26文字）を認識しているとします。すべての文字の外観のバランスをとると、すべての文字が約1/26に分類される可能性があります（正しくまたは正しくない）ため、分類子は元のサンプルの実際の文字の分布を忘れます。そして、それはだ、OK分類器は、高精度ですべての文字を一般化して認識することができるとき。

しかし、精度と最も重要な一般化が「それほど高くない」（定義を与えることはできません-あなたはそれを「最悪のケース」と考えることができます）-誤分類されたポイントは、ほとんどすべての文字に等しく分配されます、何かのようなもの：

"A" was misclassified 10 times
"B" was misclassified 10 times
"C" was misclassified 11 times
"D" was misclassified 10 times
...and so on

バランスをとることとは対照的に（「A」と「C」はテキストに出現する確率がはるかに高いと仮定）

"A" was misclassified 3 times
"B" was misclassified 14 times
"C" was misclassified 3 times
"D" was misclassified 14 times
...and so on

そのため、頻繁なケースでは誤分類が少なくなります。それが良いかどうかはあなたのタスクに依存します。自然なテキスト認識の場合、元のテキストのセマンティクスを保持し、認識タスクを予測（セマンティクスが傾向を表す）に近づけるため、より高い頻度の文字がより実行可能であると主張できます。しかし、ECDSAキーのスクリーンショットのようなもの（よりエントロピー->予測の少ないもの）を認識しようとしている場合-データのバランスを保つことは役に立ちません。したがって、再び、それは依存します。

最も重要な違いは、精度の推定自体に偏りがあることです（バランスのとれたアルファベットの例でわかるように）。そのため、モデルの動作が最もまれなポイントまたは最も頻繁なポイントによってどのように影響を受けるかわかりません。

PS常に最初にPrecision / Recallメトリックを使用して不均衡な分類のパフォーマンスを追跡し、バランスを追加する必要があるかどうかを決定できます。

編集：推定理論に正確にサンプル平均と母平均の差にある追加の混乱があります。たとえば、英字のアルファベット）の実際の分布をほぼ間違いなく）知っているかもしれませんが、サンプル（トレーニングセット）は正しく推定するのに十分な大きさではありません（）。したがって、を補正するために、母集団自体またはより大きなサンプルから既知のパラメーターのいずれかに応じてクラスのバランスを再調整することが推奨される場合があります $p(x_i | \theta)$ $p(x_i | \hat \theta)$ $\hat \theta_i - \theta_i$ （したがって、より良い推定量）。ただし、実際には、「より大きなサンプル」が各ステップで偏ったデータを取得するリスクがあるために同じように配布される保証はありません（たとえば、技術文献からフィクション対ライブラリ全体に対して収集された英語の文字）

この回答は、バランシングの適用基準も明確にする必要があります。

クラスの不均衡の問題は、マイノリティクラスに属するパターンが十分にないために発生します。ポジティブパターンとネガティブパターン自体の比率ではありません。通常、十分なデータがある場合、「クラスの不均衡の問題」は発生しません

結論として、トレーニングセットが十分に大きい場合、人工的なバランス調整はほとんど役に立ちません。同じように大きく分散したサンプルからの統計データの欠如は、（特に予測のために）人為的なバランスを取る必要がないことも示唆しています。そうでなければ、推定量の質は「恐竜に出会う確率」と同等です。

通りで恐竜と出会う確率は？

1/2恐竜に会うか、恐竜に会わない

— dk14
ソース

5

問題の説明に加えて、この答えからの重要なポイントは、まず不均衡を試みてその結果を確認し、必要な場合にのみ均衡を取り、その結果を確認することだと思います。+1

— ゼルフィール・カルトシュタール

言い換えると、トレーニングサブセットにクラスを均等に分散すると、モデルは不可視データの精度を失いますよね？しかし、反対に、トレーニング/テストサブセットのデータセットのエントリをランダムに抽出しようとすると、分類器のパフォーマンスは向上しますか？

— クリストスK.

@ChristosK。多くの人が述べたように、問題を分類として見ると、予測について推論するのは困難です。いずれにせよ、バイアスを削除する場合（「ランダムにサンプル」）-パフォーマンスを改善するには、より大きなサンプルが必要です。これは単に「通常」サンプルがセマンティクスを保持するのに十分な大きさであるため、オーバーバランスは、適切な考慮なしにすべてを「フラット化」するハンマーを傷つけ、正常化するように振る舞うだけです。また、恐竜のメタファーが示唆するように、「バランス」は「偶数」を意味しません-「ランダム」サンプルでいくつかの確率が誤って表現されていることがわかっている場合にのみ適切なバランスをとります。

— dk14

1

@ChristosK。いくつかの説明をありがとう。私が意図したものと同じではありませんが、アプローチは非常に似ています。k-foldの適用性に関する通常の推奨事項は、最初のサンプルが「やや小さい」場合に行うことです。確かではありませんが、折り畳みはとにかく痛くないはずです-それはただより多くの実行を必要とし、予測を気にしないほど、それが聞こえるほどトートロジカルな一般化/パフォーマンスを気にしなくなります:)。しかし、全体として-k-foldは本質的にバイアスが少ないことを意味します。

— dk14

1

@ChristosK。ああ、警告として、スパム/非スパムの比率は、それ自体では非定常のランダム変数である可能性があります。これらすべての「偽のニュース」、「ロシアのトロール」など、私はそのような仮定に注意します-比率も偏っている可能性があります。何かがアンダーサンプリングされている場合、分類器でPrecisionRecallを最初に推定することをお勧めします-もっとデータを収集/生成（？）したいです。

— dk14

17

@ kjetil-b-halvorsenのコメントと一致して、機械学習の急速な採用は、予測と分類について研究者を混乱させました。ここで詳しく説明したように、分類は少数の場合にのみ適切です。結果がまれ（または一般的すぎる）である場合、確率はすべてです。その場合、個々の発生を予測することではなく、傾向についてのみ合理的に話すことができるからです。

統計では、データの一部を除外する必要がある方法は非常に疑わしいことをしばらく前に学びました。したがって、結果のバランスをとるという目標は見当違いです。傾向（確率）の予測には必要ありません。そして、確率を推定したら、ユーティリティ/コスト/損失関数を予測リスクに適用することにより、最適な決定を下すことができます。

— フランク・ハレル
ソース

1

分類から何を達成したいかによって異なりますか？

がんと非がんの場合、がんを検出することが重要です。ただし、がん以外のデータがデータの大部分を占めるため、分類子は本質的にすべての症例をがん以外のクラスに送信し、非常に高い精度を得ることができます。しかし、私たちはそれを買う余裕がないので、私たちは本質的に非がん症例をサンプリングし、本質的に決定境界をがん領域から非がん領域に移動させました。

精度が唯一の目的であるユースケースでも、テスト時間のバランスが列車の時間と異なることが予想される場合、バランスを取ることが不可欠です。

たとえば、マンゴーとオレンジを分類したい場合、900個のマンゴーと30個のオレンジのトレーニングデータセットがありますが、同じマンゴーとオレンジの市場に展開することを期待しているので、理想的には最大の期待されるサンプル比でサンプリングする必要があります正確さ。

— アミトズ・ダンディアナ
ソース

それが私が受けた講義から理解したことです。ただし、このブログ投稿が示唆しているように、いつバランスが悪いのか理解できません。各クラスに十分なデータポイントが残っている場合、なぜバランスが悪いのでしょうか？

— ゼルフィアカルトシュタール

申し訳ありませんが、あなたの類推では、市場の果物の分布はモデルの正確性と何の関係がありますか？オレンジからマンゴーを分離することを学んだかどうか。つまり、同じモデルをオレンジのみまたはマンゴーのみの市場に展開できるはずです。

— フェルナンド

3

しかし、癌の例に関する問題は、それを分類とみなすことであり、リスク推定として扱うべきです。その後、不均衡なクラスの明らかな問題はなくなります。stats.stackexchange.com

— questions / 127042 /を

1

データのバランスが取れている場合、メトリックの精度を確認することをお勧めします。しかし、このような状況では、データのバランスが取れていない場合、異なる反復に対して精度が一貫していません。Precision（PPR）、Recall（sensitivity）など、より多くのメトリックを集中する必要があります。この2つのメトリックは、比較するときにバランスを取る必要があります。また、PrecisionとRecallの調和平均であるF1-Scoreをチェックする必要があります。これはすべての機械学習アルゴリズムに適用可能です

— ラビンダー・マディシェティ
ソース