不均衡なデータのアップサンプリングまたはダウンサンプリングは実際に効果的ですか？どうして？

不均衡なデータの分類を処理する方法として、データのアップサンプリングまたはダウンサンプリングについてよく耳にします。

これは、（確率的またはスコアベースではなく）バイナリ分類器を使用してブラックボックスとして扱う場合に役立つ可能性があることを理解しているため、「ROC曲線上の位置を微調整する唯一の方法はサンプリングスキーム"（引用符で囲んでいるのは、分類子が本質的にバイナリの場合、実際のROC曲線がないためですが、偽陽性と偽陰性をトレードオフする同じ概念が依然として適用されます）。

しかし、実際に何らかのスコアにアクセスして、後でしきい値を決定して決定を下す場合も、同じ理由が成り立たないようです。この場合、実際のROC分析などのより優れたツールを使用できる場合に、誤検出と誤検出の間の望ましいトレードオフについての見解を表現するための特別な方法ではありませんか？この場合、アップサンプリングまたはダウンサンプリングで各クラスの分類子の「前」を変更することを期待するのは変だと思われます（つまり、そのクラスになる無条件の確率、ベースライン予測）。分類子の「オッズ比」が変化すると予想します（分類子が共変量に基づいてベースライン予測をどの程度調整するか）。

だから私の質問です：バイナリブラックボックスではない分類子がある場合、アップサンプリングまたはダウンサンプリングがしきい値を好みに合わせて調整するよりもはるかに優れた効果を期待する理由はありますか？それができない場合、合理的なパフォーマンスメトリック（たとえば、精度ではない）でのアップまたはダウンサンプリングのかなり大きな影響を示す経験的研究はありますか？

classification roc unbalanced-classes

— ベン・クーン
ソース

これらの結果に基づいて分類を行うために最初にサンプルを収集する場合は、コストの観点からもアンダーサンプリングが必要になる場合があります。

ただし、この場合、推定方法は通常、母集団レベルの確率を返さず、使用されたサンプリングスキームを条件とします。

次に例を示します。

/stats/127476/inference-possibilities-for-matched-case-control-study

— アナリスト
ソース

承知しました。ただし、データ収集中にアンダーサンプリングするのではなく、既存のデータをダウンサンプリングする方が不思議です。

— Ben Kuhn 14