トレーニングセットに約1000個の陽性サンプルと10000個の陰性サンプルがある分類問題があります。したがって、このデータセットは非常に不均衡です。プレーンランダムフォレストは、すべてのテストサンプルを多数派クラスとしてマークしようとしています。
ここでは、サブサンプリングと重み付きランダムフォレストに関するいくつかの良い答えを示します。高度にバイアスされたデータセットを使用してツリーアンサンブルをトレーニングすることの意味は何ですか?
RF以外のどの分類方法が問題を最善の方法で処理できますか?