データの変動性に似たアプローチやその他のアプローチの増加にもかかわらず、「アルゴリズムとしての」ランダムフォレストは、不均衡なデータ分類の優れたオプションと見なすことができますか?
データの変動性に似たアプローチやその他のアプローチの増加にもかかわらず、「アルゴリズムとしての」ランダムフォレストは、不均衡なデータ分類の優れたオプションと見なすことができますか?
回答:
これは良いオプションではありません。
ランダムフォレストは決定木に基づいて構築されており、決定木はクラスの不均衡に敏感です。各ツリーはバッグ上に構築され、各バッグはデータからの一様なランダムサンプルです(置換あり)。したがって、各ツリーはクラスの不均衡によって(平均して)同じ方向と大きさにバイアスされます。
クラスの不均衡を軽減または緩和するためのいくつかの手法が存在します。その一部は一般的であり、一部はランダムフォレストに固有です。そのトピックは、ここでも他の場所でも広く議論されています。
編集:私はそれが他のどのオプションよりも劇的に悪いとは思わないことを付け加えます、例えばそれについての証拠はありませんが、ロジスティック回帰
不均衡なクラスは、誤分類コストの不均衡もある場合にのみ問題になります。小さな少数派クラスがあり、それらを他の方法よりも多数派クラスとして分類する方が費用がかからない場合、行うべき合理的なことは、少数派クラスの誤分類を許可することです。
したがって、クラスとコストのバランスが悪いと仮定しましょう。これに対処するには複数の方法があります。Max Kuhnの本「Applied Predictive Modeling」は、第16章で概要を説明しています。これらの対策には、不平等なコストを反映する0.5以外のカットオフの使用が含まれます。これは、分類子がラベル確率を出力する限り(ツリーとフォレストがこれを行う)、バイナリ分類で簡単に実行できます。複数のクラスについてはまだ調べていません。マイノリティクラスをオーバーサンプリングして、重みを大きくすることもできます。