ランダムフォレストは、不均衡なデータ分類に適したオプションですか?[閉まっている]


9

データの変動性に似たアプローチやその他のアプローチの増加にもかかわらず、「アルゴリズムとしての」ランダムフォレストは、不均衡なデータ分類の優れたオプションと見なすことができますか?


いいえ。(それは広すぎるので、あなたの質問をより具体的にしてください。あなたは自分の状況と、「アルゴリズムとして」というステートメントの意味を明確にする必要があります-何か他のものに対して?)
usεr11852Oct

5
@usεr11852広すぎるとは思いません-答えは1語です。
シャドウトーカー2016年

アルゴリズムとは、SVM、ロジスティック回帰などの他の分類ツールと比較したときの意味です。
mhdella 2016年

質問を編集して、検討しているコンパレータと、選択した方法を使用して想定している状況を示してみませんか?
mdewey 2016年

@ssdecontrol:私はすべて簡潔な答えを求めています。私は一語の答えが非常に啓発的であることはめったにありませんでした。あなた自身の答えはそれを証明するものです(一言ではありません:D)。
usεr11852

回答:


9

これは良いオプションではありません

ランダムフォレストは決定木に基づいて構築されており、決定木はクラスの不均衡に敏感です。各ツリーはバッグ上に構築され、各バッグはデータからの一様なランダムサンプルです(置換あり)。したがって、各ツリーはクラスの不均衡によって(平均して)同じ方向と大きさにバイアスされます。

クラスの不均衡を軽減または緩和するためのいくつかの手法が存在します。その一部は一般的であり、一部はランダムフォレストに固有です。そのトピックは、ここでも他の場所でも広く議論されています。

編集:私はそれが他のどのオプションよりも劇的に悪いとは思わないことを付け加えます、例えばそれについての証拠はありませんが、ロジスティック回帰


ブートストラップサンプルのサイズを増やして、すべてのサンプルで両方のクラスを取得するようにします。
Arpit Sisodia

@ArpitSisodiaでも、サンプルのバランスが崩れます。ツリーを作成する前に、サンプリングウェイトを使用して、各ブートストラップサンプルのまれなクラスをオーバーサンプリングする必要があります。
シャドウトーカー

特にRFはクラスの重み付けを簡単に行うことができるため、このフォレスト化された回答は、ランダムフォレストが優れたオプションであることを誤解しています。「いいえ」と言うときは、反対の提案を提供するという有益なベストプラクティスに従ってください。そうでない場合、「いいえ」と言うのは、役立つよりも有害です。
SwimBikeRun

3

不均衡なクラスは、誤分類コストの不均衡もある場合にのみ問題になります。小さな少数派クラスがあり、それらを他の方法よりも多数派クラスとして分類する方が費用がかからない場合、行うべき合理的なことは、少数派クラスの誤分類を許可することです。

したがって、クラスとコストのバランスが悪いと仮定しましょう。これに対処するには複数の方法があります。Max Kuhnの本「Applied Predictive Modeling」は、第16章で概要を説明しています。これらの対策には、不平等なコストを反映する0.5以外のカットオフの使用が含まれます。これは、分類子がラベル確率を出力する限り(ツリーとフォレストがこれを行う)、バイナリ分類で簡単に実行できます。複数のクラスについてはまだ調べていません。マイノリティクラスをオーバーサンプリングして、重みを大きくすることもできます。


これは正しいとは思いません。誤分類コストは同じですが、モデルが1つのクラスを過大に予測するようにバイアスされている場合でも、結局のところ、バイアスモデルが残っています。
シャドウトーカー2016年

それは問題ではありません。がんの症例は健康な患者よりもはるかに少ないです。それでも、1人がいないと多くの人を予測するよりもはるかに費用がかかるため、がん患者を確実に予測する必要があります。99.9%の健康な人と0.1%の一般的な風邪の症例のデータセットがある場合、最良の分類子はこれらの一般的な風邪の症例を単に無視します。
David Ernst
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.