ランダムフォレストの高度に相関した変数は、精度と特徴選択をゆがめませんか


32

私の理解では、高度に相関する変数は、ランダムフォレストモデルで多重共線性の問題を引き起こしません(間違っている場合は修正してください)。ただし、他の方法で、類似の情報を含む変数が多すぎる場合、他のモデルよりもこのセットのモデルの重みが大きくなりすぎますか?

たとえば、同じ予測力を持つ2つの情報セット(A、B)があります。変数、、...すべて情報Aを含み、Yのみが情報Bを含みます。ランダムサンプリング変数では、ほとんどのツリーが情報Aで成長し、結果として情報Bが完全にキャプチャされませんか?バツ1バツ2バツ1000

回答:


19

それは正しいですが、したがって、変数Yが使用可能なサブサンプリングのほとんどで、可能な限り最適な分割が生成されます。

これをより頻繁に行うために、mtryを増やしてみてください。

再帰的相関プルーニングのいずれかを試すことができます。つまり、一緒に相関が最も高い2つの変数のいずれかを削除します。このプルーニングを停止するための適切なしきい値は、相関のペア(ピアソン)がより低いことです。R2<。7

再帰的な変数の重要度のプルーニングを試すことができます。たとえば、変数の重要度が最も低い20%を削除します。たとえば、randomForestパッケージのrfcvを試してください。

冗長変数の分解/集約を試すことができます。


3
一部の情報源ではmulticollinearity、ランダムフォレストモデルに影響を与えないと見ています。たとえば、ここで、最も支持された答えは、「ランダムフォレストモデルのどの部分も、高度に共線性のある変数によって損なわれることはない」ということです。これには妥当性がありますか?
ハンレ

5
あなたも文字通りNOを読んでいると思います。RFモデルは、相関/冗長変数を非常によく処理します、はい。しかし、それはあなたのモデルが必ずしも関係のない、または完全に冗長な変数(例えば線形再結合)を蓄えることから利益を得るということではなく、クラッシュもしません。クロス検証されたモデルのパフォーマンスの適度な改善を期待するために、適度な変数選択のみを推奨します。
ソレンHavelundウェリング

24

古いスレッドですが、共線性はランダムフォレストモデルの問題ではないという包括的な声明には同意しません。データセットに2つ(またはそれ以上)の相関フィーチャがある場合、モデルの観点から、これらの相関フィーチャのいずれかを予測子として使用できます。

ただし、それらの1つが使用されると、他の人が削除できる不純物は最初の機能によってすでに削除されているため、他の重要度は大幅に低下します。

結果として、それらの重要度は低く報告されます。これは、他の機能によってほとんど重複している機能を削除するのが理にかなっているため、機能選択を使用して過剰適合を減らしたい場合には問題ではありませんが、データを解釈するとき、変数の1つが間違っているという結論につながる可能性があります同じグループの他の人は重要ではありませんが、実際にはそれらは応答変数との関係の点で非常に近いです。

この現象の影響は、各ノードの作成時にランダムに機能が選択されるため、やや減少しますが、一般的には完全に削除されません。

上記のほとんどはここから引用:優れた機能の選択


3
変数の重要性はしばしばメトリックbmcbioinformatics.biomedcentral.com/articles/10.1186 / ...として使用されるため、これはRFを使用した機能選択の記事に なりました。 -適切な外部相互検証ループ内で行われない場合の検証。適切に行われた場合、予測パフォーマンスの最適化がまったくまたはほとんどないことがよくあります。現在、私は主に機能選択を使用して、生産中の予測マシンを単純化したり、最終モデルをより透明にします。
ソレンHavelundウェリング

@SorenHavelundWelling-「機能の選択は、適切な外部相互検証ループ内で行われないと、過剰に楽観的な相互検証をもたらします」と言います。あなたはそれを説明できますか、それを説明する情報源を参照できますか?...私がこれまで読んだすべてのものに対してそれを行く
ジャックつかの間の

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.