回答:
それは正しいですが、したがって、変数Yが使用可能なサブサンプリングのほとんどで、可能な限り最適な分割が生成されます。
これをより頻繁に行うために、mtryを増やしてみてください。
再帰的相関プルーニングのいずれかを試すことができます。つまり、一緒に相関が最も高い2つの変数のいずれかを削除します。このプルーニングを停止するための適切なしきい値は、相関のペア(ピアソン)がより低いことです。
再帰的な変数の重要度のプルーニングを試すことができます。たとえば、変数の重要度が最も低い20%を削除します。たとえば、randomForestパッケージのrfcvを試してください。
冗長変数の分解/集約を試すことができます。
古いスレッドですが、共線性はランダムフォレストモデルの問題ではないという包括的な声明には同意しません。データセットに2つ(またはそれ以上)の相関フィーチャがある場合、モデルの観点から、これらの相関フィーチャのいずれかを予測子として使用できます。
ただし、それらの1つが使用されると、他の人が削除できる不純物は最初の機能によってすでに削除されているため、他の重要度は大幅に低下します。
結果として、それらの重要度は低く報告されます。これは、他の機能によってほとんど重複している機能を削除するのが理にかなっているため、機能選択を使用して過剰適合を減らしたい場合には問題ではありませんが、データを解釈するとき、変数の1つが間違っているという結論につながる可能性があります同じグループの他の人は重要ではありませんが、実際にはそれらは応答変数との関係の点で非常に近いです。
この現象の影響は、各ノードの作成時にランダムに機能が選択されるため、やや減少しますが、一般的には完全に削除されません。
上記のほとんどはここから引用:優れた機能の選択
multicollinearity
、ランダムフォレストモデルに影響を与えないと見ています。たとえば、ここで、最も支持された答えは、「ランダムフォレストモデルのどの部分も、高度に共線性のある変数によって損なわれることはない」ということです。これには妥当性がありますか?