RandomForestは空間的独立性を無視しますか?


8

世界の国ごとに5つの変数があり、独立変数に対するそれらの影響と相互作用を分析する必要があります。ランダムフォレストは、非線形の関係を扱い、変数の重要性を予測するため、私のスコープには適切です。しかし、空間依存が問題になるのではないかと思います。それが空間データに広く使用されている場合でも、RFアプリケーションで説明されている空間依存性を見たことがありません。

回答:


8

応答または説明変数の空間的自己相関に問題はありません。これは完全にノンパラメトリックな手法です。通常のグリッドからの現場データに基づいて、国全体の構造的多様性変数の補間に使用し、共変数として座標を導入すると、より良い予測が生成されます。これは、ランダムフォレストが分割統治アプローチ(分類および回帰ツリー)に基づいているためです。つまり、フィーチャスペースが互いに素なサブセットに分離され、単純なモデル(デフォルトでは回帰の場合は単純な平均)で適切な予測を生成できます。私の場合、変数として座標を導入することは、国の特定の地理的サブセットが均一に振る舞うことが理にかなっているので、空間的自己相関を利用します。


私は答えに同意する傾向がありますが、これが事実であることを示す経験的研究を知っていますか?RFには、重要度スコアと相関の高い変数(Strobl et alなど)に関する問題があります。
Prophet60091 2014

2
これは、ツリーを成長させるとき、分割ごとに、どの変数を使用するかを決定する必要があるため、非常に理にかなっています。極端な場合、2つの完全に相関する変数がある場合、分割スキームはそれらの1つをランダムに選択するだけです。したがって、ランダムフォレストを再トレーニングすると、これらの相関変数の重要度スコアが非常に不安定になることがわかります。階層内の場所を非常に入れ替える傾向があります。
JEquihua

@JEquihua私はパーティーに非常に遅れていることを知っていますが、共変数として座標をどのように組み込んだかを知りたいと思いますか?私はRでrandomForestパッケージを使用していますが、共変数を含めるためのオプションを認識していませんが、特にクラスター化された空間的自己相関データでは非常に理にかなっています。
クリスティーナ

@クリスティーナこんにちは。私はそれらを追加機能として紹介しました。つまり、電車のテーブルの2つの異なる列としてlatとlonです。これは、列車のデータが地理的な空間をよく表している場合にのみ機能します。私の例では、関心のある領域上の通常のグリッド上に約25,000のポイントがありました。
JEquihua

@JEquihuaご回答ありがとうございます!以前に試してみましたが、モデルが大きく歪んでいる印象がありました。ただし、これは、データに複数の独立した地域(世界中の海洋保護区)が含まれているためと考えられます。場所を含めたいので、これをどのように処理するのが最善か提案がありますか?ありがとうございました!
クリスティーナ2018
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.