小さなn、大きなpの問題におけるツリーベースのアンサンブル法の制限?


10

ランダムフォレストなどのツリーベースのアンサンブルメソッド、およびその後の派生物(条件付きフォレストなど)はすべて、相対的な変数の重要度を特定するために、いわゆる「小さなn、大きなp」の問題で役立つとされています。実際、これは事実であるように見えますが、私の質問は、この能力をどこまでとることができるかということです。たとえば、30の観測値と100の変数を持つことができますか?そのようなアプローチの限界は何ですか?存在する適切な経験則はありますか?シミュレートされたデータセットまたは実際のデータセットのいずれかを使用して、実際の証拠(推測ではない)へのリンクに裏付けられた回答を希望し、受け入れます。後者についてはあまり知りませんでした(ここここ)、それであなたの考え/アドバイス/(トピックに関する)参照提案は大歓迎です!

回答:


3

いくつかのシミュレーション研究が行われるまで、この質問に対する決定的な答えはないと思います。その間、私はGenuer et alのランダムフォレストを見つけました。方法論の洞察は、少なくともさまざまな「低n、高p」のデータセットに対してRFをテストするという観点から、この質問にいくつかの視点を与えるのに役立ちました。これらのデータセットのいくつかには、5000を超える予測子と100を下回る観測値があります。


3

遭遇する失敗モードは、ランダムな特徴が十分にある場合、より大きなデータセット内ではなく、各ツリーに使用されるバギングされたサンプル内のターゲットに関連する特徴が存在することです。複数のテストで見られたのと同様の問題。

これが発生する正確なポイントは、ノイズの量とデータ内の信号の強度に依存するため、これの経験則は開発が困難です。複数のテストで修正されたp値を分割基準として使用し、変数の重要度に基づいて特徴選択ステップを実行したり、実際の特徴をランダムに並べ替えることによって生成された人工コントラスト特徴に対する特徴の重要度の比較を行ったりして、これに対処する方法もあります。分割選択やその他の方法を検証するためのバッグケースのセット。これらは非常に効果的です。

私は、〜1000件のケースと30,000〜1,000,000の機能を持つデータセットに対してランダムフォレスト(上記の方法論的調整の一部を含む)を使用しました。(特徴選択またはエンジニアリングのレベルが異なる人間の遺伝学のデータセット)。それらは確かにそのようなデータの強力な信号(またはバッチ効果)を回復するのに効果的ですが、ランダムな変動が各信号を克服するため、不均一な原因を持つ病気のようなものをうまくまとめることはできません


0

また、データの信号とノイズにも依存します。従属変数がモデル内の変数の組み合わせによってかなりよく説明されている場合は、n / p比を低くすることで解決できると思います。

比率だけでなくまともなモデルを取得するには、nの絶対最小数も必要になると思います。

これを見る1つの方法は、各ツリーが約SQRT(p)変数を使用して構築され、その数が大きく、ポイント数が小さい場合、実際に実際のモデルがなくてもツリーをフィットできることです。したがって、そのような過剰適合ツリーの多くは、誤った変数の重要性を与えます。

通常、変数重要度チャートで、ほぼ同じレベルの重要度を持つ多くのトップ変数が表示される場合、それは私に単なるノイズを与えていると結論付けます。


SQRT(p)はどこから来たのですか?
LauriK、2015年

RandomForestでは、各ツリーは変数のサンプルを使用して構築されます。デフォルトでは(少なくともR randomForestパッケージでは)、その値はSQRT(p)以下の最も近い数値です(pは列数)。
DeepakML、2015年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.