グループ化されたデータのランダムフォレスト


10

階層構造を持つ高次元のグループ化されたデータ(50の数値入力変数)でランダムフォレストを使用しています。データは、70の異なるオブジェクトの30の位置で6つの複製を使用して収集され、独立していない12600のデータポイントが得られました。

oobエラーは、トレーニング中に1つのオブジェクトのデータを除外し、トレーニングされたランダムフォレストで除外されたオブジェクトの結果を予測するときに発生するエラーよりもはるかに小さいため、ランダムフォレストはデータに適合しているようです。さらに、私は残差を関連付けました。

ランダムフォレストは独立したデータを期待しているため、過剰適合が発生していると思います。ランダムフォレストにデータの階層構造を伝えることはできますか?または、強力な相互作用構造を持つ高次元のグループ化されたデータを処理できる別の強力なアンサンブルまたは縮小方法はありますか?

私がもっと上手にできる方法についてのヒントはありますか?


階層データの性質は何ですか?データの葉をデータポイントとして使用できますか?
casperOne 2011

1
個人ではなく、階層の最高レベルのブートストラップを検討しましたか?
generic_user 2017年

回答:


1

パーティーにもとても遅れましたが、それは数年前にやったことと関係しているのではないかと思います。その作品はここに公開されました:

http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0093379

そして、決定木のアンサンブルへの変数相関の扱いについてです。この種の問題に対処するための多くの提案(「遺伝的」領域で一般的です)を示している参考文献を見てください。

ソースコードはここから入手できます(しかし、もはやメンテナンスされていません)。


-1

ランダムフォレストの過剰適合はさまざまな理由で発生する可能性があり、RFパラメータに大きく依存します。RFをどのように調整したかは投稿からは明らかではありません。

ここに役立つかもしれないいくつかのヒントがあります:

  1. 木の数を増やす

  2. 木の最大深度を調整します。このパラメーターは、当面の問題に大きく依存します。小さい木を使用すると、問題の過剰適合に役立ちます。


2
パーティーには非常に遅れますが、この回答はデータセットの階層的な性質による問題を解決しません。
cbeleitesはSXに不満2014
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.