階層構造を持つ高次元のグループ化されたデータ(50の数値入力変数)でランダムフォレストを使用しています。データは、70の異なるオブジェクトの30の位置で6つの複製を使用して収集され、独立していない12600のデータポイントが得られました。
oobエラーは、トレーニング中に1つのオブジェクトのデータを除外し、トレーニングされたランダムフォレストで除外されたオブジェクトの結果を予測するときに発生するエラーよりもはるかに小さいため、ランダムフォレストはデータに適合しているようです。さらに、私は残差を関連付けました。
ランダムフォレストは独立したデータを期待しているため、過剰適合が発生していると思います。ランダムフォレストにデータの階層構造を伝えることはできますか?または、強力な相互作用構造を持つ高次元のグループ化されたデータを処理できる別の強力なアンサンブルまたは縮小方法はありますか?
私がもっと上手にできる方法についてのヒントはありますか?