私は機械学習やCART技術などは初めてであり、私の素朴さがあまり明白ではないことを願っています。
ランダムフォレストは、マルチレベル/階層データ構造をどのように処理しますか(たとえば、クロスレベルの相互作用が重要な場合)。
つまり、いくつかの階層レベルでの分析の単位を含むデータセット(たとえば、学生と学校の両方に関するデータを含む、学校内にネストされた学生)。
単なる例として、第1レベルの個人(たとえば、投票行動、人口統計などのデータ)が第2レベル(国レベルのデータ、たとえば人口)の国にネストされたマルチレベルデータセットを考えます。
ID voted age female country population
1 1 19 1 1 53.01
2 1 23 0 1 53.01
3 0 43 1 1 53.01
4 1 27 1 1 53.01
5 0 67 0 1 53.01
6 1 34 1 2 47.54
7 0 54 1 2 47.54
8 0 22 1 2 47.54
9 0 78 0 2 47.54
10 1 52 0 2 47.54
それvoted
が応答/従属変数であり、他が予測変数/独立変数であるとしましょう。例、マージンといくつかのより高いレベルの変数の変数(部分的依存性)の限界効果(これらのタイプでは例えば、population
異なる個々のレベルの変数などのため)、非常に興味深い可能性があります。これに似たケースでglm
は、もちろんより適切ですが、多くの変数、相互作用および/または欠損値、および/または非常に大規模なデータセットなどglm
がある場合、それほど信頼できません。
サブ質問:ランダムフォレストは何らかの方法でこのタイプのデータ構造を明示的に処理できますか?関係なく使用すると、どのようなバイアスが導入されますか?ランダムフォレストが適切でない場合、他にアンサンブルタイプの方法はありますか?
(グループ化されたデータのランダムフォレストの質問はおそらく似ていますが、実際にはこれに答えていません。)