伝統的に、私たちは混合モデルを使用して、縦断的なデータ、つまり次のようなデータをモデル化します。
id obs age treatment_lvl yield
1 0 11 M 0.2
1 1 11.5 M 0.5
1 2 12 L 0.6
2 0 17 H 1.2
2 1 18 M 0.9
異なる人に対してランダムなインターセプトまたはスロープを想定できます。しかし、私が解決しようとしている質問には、膨大なデータセット(数百万人、1か月の毎日の観測、つまり各人が30の観測を含む)が含まれます。
spark / mahoutにアクセスできますが、混合モデルを提供していません。私のデータは、RandomForestまたはSVMを使用してこのデータセットをモデル化できるようにデータを変更できるのでしょうか。
RF / SVMが自動相関を考慮できるようにするために利用できる機能エンジニアリング手法はありますか?
どうもありがとう!
いくつかの潜在的な方法がありますが、私はそれらをスパークに書き込む時間を費やすことができませんでした