縦断的ビッグデータをモデル化するには?


13

伝統的に、私たちは混合モデルを使用して、縦断的なデータ、つまり次のようなデータをモデル化します。

id obs age treatment_lvl yield
1  0   11   M  0.2
1  1   11.5 M  0.5
1  2   12   L  0.6
2  0   17   H  1.2
2  1   18   M  0.9

異なる人に対してランダムなインターセプトまたはスロープを想定できます。しかし、私が解決しようとしている質問には、膨大なデータセット(数百万人、1か月の毎日の観測、つまり各人が30の観測を含む)が含まれます。

spark / mahoutにアクセスできますが、混合モデルを提供していません。私のデータは、RandomForestまたはSVMを使用してこのデータセットをモデル化できるようにデータを変更できるのでしょうか。

RF / SVMが自動相関を考慮できるようにするために利用できる機能エンジニアリング手法はありますか?

どうもありがとう!

いくつかの潜在的な方法がありますが、私はそれらをスパークに書き込む時間を費やすことができませんでした

randomForestにランダム効果を含めるにはどうすればよいですか

縦断データを使用したSVM回帰


1
データセットはそれほど大きくありません。30のレコードを持つ100万人の被験者、おそらくレコードあたり20バイトのデータは600MBをもたらします。何でもありません。すべてのstatパッケージがこれを処理します
Aksakal

回答:


4

例のように、いくつかの変数しかない場合は、のいくつかのバリアントに問題はないはずですlme4

機械学習の手法が本当に優れているのは、多くの変数があり、変数間の非線形性と相互作用をモデル化する場合です。縦断的データでこれを実行できるMLアプローチはほとんど開発されていません。RNNは1つのオプションですが、これらは一般にパネルデータではなく時系列の問題に対して最適化されています。

原則として、フィードフォワードニューラルネットワークは(一般化された)線形モデルであり、入力データの非線形関数である回帰変数を持ちます。導出されたリグレッサ(出力の前のモデルの最上層)がノンパラメトリック部分と見なされる場合、おそらくランダム効果の形で、パラメトリック構造を追加することを妨げるものは何もありません。

ただし、これは分類の問題に対しては実装されていません。候補としてSVMに興味があるため、これを行っていると思います。



2

縦断データにランダムフォレスト、NNなどが本当に必要ですか?lme4数百万人の個人を処理できます:

https://cran.r-project.org/web/packages/lme4/vignettes/Theory.pdf

線形混合モデルを簡単に処理でき、リンクからわかるように、非線形混合モデルもサポートしています(ただし、非線形モデルでも非常に高速になるとは思いません)。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.