縦断データのあるランダムフォレスト


7

複数の個人の多くの測定値がありますが、ランダムフォレストモデルを実行するときに、その繰り返し測定構造をどのように説明するかわかりません。

ランダムフォレストモデルを使用して、縦断的なデータの基になるデータ構造を説明する方法はありますか?

これも必要ですか?-それはあるべきだと私には思われます...

特にでこれを実行できるようにしたいと思いRます。


注:質問に対する回答をようやく集めることができるかどうかを確認するために、私はこれを簡潔かつ簡潔に保ちました。誰かがこの質問の詳細や拡張を希望する場合は、コメントするか、反対票を投じてください。繰り返しますが、これは事前の研究がないために短くはありませんが、人々に実際に対応してほしいので...:p
theforestecologist

この分析であなたの目標は何ですか?
Dimitriy V. Masterov 2016年

私の目標は、予測モデルを作成することです。木の種とプロットの位置を指定すると、モデルは木の直径から木の高さを予測します。各ツリーは何十年にもわたって複数回サンプリングされるため、測定値は個人内でクラスター化されます。
森林生態学者2016年

2
時系列でランダムフォレストを使用するように主張する理由は何ですか?時系列のモデル化と予測のための既存の方法が多数あることは言うまでもなく、時系列の多重代入に関する統計には深い文献があります。RFを使用すると、その履歴は無視されますが、実際には、鈍器で再構築されます。ハンマー(RF)があるからといって、すべてが釘であるとは限りません。
マイクハンター

1
わかりました...多重代入に関する文献は、おそらくリトルアンドルービンの優れた著書、「欠測データを用いた統計分析」から始まります。そこで、彼らはMAR、MCARなどの標準的な概念を開発します。最近では、Paul Allisonの非常に読みやすいSageの本、「データ欠落しているための複数の帰属」が公開されたときまで、文献をよくレビューしています。最近では、時系列予測と欠損値代入のための Sorjanaの方法論が推奨されていますが、私はそれに慣れていません。
マイクハンター

回答:


3

クラスター化されたデータと縦方向のデータの混合効果を含むことについて説明した以前の投稿があります。

ランダムエフェクトをランダムフォレストに含める方法

Rでの意思決定ツリーの実装に関する優れたリファレンスを以下に示します。http//statistical-research.com/a-brief-tour-of-the-trees-and-forests/

また、これらのスライドを確認することもでき ます。http://www2.ims.nus.edu.sg/Programs/014swclass/files/denis.pdf


1

Rで次のパッケージを試すことができます。

  • REEMtree:ランダムフォレストではありませんが、オブジェクト間の差異が経時的に考慮される単一のツリーモデル(いわゆるランダムまたは混合効果)であり、複数のツリーがアンサンブルされる可能性があります。

  • glmertree:セグメントごとの一定の手段を説明できるアプローチと同様-これは、個々の特定の成長パターンを説明するように適合させることができます(ここを参照)。

または、年齢を変数としてモデルに入れて、少なくとも個々の木の特徴の一部を説明しますか?


1
リンクが死んでしまったかのように答えが役に立たなくなるので、あなたはこれにもう少し肉をつけることができますか?
mdewey 2017年

パッケージに関する論文もあります:REEMtree(springerlink.com/content/ng44781g47736260)とglmertree(econpapers.repec.org/paper/innwpaper/2015-10.htm
nils
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.