複数の個人の多くの測定値がありますが、ランダムフォレストモデルを実行するときに、その繰り返し測定構造をどのように説明するかわかりません。
ランダムフォレストモデルを使用して、縦断的なデータの基になるデータ構造を説明する方法はありますか?
これも必要ですか?-それはあるべきだと私には思われます...
特にでこれを実行できるようにしたいと思いR
ます。
注:質問に対する回答をようやく集めることができるかどうかを確認するために、私はこれを簡潔かつ簡潔に保ちました。誰かがこの質問の詳細や拡張を希望する場合は、コメントするか、反対票を投じてください。繰り返しますが、これは事前の研究がないために短くはありませんが、人々に実際に対応してほしいので...:p
—
theforestecologist
この分析であなたの目標は何ですか?
—
Dimitriy V. Masterov 2016年
私の目標は、予測モデルを作成することです。木の種とプロットの位置を指定すると、モデルは木の直径から木の高さを予測します。各ツリーは何十年にもわたって複数回サンプリングされるため、測定値は個人内でクラスター化されます。
—
森林生態学者2016年
時系列でランダムフォレストを使用するように主張する理由は何ですか?時系列のモデル化と予測のための既存の方法が多数あることは言うまでもなく、時系列の多重代入に関する統計には深い文献があります。RFを使用すると、その履歴は無視されますが、実際には、鈍器で再構築されます。ハンマー(RF)があるからといって、すべてが釘であるとは限りません。
—
マイクハンター
わかりました...多重代入に関する文献は、おそらくリトルアンドルービンの優れた著書、「欠測データを用いた統計分析」から始まります。そこで、彼らはMAR、MCARなどの標準的な概念を開発します。最近では、Paul Allisonの非常に読みやすいSageの本、「データが欠落しているための複数の帰属」が公開されたときまで、文献をよくレビューしています。最近では、時系列予測と欠損値代入のための Sorjanaの方法論が推奨されていますが、私はそれに慣れていません。
—
マイクハンター