6つのカテゴリを区別するために、ランダムフォレストで分類モデルをトレーニングしています。私のトランザクションデータには、約60k +の観測値と35の変数があります。これがおおよそどのように見えるかの例を次に示します。
_________________________________________________
|user_id|acquisition_date|x_var_1|x_var_2| y_vay |
|-------|----------------|-------|-------|--------|
|111 | 2013-04-01 | 12 | US | group1 |
|222 | 2013-04-12 | 6 | PNG | group1 |
|333 | 2013-05-05 | 30 | DE | group2 |
|444 | 2013-05-10 | 78 | US | group3 |
|555 | 2013-06-15 | 15 | BR | group1 |
|666 | 2013-06-15 | 237 | FR | group6 |
モデルが作成されたら、過去数週間の観測値を記録したいと思います。システムに変更が加えられたため、最近の観測値は、私が予測したい現在の観測値の環境により近くなります。したがって、ランダムフォレストが最近の観測をより重視するように、重み変数を作成します。
RのrandomForestパッケージが観測ごとの重みを処理できるかどうかは誰にもわかりますか?
また、重み変数を作成するための適切な方法を教えてください。たとえば、私のデータは2013年のものなので、日付から月の数を重みとして使用できると考えていました。誰でもこの方法に問題がありますか?
事前に感謝します!