ランダムフォレストによるカウントデータの予測


12

ランダムフォレストをトレーニングして、カウントデータを適切に予測できますか?これはどのように進みますか?私は非常に広範囲の値を持っているので、分類は実際には意味をなしません。回帰を使用する場合、結果を切り捨てますか?私はここでかなり迷っています。何か案は?


1
ポアソン回帰を使用できませんか?
RJ-

ノンパラメトリックなものを使いたかった。ポアソン回帰の仮定を実際に覚えてはいけませんが、そのうちの1つは、観測が独立しており、ここでは深く満たされていないことです。これは私に大きな影響を与えますか?
-JEquihua

2
RF回帰(おそらくログでも)を試みましたか?十分に機能する可能性があります。

1
してない。しかし、それが私の最初の夢想でした。対数変換または平方根変換。しかし、私は誰かがこれに関する経験を持っているかどうかを見たかった。
-JEquihua

応答、log(response)およびsqrt(response)を単に回帰しようとしましたが、何もうまくいきませんでした。問題は、行われた独立変数が応答を説明する以上のものだと思います。しかたがない。
JEquihua

回答:


8

mobForestカウントデータの実際のランダムフォレストに適合することができるというRパッケージがあります。これはmod()partyパッケージの(モデルベースの再帰的パーティション分割)に基づいています。family引数がとして指定されてpoisson()いる場合、ポアソン回帰を実行します。パッケージはCRANリポジトリに存在しなくなりましたが、以前利用可能なバージョンはアーカイブから取得できます。

ランダムフォレスト/バギングに制限されていない場合は、カウントデータにブースティングバージョンも使用できます。つまり、gbm(一般化されたブースト回帰モデル)。ポアソンモデルに適合させることもできます。


4

いくつかの可能性があります。

  • 応答をいくつかの任意のカテゴリに分類し、分類ツリーを使用できます
  • カウントが通常非常に低い場合、0、0、0、1、0、3、0、2の場合、各整数カウントをクラスとして扱い、分類ツリーを使用できます(おそらくそうではありません)。これらの場合、連続回帰ではなく、高分散の説明型メトリックを取得するのが難しくなります。
  • カウントが一般的に低くなく、多くのバリエーションがある場合は、回帰ツリーを使用してください。たとえば、線形回帰ではなくポアソン回帰を使用することは、優れた線形予測子を取得する場合にのみ重要です。ランダムフォレストで優れた予測力が見られない場合は、カウントデータを具体的に収容する手の込んだモデルが、多くのメリットをもたらすとは思えません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.