ランダムフォレストによるカウントデータの予測

ランダムフォレストをトレーニングして、カウントデータを適切に予測できますか？これはどのように進みますか？私は非常に広範囲の値を持っているので、分類は実際には意味をなしません。回帰を使用する場合、結果を切り捨てますか？私はここでかなり迷っています。何か案は？

— イキワ
ソース

ポアソン回帰を使用できませんか？

— RJ-

ノンパラメトリックなものを使いたかった。ポアソン回帰の仮定を実際に覚えてはいけませんが、そのうちの1つは、観測が独立しており、ここでは深く満たされていないことです。これは私に大きな影響を与えますか？

— -JEquihua

RF回帰（おそらくログでも）を試みましたか？十分に機能する可能性があります。

してない。しかし、それが私の最初の夢想でした。対数変換または平方根変換。しかし、私は誰かがこれに関する経験を持っているかどうかを見たかった。

— -JEquihua

応答、log（response）およびsqrt（response）を単に回帰しようとしましたが、何もうまくいきませんでした。問題は、行われた独立変数が応答を説明する以上のものだと思います。しかたがない。

— JEquihua

回答:

mobForestカウントデータの実際のランダムフォレストに適合することができるというRパッケージがあります。これはmod()、partyパッケージの（モデルベースの再帰的パーティション分割）に基づいています。family引数がとして指定されてpoisson()いる場合、ポアソン回帰を実行します。パッケージはCRANリポジトリに存在しなくなりましたが、以前利用可能なバージョンはアーカイブから取得できます。

ランダムフォレスト/バギングに制限されていない場合は、カウントデータにブースティングバージョンも使用できます。つまり、gbm（一般化されたブースト回帰モデル）。ポアソンモデルに適合させることもできます。

— ランデル
ソース

いくつかの可能性があります。

応答をいくつかの任意のカテゴリに分類し、分類ツリーを使用できます
カウントが通常非常に低い場合、0、0、0、1、0、3、0、2の場合、各整数カウントをクラスとして扱い、分類ツリーを使用できます（おそらくそうではありません）。これらの場合、連続回帰ではなく、高分散の説明型メトリックを取得するのが難しくなります。
カウントが一般的に低くなく、多くのバリエーションがある場合は、回帰ツリーを使用してください。たとえば、線形回帰ではなくポアソン回帰を使用することは、優れた線形予測子を取得する場合にのみ重要です。ランダムフォレストで優れた予測力が見られない場合は、カウントデータを具体的に収容する手の込んだモデルが、多くのメリットをもたらすとは思えません。

— ベン・オゴレク
ソース

まあ、ランダムフォレストではありませんが、CatBoostは、ブーストされたツリーでのカウント回帰に使用できるポアソン損失関数をサポートしています。

https://tech.yandex.com/catboost/doc/dg/concepts/loss-functions-docpage/

— ウディ
ソース