ランダムフォレストモデルを使用するときに変数をログ/検証するタイミング


13

複数の属性に基づいて価格を予測するために、ランダムフォレストを使用して回帰を行っています。コードは、Scikit-learnを使用してPythonで記述されています。

exp/ logを使用して変数を変換してから回帰モデルに適合させる必要があるかどうかをどのように決定しますか?ランダムフォレストなどのアンサンブルアプローチを使用する場合、必要ですか?



3
ランダムなフォレスト/アンサンブルの側面のため、これはその質問とは少し異なると思いますが、他の投稿を見た後、質問を言い換えることができます。
ピーターフロム-モニカの復職

@PeterFlomは、質問の言い換えを手伝ってもらえますか?私はこの分野で十分に堪能ではありません:)
ニキシニクス

ほとんどの人が「アンサンブル」RFという用語を使用する方法は、アンサンブルへの1つの潜在的な入力です。
ハックR

回答:


16

ランダムフォレストの構築方法は、独立変数の単調変換に対して不変です。スプリットは完全に類似しています。正確さを目指しているだけであれば、改善は見られません。実際、ランダムフォレストは複雑な非線形(なぜこの線形回帰と呼んでいるのですか?)関係と変数の相互作用を即座に見つけることができるため、独立変数を変換すると、このアルゴリズムが実行できる情報を平滑化できますこれは適切に。

ランダムフォレストはブラックボックスとして扱われず、推論に使用される場合があります。たとえば、それが提供する変数の重要度の測定値を解釈したり、独立変数の従属変数に対するある種の限界効果を計算したりできます。これは通常、部分依存プロットとして視覚化されます。この最後のことは、変数のスケールに大きく影響されると確信しています。これは、ランダムフォレストからより記述的な性質の情報を取得しようとするときに問題になります。この場合、変数を変換(標準化)すると、部分依存プロットを比較できるようになる場合があります。これについて完全には定かではありませんが、それについて考えなければなりません。

少し前に、ランダムフォレストを使用してカウントデータを予測しようとしました。平方根で回帰し、従属変数の自然対数は、モデルを維持するのに十分ではありませんでした。

推論にランダムフォレストを使用できるパッケージ:

https://uc-r.github.io/lime

https://cran.r-project.org/web/packages/randomForestExplainer/index.html

https://pbiecek.github.io/DALEX_docs/2-2-useCaseApartmetns.html


6

@JEquihuaをエコーすると、ランダムフォレストの予測精度は向上しません。

また、元の予測変数と変換された予測変数の両方を保持すると(線形回帰でよく行われます)、問題が発生する可能性があります。これは、RFが変数のサブセットをランダムに選択して各ツリーを成長させ、本質的に変換された変数を2回配置したためです。強力な予測子である場合、それは使用され、ランダムフォレストは以前ほど無相関にならず、分散が大きくなります。


1
変換された予測子と変換されていない予測子の両方を任意のモデルに入れることは、ひどい考えです。それらは完全に共線的であり、ランダムフォレストであろうと線形回帰であろうと、モデルを確実に混乱させます。
mkt-モニカの復活
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.