ランダムフォレストでは、入力変数をスケーリングまたは中央揃えする必要がありますか？

16

入力変数の次元は異なります。一部の変数は10進数ですが、一部の変数は数百です。ランダムフォレストを使用する場合、データを無次元化するために、これらの入力変数を中央に置く（平均を引く）か、スケーリング（標準偏差で除算）することが不可欠ですか？

— YQ.Wang
ソース

29

番号。

ランダムフォレストは、ツリー分割アルゴリズムに基づいています。

そのため、一般的な回帰戦略で得られる係数に類似するものはありません。これは独立変数の単位に依存します。代わりに、パーティションルールのコレクション、基本的にはしきい値を指定した決定を取得しますが、これはスケーリングによって変更されるべきではありません。言い換えると、ツリーにはフィーチャのランクのみが表示されます。

基本的に、データの単調な変換によってフォレストが変更されることはほとんどありません（最も一般的な実装では）。

また、決定木は通常、他のアルゴリズムの収束と精度を損なうことがある数値不安定性に対して堅牢です。

— ファイアバグ
ソース

0

全体的にはFirebugに同意しますが、予測変数の重要度スコアに関心がある場合は、変数を標準化することには価値があります。データを分割する機会が増えるため、RFは非常に可変の連続予測子を優先する傾向があります。ただし、この問題に対処するより良い方法は、このバイアスに対してより堅牢な特定のアプローチ（条件付きフォレストを使用した置換なしのサンプリング）を使用することです。https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-8-25を参照してください

— JWB1987
ソース

1

サイトへようこそ。私たちは質の高い統計情報の永続的なリポジトリを質問と回答の形で構築しようとしています。したがって、linkrotによるリンクのみの回答には注意が必要です。引用が完全に失われた場合、リンクに情報の要約を投稿できますか？

— GUNG -復活モニカ