多くの機械学習アルゴリズムでは、特徴スケーリング(別名変数スケーリング、正規化)が一般的な前処理ステップですWikipedia-特徴スケーリング -この質問は間近でした質問#41704-正規化と特徴スケーリングはどのように、そしてなぜ機能するのですか?
ディシジョンツリーに関して特に2つの質問があります。
- 機能のスケーリングを必要とする決定木の実装はありますか?私は、ほとんどのアルゴリズムの分割基準がスケーリングに無関心であるという印象を受けています。
- 次の変数を検討してください:(1)単位、(2)時間、(3)時間あたりの単位-意思決定ツリーに入力するときにこれらの3つの変数を「そのまま」にしておくか、何らかのタイプの競合に遭遇するのが最善ですか「正規化された」変数(3)は(1)と(2)に関連付けられるため、つまり、3つの変数すべてを組み合わせてこの状況を攻撃しますか、それとも通常は3つの変数の組み合わせを選択するか、単に「正規化/標準化」機能(3)を使用しますか?