ディシジョンツリーの変数(機能)スケーリングと変数(機能)の正規化(調整)は、どの実装で必要ですか?


10

多くの機械学習アルゴリズムでは、特徴スケーリング(別名変数スケーリング、正規化)が一般的な前処理ステップですWikipedia-特徴スケーリング -この質問は間近でした質問#41704-正規化と特徴スケーリングはどのように、そしてなぜ機能するのですか?

ディシジョンツリーに関して特に2つの質問があります。

  1. 機能のスケーリングを必要とする決定木の実装はありますか?私は、ほとんどのアルゴリズムの分割基準がスケーリングに無関心であるという印象を受けています。
  2. 次の変数を検討してください:(1)単位、(2)時間、(3)時間あたりの単位-意思決定ツリーに入力するときにこれらの3つの変数を「そのまま」にしておくか、何らかのタイプの競合に遭遇するのが最善ですか「正規化された」変数(3)は(1)と(2)に関連付けられるため、つまり、3つの変数すべてを組み合わせてこの状況を攻撃しますか、それとも通常は3つの変数の組み合わせを選択するか、単に「正規化/標準化」機能(3)を使用しますか?

回答:


6

1の場合、一般的に決定木は通常スケーリングを必要としません。ただし、これはデータの視覚化/操作に役立ち、他のデータやSVMなどの他の方法とパフォーマンスを比較する場合に役立つことがあります。

2の場合、これはチューニングの問題です。単位/時間は、変数の相互作用の一種と見なされ、それぞれとは異なる予測力を持つ場合があります。ただし、これは実際のデータに依存します。違いがあるかどうかを確認するために、私は試してみます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.