SVMおよびランダムフォレストの正規化を行うことは不可欠ですか?


回答:


29

質問に対する答えは、使用する予定の類似性/距離関数(SVM)によって異なります。単純な(重み付けされていない)ユークリッド距離の場合、データを正規化しないと、他の機能よりも重要な機能を意図せずに与えていることになります。

たとえば、最初の次元の範囲が0〜10で、2番目の次元の範囲が0〜1の場合、最初の次元の1の差(範囲の10分の1)は、距離の計算で2番目の次元(0および1)。そのため、これを行うことで、最初の次元のわずかな違いを誇張しています。もちろん、カスタムの距離関数を考え出すか、専門家の見積もりによってディメンションに重みを付けることができますが、これにより、データのディメンションに応じて多くの調整可能なパラメーターが得られます。この場合、少なくとも開始できるため、正規化は簡単なパスです(必ずしも理想的ではありませんが)。

最後に、SVMについては、距離関数ではなく類似度関数を考え出し、それをカーネルとしてプラグインすることができます(技術的には、この関数は正定行列を生成する必要があります)。この関数は任意の方法で構築でき、機能の範囲の不均衡を考慮できます。

一方、ランダムフォレストでは、1つの機能が他の機能と絶対値で比較されることはないため、範囲は重要ではありません。各ステージで分割されるのは、1つのフィーチャの範囲のみです。


12

ランダムフォレストは、個々のフィーチャの単調な変換に対して不変です。変換またはフィーチャごとのスケーリングは、ランダムフォレストに対して何も変更しません。ある機能が他の機能よりもはるかに重要であるという先験的な知識がない限り、SVMは機能がほぼ同じ大きさであればおそらくより良くなります。その場合、大きさが大きくてもかまいません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.