SVM以外に、どのアルゴリズムが機能のスケーリングを必要としますか?


17

RandomForest、DecisionTrees、NaiveBayes、SVM(kernel = linear and rbf)、KNN、LDA、XGBoostなどの多くのアルゴリズムを使用しています。SVMを除き、それらはすべて非常に高速でした。それは、機能のスケーリングを高速化する必要があることを知ったときです。それから、他のアルゴリズムにも同じことをすべきかと思い始めました。



回答:


21

一般に、k-NNやSVMなどのデータサンプル間の距離または類似性(たとえば、スカラー積の形式)を活用するアルゴリズムは、フィーチャ変換に敏感です。

フィッシャーLDAやNaive Bayesなどのグラフィカルモデルベースの分類器、および決定木やツリーベースのアンサンブルメソッド(RF、XGB)はフィーチャのスケーリングに不変ですが、それでもデータを再スケーリング/標準化することをお勧めします。


3
+1。XGBoostは、線形ブースティングに基づいて、実際に2番目のアルゴリズムも実装することに注意してください。スケーリングはそこに違いをもたらします。
usεr11852が復活モニック言う

1
RFおよびXGBのデータの再スケーリング/標準化について詳しく説明していただけますか?モデルの品質にどのように影響するかわかりません。
トメックタルチンスキ

17

http://www.dataschool.io/comparing-supervised-learning-algorithms/で見つけたリストは、どの分類器が機能スケーリングを必要とするかを示しています

ここに画像の説明を入力してください

フルテーブル:

ここに画像の説明を入力してください

あなたをk-meansクラスタリングも、あなたの入力を正規化する必要があります

分類器がYell Bondが言及した距離または類似性を活用するかどうかを検討することに加えて、確率的勾配降下は特徴スケーリングにも敏感です(確率的勾配降下の更新方程式の学習率はすべてのパラメーター{1}で同じであるため):

ここに画像の説明を入力してください


参照:


この答えから欠けているのは、その理由の説明です!! そのための私の答えをご覧ください。
kjetil bハルヴォルセン

2
@kjetilbhalvorsenよくk-meansとSGDについて説明しましたが、他にも多くのアルゴリズムとモデルがあります。Stack Exchangeには3万文字の制限があります:)
フランクデルノンクール


@FranckDernoncourtこれに基づいて質問してもいいですか?カテゴリデータと連続データの両方のデータセットがあり、そのためにSVMを構築しています。連続データは大きく歪んでいます(ロングテール)。連続の形質転換のために私が行う必要がありますlog transformation / Box-Coxし、その後normalise the resultant data to get limits between 0 and 1?そのため、ログ値を正規化します。次に、連続データとカテゴリ(0-1)データのSVMを一緒に計算しますか?あなたが提供できるヘルプを歓迎します。
チャック

7

Y=β0+β1バツ+β2z+ϵ
=1n
バツ=バツバツ¯/SDバツz=zz¯/SDz
Y=β0+β1バツ+β2z+ϵ
β12β^12
β0=β0β1バツ¯sd(x)β2z¯sd(z)β1=β1sd(x)β2=β2sd(z)

そして、線形回帰の場合のこの議論は、他の場合に注意すべきことを教えてくれます:不変性があるか、そうでないか?一般に、予測変数間の距離測定に依存する方法は不変性を示さないため、標準化が重要です。別の例はクラスタリングです。


1
適用したスケーリングのこの特定の例で、一方が他方からベータセットを計算する方法を明示的に示すことができますか?
Mathews24

@kjetilこれに基づいて質問することはできますか?カテゴリデータと連続データの両方のデータセットがあり、そのためにSVMを構築しています。連続データは大きく歪んでいます(ロングテール)。連続での変換では、対数変換/ Box-Coxを実行し、結果データを正規化して0〜1の制限を取得する必要がありますか?そのため、ログ値を正規化します。次に、連続データとカテゴリ(0-1)データのSVMを一緒に計算しますか?あなたが提供できるあらゆる援助に乾杯
チャック

1
これを新しい質問として追加してください。ここに戻って参照してください!
kjetil bハルヴォルセン
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.