RandomForest、DecisionTrees、NaiveBayes、SVM(kernel = linear and rbf)、KNN、LDA、XGBoostなどの多くのアルゴリズムを使用しています。SVMを除き、それらはすべて非常に高速でした。それは、機能のスケーリングを高速化する必要があることを知ったときです。それから、他のアルゴリズムにも同じことをすべきかと思い始めました。
RandomForest、DecisionTrees、NaiveBayes、SVM(kernel = linear and rbf)、KNN、LDA、XGBoostなどの多くのアルゴリズムを使用しています。SVMを除き、それらはすべて非常に高速でした。それは、機能のスケーリングを高速化する必要があることを知ったときです。それから、他のアルゴリズムにも同じことをすべきかと思い始めました。
回答:
一般に、k-NNやSVMなどのデータサンプル間の距離または類似性(たとえば、スカラー積の形式)を活用するアルゴリズムは、フィーチャ変換に敏感です。
フィッシャーLDAやNaive Bayesなどのグラフィカルモデルベースの分類器、および決定木やツリーベースのアンサンブルメソッド(RF、XGB)はフィーチャのスケーリングに不変ですが、それでもデータを再スケーリング/標準化することをお勧めします。
http://www.dataschool.io/comparing-supervised-learning-algorithms/で見つけたリストは、どの分類器が機能スケーリングを必要とするかを示しています:
フルテーブル:
であなたをk-meansクラスタリングも、あなたの入力を正規化する必要があります。
分類器がYell Bondが言及した距離または類似性を活用するかどうかを検討することに加えて、確率的勾配降下は特徴スケーリングにも敏感です(確率的勾配降下の更新方程式の学習率はすべてのパラメーター{1}で同じであるため):
参照:
log transformation / Box-Cox
し、その後もnormalise the resultant data to get limits between 0 and 1
?そのため、ログ値を正規化します。次に、連続データとカテゴリ(0-1)データのSVMを一緒に計算しますか?あなたが提供できるヘルプを歓迎します。
そして、線形回帰の場合のこの議論は、他の場合に注意すべきことを教えてくれます:不変性があるか、そうでないか?一般に、予測変数間の距離測定に依存する方法は不変性を示さないため、標準化が重要です。別の例はクラスタリングです。