ゼロ平均と単位分散


10

私はデータスケーリング、特に標準化手法を研究しています。私はその背後にある数学を理解しましたが、特徴にゼロ平均と単位分散を与えることが重要である理由がはっきりしません。

説明して頂けますか ?


見てください、ここを
メディア

これはすばらしいでしょう。medium.com
Lerner Zhang

回答:


8

それが重要であるかどうか、なぜ重要であるかという問題は、状況によって異なります。

  • たとえば、勾配ブーストされた決定木では重要ではありません。これらのMLアルゴリズムは、データへの単調変換については「気にしない」です。彼らはそれを分割するポイントを探すだけです。

  • たとえば、線形予測子の場合、スケーリングによって結果の解釈性を向上させることができます。係数の大きさを、フィーチャが結果にどの程度影響を与えているかを示すものと考えたい場合は、フィーチャを同じ領域にスケーリングする必要があります。

  • 一部の予測子では、特にNN、スケーリング、特に特定の範囲へのスケーリングは、技術的な理由から重要になる場合があります。一部のレイヤーは、特定の領域内でのみ効果的に変化する関数を使用します(関数の双曲線ファミリーと同様)。フィーチャが範囲外にある場合、飽和が発生する可能性があります。これが発生した場合、数値微分はうまく機能せず、アルゴリズムは適切なポイントに収束できない可能性があります。

ここに画像の説明を入力してください


2

平均がゼロの場合、これは一部の機械学習モデルの表現にバイアス項が含まれていないため、バイアス項の欠如を補うためにアルゴリズムにデータを供給する前にデータを原点の周りに移動する必要があるためです。単位分散の場合、これは、多くの機械学習アルゴリズムが、ある種の距離(たとえば、ユークリッド)を使用して決定または予測するためです。特定のフィーチャの値が広い(つまり、分散が大きい)場合、距離はそのフィーチャの影響を強く受け、他のフィーチャの影響は無視されます。ちなみに、一部の最適化アルゴリズム(勾配降下法を含む)は、データを標準化するとパフォーマンスが向上します。


2
  • 機械学習のデータセットから始めるときはいつでも、多くの場合、すべてのデータ機能が出力に関して同等に重要であり、1つの機能が他の機能よりも優先されるべきではないと想定します。これが、私たちがすべての機能を同じ規模にすることを選択した理由です。
    ただし、特徴が正規化されていない場合でも、学習中にそれに割り当てられた重みが、トレーニング中にデータセットが期待される出力に収束するのに役立つ可能性があることに疑問を投げかける場合があります。これの問題は、トレーニングして結果を生成するのに本当に時間がかかることです。
  • 特定の数0を平均および分散1として選択することは、視覚化しやすく、そのような小さい数を維持することは、より高速なトレーニングに役立ちます。

したがって、すべての機能を同じスケールにして、簡単にトレーニングできるように小さくすることをお勧めします。以下のリンクでも同様の概念について説明しています。 /stats/41704/how-and-why-do-normalization-and-feature-scaling-work

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.