私はデータスケーリング、特に標準化手法を研究しています。私はその背後にある数学を理解しましたが、特徴にゼロ平均と単位分散を与えることが重要である理由がはっきりしません。
説明して頂けますか ?
私はデータスケーリング、特に標準化手法を研究しています。私はその背後にある数学を理解しましたが、特徴にゼロ平均と単位分散を与えることが重要である理由がはっきりしません。
説明して頂けますか ?
回答:
それが重要であるかどうか、なぜ重要であるかという問題は、状況によって異なります。
たとえば、勾配ブーストされた決定木では重要ではありません。これらのMLアルゴリズムは、データへの単調変換については「気にしない」です。彼らはそれを分割するポイントを探すだけです。
たとえば、線形予測子の場合、スケーリングによって結果の解釈性を向上させることができます。係数の大きさを、フィーチャが結果にどの程度影響を与えているかを示すものと考えたい場合は、フィーチャを同じ領域にスケーリングする必要があります。
一部の予測子では、特にNN、スケーリング、特に特定の範囲へのスケーリングは、技術的な理由から重要になる場合があります。一部のレイヤーは、特定の領域内でのみ効果的に変化する関数を使用します(関数の双曲線ファミリーと同様)。フィーチャが範囲外にある場合、飽和が発生する可能性があります。これが発生した場合、数値微分はうまく機能せず、アルゴリズムは適切なポイントに収束できない可能性があります。
したがって、すべての機能を同じスケールにして、簡単にトレーニングできるように小さくすることをお勧めします。以下のリンクでも同様の概念について説明しています。 /stats/41704/how-and-why-do-normalization-and-feature-scaling-work