データ「正規化」とデータ「スケーリング」の違いは何ですか?今まで、両方の用語が同じプロセスを指していると思っていましたが、今では、私が知らない/理解していないものがあることに気付きました。また、正規化とスケーリングに違いがある場合、スケーリングではなく正規化をいつ使用する必要がありますか?
例を挙げて詳しく説明してください。
データ「正規化」とデータ「スケーリング」の違いは何ですか?今まで、両方の用語が同じプロセスを指していると思っていましたが、今では、私が知らない/理解していないものがあることに気付きました。また、正規化とスケーリングに違いがある場合、スケーリングではなく正規化をいつ使用する必要がありますか?
例を挙げて詳しく説明してください。
回答:
私は「公式」の定義を認識していません。たとえ存在していても、実際には一貫して使用されていないので、信頼してはいけません。
とはいえ、統計のスケーリングは通常、の形式の線形変換を意味し ます。
正規化とは、変換されたデータがほぼ正規分布となるように変換を適用することを意味する場合もありますが、単純に異なる変数を共通のスケールに置くことも意味します。標準化、つまり平均値を減算し、標準偏差で割ることは、後の使用例です。ご覧のとおり、これはスケーリングの例でもあります。最初の例は、対数正規分布データのログを取ることです。
しかし、あなたがそれを取り除くべきことは、あなたがそれを読むとき、著者がしたことのより正確な説明を探すべきであるということです。コンテキストから取得できる場合があります。
スケーリングは、0から1、または100の間など、数字を正しく感じることに関する個人的な選択です。たとえば、ミリメートル単位で指定されたデータをメートル単位に変換するのは、より便利であるか、メートル単位であるためです。
正規化は、平均値を削除してサンプルの標準偏差で除算するなど、外部の「標準」(ローカル標準)にスケーリングすることです。たとえば、ソートされたデータを累積法線または累積ポアソンと比較できるようにする、またはなんでも。
そのため、講師または管理者がデータを「正規化」したい場合は、「自分のやり方でそれを再スケーリング」することを意味します;-)
あなたが正確にこれを意味するかどうかはわかりませんが、多くの人がデータの標準化を意味する正規化について言及しています。標準化はデータを変換するため、平均0と標準偏差1になります。
x <- (x - mean(x)) / sd(x)
また、データを0〜1の範囲に変換する場合のように、データスケーリングの正規化という用語を使用している人もいます。
x <- (x - min(x)) / (max(x) - min(x))
わかりにくいかもしれません!
どちらの手法にも長所と短所があります。外れ値が多すぎるデータセットをスケーリングすると、非外れ値データが非常に短い間隔で終わる可能性があります。したがって、データセットの外れ値が多すぎる場合は、標準化を検討することをお勧めします。それでも、それを行うと、負のデータ(必要ない場合もある)と無制限のデータ(必要ない場合もあります)になります。
センタリングとは、変数からランダム変数の平均を具体化することを意味します。すなわちx -xi
スケーリングとは、変数をその標準偏差で除算することです。すなわちxi / s
この2つの組み合わせは、正規化または標準化と呼ばれます。すなわちx-xi / s