入力データをゼロ平均に正規化し、単位分散が適切でない、または有益でない場合、どのような状況がありますか?


7

機械学習で、入力データの平均をゼロ平均、単位分散に何度も正規化しました。これは常に実行するのに良い方法ですか、それとも適切でない、または有益でない場合がありますか?

回答:


6

質問への詳細な回答はここにあります

[...]それが適切ではない、または有益でない時がありますか?

短い答え:はい、いいえ。用語では、クラスタリングアルゴリズムなどの出力を大幅に変更する可能性があります。一方、これらの変更を実現したい場合は、いいえ。または、言及された出典の著者の言葉でそれを置くには:

クラスタリングアルゴリズムのスケーリング機能は、結果を大幅に変更する可能性があります。原点の周りにある4つのクラスターを想像してください。それぞれが異なる象限にあり、すべて適切にスケーリングされています。ここで、y軸がx軸の長さの10倍に引き伸ばされているところを想像してください。4つの小さな象限クラスターの代わりに、長くつぶされたデータのバゲットがその長さに沿って4つに切り刻まれます。(そして、重要な部分は、あなたはこれらのどちらかを好むかもしれません!)

これの持ち帰りメッセージは次のとおりです。達成したいことと、アルゴリズムが好むデータの種類について常に慎重に考えてください-それ重要です!


ちなみに、PCAは、正規化せずに操作することを望まないアルゴリズムの1つです。ストーリーの反対側を強調するためだけです。
アンドレ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.