機械学習で、入力データの平均をゼロ平均、単位分散に何度も正規化しました。これは常に実行するのに良い方法ですか、それとも適切でない、または有益でない場合がありますか?
機械学習で、入力データの平均をゼロ平均、単位分散に何度も正規化しました。これは常に実行するのに良い方法ですか、それとも適切でない、または有益でない場合がありますか?
回答:
質問への詳細な回答はここにあります。
[...]それが適切ではない、または有益でない時がありますか?
短い答え:はい、いいえ。用語では、クラスタリングアルゴリズムなどの出力を大幅に変更する可能性があります。一方、これらの変更を実現したい場合は、いいえ。または、言及された出典の著者の言葉でそれを置くには:
クラスタリングアルゴリズムのスケーリング機能は、結果を大幅に変更する可能性があります。原点の周りにある4つのクラスターを想像してください。それぞれが異なる象限にあり、すべて適切にスケーリングされています。ここで、y軸がx軸の長さの10倍に引き伸ばされているところを想像してください。4つの小さな象限クラスターの代わりに、長くつぶされたデータのバゲットがその長さに沿って4つに切り刻まれます。(そして、重要な部分は、あなたはこれらのどちらかを好むかもしれません!)
これの持ち帰りメッセージは次のとおりです。達成したいことと、アルゴリズムが好むデータの種類について常に慎重に考えてください-それは重要です!