多くの場合、すべての要素から平均値を削除することで、データセットのディメンション/機能をゼロ平均にする人がいます。しかし、なぜそうするのか理解できませんでしたか?前処理ステップとしてそれを行うことの効果は何ですか?分類のパフォーマンスが向上しますか?データセットについて何か答えることは役に立ちますか?データを理解するために視覚化を行うときに役立ちますか?
多くの場合、すべての要素から平均値を削除することで、データセットのディメンション/機能をゼロ平均にする人がいます。しかし、なぜそうするのか理解できませんでしたか?前処理ステップとしてそれを行うことの効果は何ですか?分類のパフォーマンスが向上しますか?データセットについて何か答えることは役に立ちますか?データを理解するために視覚化を行うときに役立ちますか?
回答:
「データをその平均に集中させる」(以下、単に「脱意」とする)が有用な場合:
2)高次モーメントの計算を単純化する:ランダム変数に定数を追加しても、その分散または別のランダム変数との共分散は変わりませんが、平均がゼロでない場合、詳細な計算を書き出す必要がありますが、すべての条件を書き、キャンセルすることを示す必要があります。変数の意味が失われると、多くの無駄な計算が保存されます。
3)平均を中心とするランダム変数は、中央極限定理の主題です。
4)多くの場合、「平均値」からの偏差は、ランダム変数の実際の値ではなく、「平均以上または以下」になる傾向があるかどうかの問題です。平均以下の偏差を負の値として(視覚的および/または計算的に)「変換」すると、平均以上の偏差を正の値として、メッセージをより明確かつ強力にします。
詳細な議論については、以下も参照してください
重回帰を実施する場合、予測変数をいつ中央に配置し、いつ標準化する必要がありますか?
CVで「中心データ」を検索すると、他の興味深い投稿も見つかります。