データにゼロ平均を持たせるという考え方


12

多くの場合、すべての要素から平均値を削除することで、データセットのディメンション/機能をゼロ平均にする人がいます。しかし、なぜそうするのか理解できませんでしたか?前処理ステップとしてそれを行うことの効果は何ですか?分類のパフォーマンスが向上しますか?データセットについて何か答えることは役に立ちますか?データを理解するために視覚化を行うときに役立ちますか?


9
このアプローチはセンタリングと呼ばれます。そのアプリケーションの1つは、回帰モデルのインターセプトを「xが平均であるときに予測されるy」に変え、インターセプトをもう少し解釈可能にすることです。
Penguin_Knight 14年

中央に配置された機能/データセットは、条件整っているとも言えます。視覚的な説明については、こちらをご覧ください。入力を正規化する操作により、勾配降下がはるかに簡単になります。
調整

回答:


12

「データをその平均に集中させる」(以下、単に「脱意」とする)が有用な場合:

N104N1004

2)高次モーメントの計算を単純化する:ランダム変数に定数を追加しても、その分散または別のランダム変数との共分散は変わりませんが、平均がゼロでない場合、詳細な計算を書き出す必要がありますが、すべての条件を書き、キャンセルすることを示す必要があります。変数の意味が失われると、多くの無駄な計算が保存されます。

3)平均を中心とするランダム変数は、中央極限定理の主題です。

4)多くの場合、「平均値」からの偏差は、ランダム変数の実際の値ではなく、「平均以上または以下」になる傾向があるかどうかの問題です。平均以下の偏差を負の値として(視覚的および/または計算的に)「変換」すると、平均以上の偏差を正の値として、メッセージをより明確かつ強力にします。

詳細な議論については、以下も参照してください

重回帰を実施する場合、予測変数をいつ中央に配置し、いつ標準化する必要がありますか?

重回帰におけるデータのセンタリング

CVで「中心データ」を検索すると、他の興味深い投稿も見つかります。


@OP:この答えは受け入れられるべきだと思う。
ロットワイラー

4

また、実用的な理由から、たとえばニューラルネットワークをトレーニングする場合は、データを中央に配置することが有利です。

アイデアは、ニューラルネットワークをトレーニングするには、勾配ベースのアプローチを使用して非凸最適化問題を解決する必要があるということです。勾配は、逆伝播により計算されます。現在、これらの勾配は入力に依存しており、データを中央に配置することで勾配のバイアスを排除します。

具体的には、ゼロ以外の平均は大きな固有値に反映されます。これは、勾配が他の方向よりも一方向に大きくなる傾向(バイアス)を意味するため、収束プロセスが遅くなり、最終的に解が悪化します。


1

非常に良いアレコスの言ったことに加えて、ベイジアン統計または正則化を使用する場合、データをゼロにセンタリングすることは非常に重要です。

データをゼロ平均にすることで、共分散行列の多くの非対角項を減らすことができるため、データをより簡単に解釈できるようになり、係数はより直接的に意味を持つようになります。その他の要因。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.