センタリングは共分散を減らすことを意味しますか?


11

独立していない確率変数が2つあり、過度の「信号」を失うことなく、それらの間の共分散をできるだけ減らしたいと仮定すると、センタリングは役に立ちますか?センタリングによって相関が大幅な要因で減少するということをどこかで読んだので、共分散についても同じようにする必要があると思います。

回答:


30

場合X及びY、ランダムな変数としているとbは、次いで、定数である CovをX + Y + B ab

Cov(X+a,Y+b)=E[(X+aE[X+a])(Y+bE[Y+b])]=E[(X+aE[X]E[a])(Y+bE[Y]E[b])]=E[(X+aE[X]a)(Y+bE[Y]b)]=E[(XE[X])(YE[Y])]=Cov(X,Y).
センタリングは特別な場合a=E[X]およびb=E[Y]であるため、センタリングは共分散に影響しません。


また、相関はCorr X Y = Cov X Y として定義されているため

Corr(X,Y)=Cov(X,Y)Var(X)Var(Y),
Corr(X+a,Y+b)=Cov(X+a,Y+b)Var(X+a)Var(Y+b)=Cov(X,Y)Var(X)Var(Y),


それは物語の人口バージョンでした。サンプルバージョンは同じです:を使用する場合

Cov^(X,Y)=1ni=1n(Xi1nj=1nXj)(Yi1nj=1nYj)
XY(X1,Y1),,(Xn,Yn)
Cov^(X+a,Y+b)=1ni=1n(Xi+a1nj=1n(Xj+a))(Yi+b1nj=1n(Yj+b))=1ni=1n(Xi+a1nj=1nXjnna)(Yi+b1nj=1nYjnnb)=1ni=1n(Xi1nj=1nXj)(Yi1nj=1nYj)=Cov^(X,Y)
ab


詳細な回答に感謝します。サンプルの共分散の場合、サンプルサイズにも影響がないということですか?つまり、サンプルサイズを減らしてもサンプルの共分散は減少しませんか?
lvdp

3
@lvdpそれはおそらく別の質問になるはずです。
Acccumulation

縮小されたサンプルサイズは、別のサンプルにのみ付属しています。したがって、異なるサンプルは異なる共分散を示す可能性があります。ただし、サンプルの共分散は平均として定義されるため、サンプルサイズは原則としてスケーリングされます。
Nick Cox

5

XYE[(XE[X])(YE[Y])]XE[X]XX共分散をとると、センタリングはべき等演算子です。変数が中央に配置された後、中央揃えプロセスをさらに適用しても、変数は変更されません。数式が変数の中央バージョンをとらない場合、温度と別の変数の間の共分散が摂氏とケルビンのどちらで温度を測定するかによって異なるなど、あらゆる種類の奇妙な影響があります。


3

「どこか」はかなり信頼できないソースになる傾向があります...

共分散/相関は、明示的なセンタリングで定義されます。データを中央に配置しない場合は、共分散/相関を計算していません。(正確には、ピアソン相関)

主な違いは、理論モデルに基づいて(たとえば、期待値は正確に0であると想定される)中心にするか、データ(算術平均)に基づく中心にするかです。算術平均では、他のどの中心よりも小さい共分散が得られることが簡単にわかります。

ただし、共分散が小さいことは、相関が小さいことを意味しません。データX =(1,2)およびY =(2,1)があるとします。算術平均のセンタリングを使用すると、完全に負の相関が得られることが容易にわかります。一方、生成プロセスが平均0を生成することがわかっている場合、データは実際には正の相関です。したがって、この例では、中央揃えですが、理論上の期待値は0です。

これは簡単に発生する可能性があります。セルの番号が-5から+5のセンサーアレイ11x11があるとします。算術平均をとるのではなく、ここでセンサーイベントの相関を探すときにセンサーアレイの「物理」平均を使用することは理にかなっています(セル0〜10を列挙した場合、固定平均として5を使用します)まったく同じ結果が得られるので、インデックス作成の選択は分析から消えます-素晴らしいです)。


@ Anony-Mousseに感謝します。サンプルの共分散はサンプルのサイズに依存しますか?つまり、サンプルサイズが小さいほど、共分散は小さくなります(センタリング前)。
lvdp

1
明らかにサンプルに依存します。平均して-わかりません。小さなサンプルほどばらつきが大きくなるので、極端な値になることが多いと思います。しかし、それは単なる直感です。
QUITあり--Anony-Mousse
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.