直感的に理解する


8

私はこのフォーラムでこの質問と素晴らしい受け入れられた答えを見ました。次に、が共分散を正規化する理由を直感的に理解しようとするきっかけがありました。SxSy

COV(X,Y)SxSy[1,1]

S_xS_xが\ operatorname {COV}(X、X)1にSxSx正規化する理由を理解できれば役立つと思います。もちろん、私は定義上それらが等しいことを理解しています。しかし、私の質問は基本的にこれです:受け入れられた回答の用語を使用して、なぜプロットの赤の合計は正確にS_xS_x = \ operatorname {VAR}(X)です(より正確には、私が理解している限り、合計を言うことです)n ^ 2によって分割された四角形の\ operatorname {VAR}(X)である必要があります)。つまり、10個の観測値のサンプルを取得する場合、45個の長方形よりも、定義を使用しながら、10個の値のみの平均を見つける必要があります。COV(X,X)1SxSx=VAR(X)n2VAR(X)104510

回答:


8

この投稿では、代数と計算の多くを回避する強力な推論方法を紹介します。この方法に精通している人にとって、作業は非常に自動で自然なため、このような質問に対する最初の回答は「明白」です。しかし、メソッドを確認するまで、それはそれほど明白ではありません。したがって、すべての詳細が段階的に説明されています。

バックグラウンド

データの分散(平均を含む)には、次のようないくつかの公式があります。ˉ X = X 1個の + + X N/ Nx=x1,x2,,xnx¯=(x1++xn)/n

(1)Var(x)=1ni=1n(xix¯)2=1n(i=1nxi2)x¯2.

これは、対になったデータの共分散を判断するを介しを(x1,y1),,(xn,yn)

Cov(x,y)=14(Var(x+y)Var(xy)).

参照された共分散とクレヨンの投稿で暗示されている式は、

(2)C(x,y)=i=1n1j=i+1n(xjxi)(yjyi)=12i,j=1n(xjxi)(yjyi).

その投稿は、が共分散に比例していると主張しています。比例定数はとともに変化する可能性があります(実際に変化します)。したがって、、このアサーションの1つの意味は、c n n x = yCc(n)nx=y

C(x,x)=c(n)Var(x).

分析

これはブルートフォース代数で実証できますが、より良い方法があります。共分散の基本的な特性を活用しましょう。 それらはどのプロパティですか?以下が基本的なことをお勧めします。

  1. 場所に依存しない。 つまり、は任意の数。(式は、データセットます。)a xa x 1a x 2a x na

    Cov(x,y)=Cov(xa,y)
    axax1a,x2a,,xna
  2. 多重線形性。これは、任意の数のを意味します。(式は、データセットます。)λ λ X λ X 1λ X 2... λ X N

    Cov(λx,y)=λCov(x,y)
    λλxλx1,λx2,,λxn
  3. 対称。共分散との共分散であると:y y x Cov xy= Cov yxxyyx

    Cov(x,y)=Cov(y,x).
  4. 順列での不変性。を再インデックス付けしても、共分散は変化しません。形式的には、は任意の順列。(ような式は、に従って並べことを表すため、)CovをXY= CovをX σY σσ S N X σ X I(xi,yi)

    Cov(x,y)=Cov(xσ,yσ)
    σSnxσxiX σ = X σ 1 X σ 2 ... X σ n σxσ=xσ(1),xσ(2),,xσ(n).

これらすべてのプロパティは、式およびの形式を検査することから、と両方に明らかにます。説明が必要になる可能性があるのは、場所に依存しないことだけです。ただし、の値が一定にシフトしても、残差も差も変更されません。C 1 2 x iVarC(1)(2)xi

xix¯=(xia)xa¯

そして

xjxi=(xja)(xia).

したがって、との最初のバージョンが場所に依存しないことは確かに明白です。(1)(2)


解決

ここで、それが推論です。ので、対称及び多重線形であり、それは二次形式完全係数によって決定。Ccij=cji

C(x,y)=i,j=1ncijxiyj.

それは順列不変なので、任意のインデックスに対してと ; また、すべてのインデックスおよびに対してです。したがって、ちょうど2つの数によって決定される、と言うと。最後に、これらの数値の1つは、場所の不変性によって他の2つを決定します。この条件は、 I J I "jの I jの"jの" C I I =cij=ciji,j,i,jijijcii=ciiiiCc11c12

0=C(0,0)=location-invarianceC(1,0)=symmetryC(0,1)=location-invarianceC(1,1)

( " "および " "は、これらの値を持つ定数ベクトルを指します)。だが01n

0=C(1,1)=i,jncij=nc11+(n2n)c12,
それぞれを決定他の観点からとの。c11c12

これはすでに要点を証明しています はに比例している必要がありますは、それぞれが係数のいずれか1つによって決定されるためです。比例定数を見つけるには、2つの式とを調べて、すべての出現を探します。それらから関連する値を読み取ることができます。の2番目のバージョンから、係数は明らかにです。最初のバージョンからと、、の係数明らかであるCCov(1)(2)x12c11(1)x121/n(1/n)2(2)y=xx12n1。(幾何学的に、の散布図の各点は他のと対になり、その座標の2乗が回表示されます。したがって、(x,x)n1n1

c(n)=n11/n(1/n)2=n2,

QED。これはデモンストレーションに必要な唯一の計算でした

Cov(x,y)=1n2C(x,y)=1n2i=1n1j=i+1n(xjxi)(yjyi).
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.