この投稿では、代数と計算の多くを回避する強力な推論方法を紹介します。この方法に精通している人にとって、作業は非常に自動で自然なため、このような質問に対する最初の回答は「明白」です。しかし、メソッドを確認するまで、それはそれほど明白ではありません。したがって、すべての詳細が段階的に説明されています。
バックグラウンド
データの分散(平均を含む)には、次のようないくつかの公式があります。ˉ X = (X 1個の + ⋯ + X N)/ Nx=x1,x2,…,xnx¯=(x1+⋯+xn)/n
Var(x)=1n∑i=1n(xi−x¯)2=1n(∑i=1nx2i)−x¯2.(1)
これは、対になったデータの共分散を判断するを介しを(x1,y1),…,(xn,yn)
Cov(x,y)=14(Var(x+y)−Var(x−y)).
参照された共分散とクレヨンの投稿で暗示されている式は、
C(x,y)=∑i=1n−1∑j=i+1n(xj−xi)(yj−yi)=12∑i,j=1n(xj−xi)(yj−yi).(2)
その投稿は、が共分散に比例していると主張しています。比例定数はとともに変化する可能性があります(実際に変化します)。したがって、、このアサーションの1つの意味は、c (n )n x = yCc(n)nx=y
C(x,x)=c(n)Var(x).
分析
これはブルートフォース代数で実証できますが、より良い方法があります。共分散の基本的な特性を活用しましょう。 それらはどのプロパティですか?以下が基本的なことをお勧めします。
場所に依存しない。 つまり、は任意の数。(式は、データセットます。)a x − a x 1 − a 、x 2 − a 、… 、x n − a
Cov(x,y)=Cov(x−a,y)
ax−ax1−a,x2−a,…,xn−a
多重線形性。これは、任意の数のを意味します。(式は、データセットます。)λ λ X λ X 1、λ X 2、... 、λ X N
Cov(λx,y)=λCov(x,y)
λλxλx1,λx2,…,λxn
対称。共分散との共分散であると:y y x Cov (x、y)= Cov (y、x)。xyyx
Cov(x,y)=Cov(y,x).
順列での不変性。を再インデックス付けしても、共分散は変化しません。形式的には、は任意の順列。(ような式は、に従って並べことを表すため、)Covを(X、Y)= Covを(X σ、Y σ)σ ∈ S N X σ X I(xi,yi)
Cov(x,y)=Cov(xσ,yσ)
σ∈SnxσxiX σ = X σ (1 )、X σ (2 )、... 、X σ (n )。σxσ=xσ(1),xσ(2),…,xσ(n).
これらすべてのプロパティは、式およびの形式を検査することから、と両方に明らかにます。説明が必要になる可能性があるのは、場所に依存しないことだけです。ただし、の値が一定にシフトしても、残差も差も変更されません。C (1 )(2 )x iVarC(1)(2)xi
xi−x¯=(xi−a)−x−a¯¯¯¯¯¯¯¯¯¯¯¯
そして
xj−xi=(xj−a)−(xi−a).
したがって、との最初のバージョンが場所に依存しないことは確かに明白です。(1)(2)
解決
ここで、それが推論です。ので、対称及び多重線形であり、それは二次形式完全係数によって決定。Ccij=cji
C(x,y)=∑i,j=1ncijxiyj.
それは順列不変なので、任意のインデックスに対してと ; また、すべてのインデックスおよびに対してです。したがって、ちょうど2つの数によって決定される、と言うと。最後に、これらの数値の1つは、場所の不変性によって他の2つを決定します。この条件は、 I 、J 、I "、jの「 I ≠ jの私" ≠ jの" C I I =cij=ci′j′i,j,i′,j′i≠ji′≠j′cii=ci′i′ii′Cc11c12
0=C(0,0)=location-invarianceC(1,0)=symmetryC(0,1)=location-invarianceC(1,1)
( " "および " "は、これらの値を持つ定数ベクトルを指します)。だが01n
0=C(1,1)=∑i,jncij=nc11+(n2−n)c12,
それぞれを決定他の観点からとの。
c11c12
これはすでに要点を証明しています はに比例している必要がありますは、それぞれが係数のいずれか1つによって決定されるためです。比例定数を見つけるには、2つの式とを調べて、すべての出現を探します。それらから関連する値を読み取ることができます。の2番目のバージョンから、係数は明らかにです。最初のバージョンからと、、の係数明らかであるCCov(1)(2)x21c11(1)x211/n−(1/n)2(2)y=xx21n−1。(幾何学的に、の散布図の各点は他のと対になり、その座標の2乗が回表示されます。したがって、(x,x)n−1n−1
c(n)=n−11/n−(1/n)2=n2,
QED。これはデモンストレーションに必要な唯一の計算でした
Cov(x,y)=1n2C(x,y)=1n2∑i=1n−1∑j=i+1n(xj−xi)(yj−yi).