スピアマン相関の次の2つの式の等価性を証明する


14

ウィキペディアから、スピアマンのランク相関は、変数およびをランク変数およびに変換し、ランク変数間のピアソンの相関を計算することにより計算されます。XiYixiyi

ウィキペディア経由でスピアマンを計算する

ただし、この記事では、変数と間に関係がない場合、上記の式はXiYi

スピアマンを計算する2番目の式

ここで、、ランクの差。di=yixi

誰かがこれの証拠をお願いできますか?ウィキペディアの記事で参照されている教科書にアクセスできません。

回答:


14

ρ=i(xix¯)(yiy¯)i(xix¯)2i(yiy¯)2

同順位がないため、xと両方ともからまでの整数で構成されます。1 ny1n

したがって、分母を書き換えることができます。

i(xix¯)(yiy¯)i(xix¯)2

しかし、分母は単なる関数です:n

i(xix¯)2=ixi2nx¯2=n(n+1)(2n+1)6n((n+1)2)2=n(n+1)((2n+1)6(n+1)4)=n(n+1)((8n+46n6)24)=n(n+1)((n1)12)=n(n21)12

次に、分子を見てみましょう。

i(xix¯)(yiy¯)=ixi(yiy¯)ix¯(yiy¯)=ixiyiy¯ixix¯iyi+nx¯y¯=ixiyinx¯y¯=ixiyin(n+12)2=ixiyin(n+1)123(n+1)=n(n+1)12.(3(n+1))+ixiyi=n(n+1)12.[(n1)(4n+2)]+ixiyi=n(n+1)(n1)12n(n+1)(2n+1)/6+ixiyi=n(n+1)(n1)12ixi2+ixiyi=n(n+1)(n1)12i(xi2+yi2)/2+ixiyi=n(n+1)(n1)12i(xi22xiyi+yi2)/2=n(n+1)(n1)12i(xiyi)2/2=n(n21)12di2/2

分子/分母

=n(n+1)(n1)/12di2/2n(n21)/12=n(n21)/12di2/2n(n21)/12=16di2n(n21)

したがって

ρ=16di2n(n21).


5
もしという観察から出発して、この作業の最後の80%を排除することができるそれによって発現する問題を低減、位置及びスケールの変化の下で不変であるの観点場合 ; 式は明らかにです。その後、行われる唯一の実際の作業は、分母の計算によって達成されます。ρxiyi(xiyi)2xi2=yi2=112di2=12(xiyi)2=1xiyi
whuber

@whuber +1、それは良いビットです。しかし、私はそれをより長く、よりすっきりしていない、門の形で残すと思います。
グレン_b-モニカを復元14

おかげで、両方の答えは良いですが、私はこれを自分で試み始めたので、私はこれを受け入れました。
アレックス14年

もっと平凡な道を歩む理由を説明する必要があります。他の答えはきちんとしていて、明るくて賢いですが、優れた生徒以外は自分では生成されない洞察が必要です。インスピレーションを受けていない操作であれば、それを示す利点は、インスピレーションを受けていないが洞察力が中程度の学生でも把握できるということです。時々、洞察に満ちたトリックを必要としないことを知ることは(それらを見ない人にとって)役立ちます。
Glen_b-モニカの復活14

それは、「トリック」、「操作」、「洞察」を構成するものに対するあなたの見解に依存すると思います。あなたが親密であるように、複雑な代数計算の長いバッテリーは、洞察をほとんどまたはまったく提供しません(そして間違いの多くの機会を提供します)-そして、学生は彼らの非常に大きなだけでなく、やる気がないとそれらを見るかもしれないことを恐れています。予備的な標準化(ここでは非常に役立ちます)などのその他の操作は、最初は「トリック」と見なされる場合がありますが、いくつかのアプリケーションは洞察に満ちた基本的なツールと見なされるようになります。
whuber

10

2番目の式では、2つの(ランク付けされた)変数間のユークリッド距離2乗が表示されます:。開始時の決定的な直観は、がどのように関連するかです。これは、コサイン定理を介して明らかに関係しています。2つの変数が中心にある場合、リンクされた定理の式のコサインは等しくなります(簡単に証明できますが、ここでは当然と考えます)。そして(平方ユークリッドノルム)である、平方和の中心変数です。したがって、定理の式は次のようになりますD2=Σdi2D2rrh2Nσ2Dxy2=Nσx2+Nσy22NσxNσyr。また、別の重要なことに注意してください(個別に証明する必要がある場合があります)。データがランクの場合、は中央データと中央データでは同じです。D2

さらに、2つの変数がランク付けされているため、それらの分散は同じであるため、であるため、です。σx=σy=σD2=2Nσ22Nσ2r

r=1D22Nσ2。ランク付けされたデータは、分散を持つ離散均一分布からのものであることを思い出してください。それを式に代入すると、ます。(N21)/12r=16D2N(N21)


8

代数は最初に現れるよりも単純です。

私見では、代数的操作を巧みに行うことによって得られる利益や洞察はほとんどありません。代わりに、真の単純な同一性は、2乗差を使用して(通常のピアソンの)相関係数を表現できる理由を示しています。これをデータがランクである特別な場合に適用すると、結果が生成されます。これまでの謎の係数を示しています

6n(n21)

ランクの分散の逆数の半分として。(関係が存在する場合、この係数は、より複雑な式を取得しますが、まだデータに割り当てられたランクの分散の半分の逆数です。)1,2,,n

これを見て理解すると、式は記憶に残ります。関係を処理する同等の(ただし、より複雑な)数式は、ウィルコクソンのランク和検定などのノンパラメトリック統計検定に表示され、空間統計(モランI、ギアリーCなど)に表示されるとすぐに理解できるようになります。


平均およびと分散およびのペアのデータセットを考えます。平均および変数を再 し、標準偏差およびを測定単位として使用することにより、データは標準化された値で再表現されます(Xi,Yi)X¯Y¯sX2sY2X¯Y¯sXsY

(xi,yi)=(XiX¯sX,YiY¯sY).

定義では、元のデータのピアソン相関係数は標準化された値の平均積であり、

ρ=1ni=1nxiyi.

偏光アイデンティティは四角形に製品を関します。2つの数値およびに対してアサートしますxy

xy=12(x2+y2(xy)2),

簡単に確認できます。これを合計の各用語に適用すると、

ρ=1ni=1n12(xi2+yi2(xiyi)2).

とは標準化されているため、それらの平均平方は両方とも1xiyi

(1)ρ=12(1+11ni=1n(xiyi)2)=112(1ni=1n(xiyi)2).

相関係数は、標準化されたデータの平均二乗差の半分だけ、最大可能値と異なります。1

これは、元のデータが何であるかに関係なく有効な相関の普遍的な公式です(両方の変数の標準偏差がゼロ以外である場合のみ)。(このサイトの忠実な読者は、これを、平均のみを理解している人に共分散をどのように説明しますか?で説明および図解されている共分散の幾何学的特性に密接に関連していると認識します。)


とが異なるランクである特別なケースでは、それぞれが数字の同じシーケンスの順列です。したがって、あり、わずかな計算で、XiYi1,2,,nX¯=Y¯=(n+1)/2

sX2=sY2=1ni=1n(i(n+1)/2)2=n2112

(幸いなことに、は常にゼロ以外です)。だからn>1

(xiyi)2=((Xi(n+1)/2)(Yi(n+1)/2))2(n21)/12=12(XiYi)2n21.

とが同じ平均と標準偏差を持っているため、この素晴らしい単純化が行われました。したがって、それらの平均の差はなくなり、積はを含まないなり。XiYisXsYsX2

式にこれを差し込む用できます(1)ρ

ρ=16n(n21)i=1n(XiYi)2.

2
(+1)あなたの有名な「共分散のための長方形」の答えに関する幾何学的解釈は非常にきちんとしていますが、カジュアルな読者がそれを見るかどうか疑問に思います-おそらくスケッチ図が役立つかもしれません(私は自分で追加したいと思いました!)不思議なことに:式は、The American Statistician、Vol。のJoseph Lee RodgersとW. Alan Nicewanderによる、相関係数を調べる13の方法のリストの9番です。42、No。1(1988年2月)、59-66ページ。stat.berkeley.edu/~rabbee/correlation.pdfr=1sxy2/2
Silverfish

2
@Silver有益なコメントをありがとうございます。ロジャースとNicewander記事は、当社のサイト上で要約されstats.stackexchange.com/a/104577。いつかあなたが説明する図を描くかもしれません…。
whuber

5

高校生は、シグマ記法を操作する代数スキルを得る数年前にPMCCとスピアマンの相関式を見ますが、シーケンスの多項式を推定するための有限差分方法をよく知っているかもしれません。そのため、同値性の「高等学校の証明」を作成しようとしました。有限差分を使用して分母を見つけ、分子内の和の代数的操作を最小化します。証明が提示される生徒によっては、分子よりもこのアプローチを好むかもしれませんが、分母のためのより一般的な方法と組み合わせてください。

分母i(xix¯)2i(yiy¯)2

ない関係で、データは、ランクであるが表示することは容易であるので、いくつかのためにˉ X = N + 1を{1,2,,n}。我々は、和並べ替えることができSXX=Σを N iが= 1XI- ˉ X2=Σ N K = 1K-N+1x¯=n+12ですが、低学年の生徒の場合、シグマ表記ではなく、この合計を明示的に書き出す可能性があります。kの2次方程式の合計はnの3次方程式になります。これは、有限差分法に精通している学生が直感的に理解できることです。3次関数の差分は2次関数を生成します。生徒がΣ記法を快適に操作し、 n k = 1 kおよび n k = 1の式を知っている(そして覚えている)場合、3次fnの係数の決定は簡単です。Sxx=i=1n(xix¯)2=k=1n(kn+12)2knf(n)Σk=1nk。ただし、次のように有限差分を使用して推測することもできます。k=1nk2

場合、データ・セットがあるだけで、{ 1 }ˉ X = 1、そうF 1 = 1 - 1 2 = 0n=1{1}x¯=1f(1)=(11)2=0

以下のために、データは{ 1 2 }ˉ X = 1.5ので、F 2 = 1 - 1.5 2 + 2 - 1.5 2 = 0.5n=2{1,2}x¯=1.5f(2)=(11.5)2+(21.5)2=0.5

以下のために、データは{ 1 2 3 }ˉ X = 2、そうF 3 = 1 - 2 2 + 2 - 2 2 + 3 - 2 2 = 2n=3{1,2,3}x¯=2f(3)=(12)2+(22)2+(32)2=2

これらの計算はかなり簡単であり、ヘルプがどの表記強化手段、および短いために、我々は差分テーブルを生成します。i=1n(xix¯)2

Finite difference table for Sxx

上記のリンクで概説したように、有限差分法を使用して係数を取得できます。たとえば、一定の3番目の差は、多項式が実際に3次であり、係数が0.5であることを示しています。f(n)。骨の折れる作業を最小限に抑えるためのいくつかのトリックがあります。よく知られているのは、f0が定数係数を即座に解放するため、一般的な違いを使用してシーケンスをn=0に戻すことです。別の方法は、整数nに対してfnがゼロかどうかを確認するためにシーケンスを拡張することです。たとえば、シーケンスが正であるが減少している場合、「ルートをキャッチ」できるかどうかを右に拡張する価値があります。後で因数分解を簡単にします。私たちの場合、nが小さい場合、関数は低い値を中心にホバリングしているように見えるので、さらに左に拡張してみましょう。0.53!=112n=0f(0)f(n)nn

Extended finite difference table for Sxx

あぁ!3つのルートすべてを捕らえたことがわかります:。そのため、多項式にはn + 1 n、およびn 1 )の因子があります。立方体であったため、次の形式でなければなりません。f(1)=f(0)=f(1)=0(n+1)n(n1)

f(n)=an(n+1)(n1)

は、すでに1であると決定したn 3の係数でなければならないことがわかります。an3。あるいは、以降F2=0.5我々は231=0.5と同じ結論に達したリード。2つの正方形の差を拡大すると、次のようになります。112f(2)=0.5a(2)(3)(1)=0.5

Sxx=n(n21)12

同じ引数が適用されるため、分母はSyyこれで完了です。私の説明を無視すると、この方法は驚くほど短いです。一つは多項式が立方晶であり、それだけで計算する必要があることを見つけることができればSXXケースについてのn{1234}第三の差を確立するために0.5です。ルートハンターは、3つすべてのルートが見つかった時点で、シーケンスを左にn=0およびn=1に拡張するだけです。Sxを見つけるのに数分かかりましたSxxSyy=Sxx2=SxxSxxn{1,2,3,4}n=0n=1この方法。Sxx

分子、 i(xix¯)(yiy¯)

私は、アイデンティティの点に注意してくださいに再配置することができます。(ba)2b22ab+a2

ab12(a2+b2(ba)2)

私たちは聞かせている場合= X I - ˉ X = X I - N + 1及びB=YI- ˉ Y =YI-N+1a=xix¯=xin+12 ba=yixi=diという有用な結果が得られます。これは、平均値が同一であるため、相殺されるためです。それはそもそもアイデンティティを書くための私の直感でした。瞬間の積を扱うことから、それらの差の二乗に切り替えたかったのです。現在、次のものがあります。b=yiy¯=yin+12ba=yixi=di

(xix¯)(yiy¯)=12((xix¯)2+(yiy¯)2di2)

表記法の操作方法がわからない学生でも、データセットの合計がどのように生成されるかを確認できれば幸いです。Σ

Sxy=12(Sxx+Syyi=1ndi2)

合計を並べ替えることにより、がすでに確立されており、次のようになります。Syy=Sxx

Sxy=Sxx12i=1ndi2

スピアマンの相関係数の式は私たちの理解の範囲内です!

rS=SxySxxSyy=Sxx12idi2Sxx=1idi22Sxx

S x x = 1という以前の結果を代入するはジョブを終了します。Sxx=112n(n21)

rS=1idi2212n(n21)=16idi2n(n21)
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.