回答:
同順位がないため、と両方ともからまでの整数で構成されます。1 n
したがって、分母を書き換えることができます。
しかし、分母は単なる関数です:
次に、分子を見てみましょう。
分子/分母
。
したがって
2番目の式では、2つの(ランク付けされた)変数間のユークリッド距離の2乗が表示されます:。開始時の決定的な直観は、がどのように関連するかです。これは、コサイン定理を介して明らかに関係しています。2つの変数が中心にある場合、リンクされた定理の式のコサインは等しくなります(簡単に証明できますが、ここでは当然と考えます)。そして(平方ユークリッドノルム)である、平方和の中心変数です。したがって、定理の式は次のようになります。また、別の重要なことに注意してください(個別に証明する必要がある場合があります)。データがランクの場合、は中央データと中央データでは同じです。
さらに、2つの変数がランク付けされているため、それらの分散は同じであるため、であるため、です。
。ランク付けされたデータは、分散を持つ離散均一分布からのものであることを思い出してください。それを式に代入すると、ます。
代数は最初に現れるよりも単純です。
私見では、代数的操作を巧みに行うことによって得られる利益や洞察はほとんどありません。代わりに、真の単純な同一性は、2乗差を使用して(通常のピアソンの)相関係数を表現できる理由を示しています。これをデータがランクである特別な場合に適用すると、結果が生成されます。これまでの謎の係数を示しています
ランクの分散の逆数の半分として。(関係が存在する場合、この係数は、より複雑な式を取得しますが、まだデータに割り当てられたランクの分散の半分の逆数です。)
これを見て理解すると、式は記憶に残ります。関係を処理する同等の(ただし、より複雑な)数式は、ウィルコクソンのランク和検定などのノンパラメトリック統計検定に表示され、空間統計(モランI、ギアリーCなど)に表示されるとすぐに理解できるようになります。
平均およびと分散およびのペアのデータセットを考えます。平均および変数を再 し、標準偏差およびを測定単位として使用することにより、データは標準化された値で再表現されます
定義では、元のデータのピアソン相関係数は標準化された値の平均積であり、
偏光アイデンティティは四角形に製品を関します。2つの数値およびに対してアサートします
簡単に確認できます。これを合計の各用語に適用すると、
とは標準化されているため、それらの平均平方は両方とも1
相関係数は、標準化されたデータの平均二乗差の半分だけ、最大可能値と異なります。
これは、元のデータが何であるかに関係なく有効な相関の普遍的な公式です(両方の変数の標準偏差がゼロ以外である場合のみ)。(このサイトの忠実な読者は、これを、平均のみを理解している人に共分散をどのように説明しますか?で説明および図解されている共分散の幾何学的特性に密接に関連していると認識します。)
とが異なるランクである特別なケースでは、それぞれが数字の同じシーケンスの順列です。したがって、あり、わずかな計算で、
(幸いなことに、は常にゼロ以外です)。だから
とが同じ平均と標準偏差を持っているため、この素晴らしい単純化が行われました。したがって、それらの平均の差はなくなり、積はを含まないなり。
式にこれを差し込む用できます
高校生は、シグマ記法を操作する代数スキルを得る数年前にPMCCとスピアマンの相関式を見ますが、シーケンスの多項式を推定するための有限差分の方法をよく知っているかもしれません。そのため、同値性の「高等学校の証明」を作成しようとしました。有限差分を使用して分母を見つけ、分子内の和の代数的操作を最小化します。証明が提示される生徒によっては、分子よりもこのアプローチを好むかもしれませんが、分母のためのより一般的な方法と組み合わせてください。
分母、
ない関係で、データは、ランクであるが表示することは容易であるので、いくつかのためにˉ X = N + 1を。我々は、和並べ替えることができSXX=Σを N iが= 1(XI- ˉ X)2=Σ N K = 1(K-N+1ですが、低学年の生徒の場合、シグマ表記ではなく、この合計を明示的に書き出す可能性があります。kの2次方程式の合計はnの3次方程式になります。これは、有限差分法に精通している学生が直感的に理解できることです。3次関数の差分は2次関数を生成します。生徒がΣ記法を快適に操作し、∑ n k = 1 kおよび∑ n k = 1の式を知っている(そして覚えている)場合、3次f(n)の係数の決定は簡単です。。ただし、次のように有限差分を使用して推測することもできます。
場合、データ・セットがあるだけで、{ 1 }、ˉ X = 1、そうF (1 )= (1 - 1 )2 = 0。
以下のために、データは{ 1 、2 }、ˉ X = 1.5ので、F (2 )= (1 - 1.5 )2 + (2 - 1.5 )2 = 0.5。
以下のために、データは{ 1 、2 、3 }、ˉ X = 2、そうF (3 )= (1 - 2 )2 + (2 - 2 )2 + (3 - 2 )2 = 2。
これらの計算はかなり簡単であり、ヘルプがどの表記強化手段、および短いために、我々は差分テーブルを生成します。
上記のリンクで概説したように、有限差分法を使用して係数を取得できます。たとえば、一定の3番目の差は、多項式が実際に3次であり、係数が0.5であることを示しています。。骨の折れる作業を最小限に抑えるためのいくつかのトリックがあります。よく知られているのは、f(0)が定数係数を即座に解放するため、一般的な違いを使用してシーケンスをn=0に戻すことです。別の方法は、整数nに対してf(n)がゼロかどうかを確認するためにシーケンスを拡張することです。たとえば、シーケンスが正であるが減少している場合、「ルートをキャッチ」できるかどうかを右に拡張する価値があります。後で因数分解を簡単にします。私たちの場合、nが小さい場合、関数は低い値を中心にホバリングしているように見えるので、さらに左に拡張してみましょう。
あぁ!3つのルートすべてを捕らえたことがわかります:。そのため、多項式には(n + 1 )、n、および(n − 1 )の因子があります。立方体であったため、次の形式でなければなりません。
は、すでに1であると決定したn 3の係数でなければならないことがわかります。。あるいは、以降F(2)=0.5我々は(2)(3)(1)=0.5と同じ結論に達したリード。2つの正方形の差を拡大すると、次のようになります。
同じ引数が適用されるため、分母は√これで完了です。私の説明を無視すると、この方法は驚くほど短いです。一つは多項式が立方晶であり、それだけで計算する必要があることを見つけることができればSXXケースについてのn∈{1、2、3、4}第三の差を確立するために0.5です。ルートハンターは、3つすべてのルートが見つかった時点で、シーケンスを左にn=0およびn=−1に拡張するだけです。Sxを見つけるのに数分かかりましたこの方法。
分子、
私は、アイデンティティの点に注意してくださいに再配置することができます。
私たちは聞かせている場合= X I - ˉ X = X I - N + 1及びB=YI- ˉ Y =YI-N+1 b–a=yi–xi=diという有用な結果が得られます。これは、平均値が同一であるため、相殺されるためです。それはそもそもアイデンティティを書くための私の直感でした。瞬間の積を扱うことから、それらの差の二乗に切り替えたかったのです。現在、次のものがあります。
表記法の操作方法がわからない学生でも、データセットの合計がどのように生成されるかを確認できれば幸いです。
合計を並べ替えることにより、がすでに確立されており、次のようになります。
スピアマンの相関係数の式は私たちの理解の範囲内です!
S x x = 1という以前の結果を代入するはジョブを終了します。