正規性の仮定にもかかわらず、ランクのピアソン相関が有効なのはなぜですか?


9

私は現在、ピアソン相関の仮定について読んでいます。次のt検定の重要な仮定は、両方の変数が正規分布に由来することです。そうでない場合は、Spearman rhoなどの代替手段の使用が推奨されます。スピアマン相関はピアソン相関のように計算され、XとY自体の代わりにXとYのランクを使用するだけですよね?

私の質問は、ピアソン相関への入力変数を正規分布する必要がある場合、入力変数がランクであるにもかかわらず、スピアマン相関の計算が有効なのはなぜですか?私のランクは確かに正規分布からのものではありません...

これまでに出てきた唯一の説明は、ローの有意性はピアソン相関t検定のそれとは異なる方法で検定される可能性があることです(正規性を必要としない方法で)が、これまでのところ式は見つかりませんでした。ただし、いくつかの例を実行した場合、rhoおよびランクのピアソン相関のt検定のp値は常に一致し、最後の数桁を除いて保存します。私にとって、これは画期的に異なる手順のようには見えません。

あなたが持っているかもしれないどんな説明やアイデアもいただければ幸いです!

回答:


7

ピアソン相関を計算するために正規性は必要ありません。対応する母集団の数量に関するある種の推論は、通常の仮定(CIおよび仮説検定)に基づいているだけです。

正規性がない場合、その特定の形式の推論の暗黙のプロパティは保持されません。

スピアマン相関の場合、正規性はありませんが、スピアマン相関の推論計算(仮説検定など)は正規性の仮定に基づいていないため、問題ありません。

それらは、連続する2変量分布からのペアのランクのセットであることに基づいて導出されます。この場合、仮説検定はランクに基づく検定統計量の順列分布を使用します。

ピアソン相関を使用した推論の通常の仮定(2変量正規性)が維持される場合、スピアマン相関は通常非常に近くなります(ただし、平均では少し0に近くなります)。

(したがって、ピアソンを使用できる場合、スピアマンは非常にうまく機能します。他のプロセスによる汚染(外れ値を引き起こした)を除いて、ほぼ二変量の通常のデータがあった場合、スピアマンは、汚染されていない分布。)


ありがとう、順列分布への参照は役に立ちます!
GST95 2014

「スピアマンは、相関関係を推定するためのより堅牢な方法です。」ちなみに、スピアマンは線形相関ではなく関連を推定します。
Landroni 2014

1
@landroni私がスピアマンについて一般的に話している場合、スピアマンが何をしているのかを正しく特徴付けています-しかし、その文では、汚染下の人口相関の2つの推定値を比較することについて明確に話しているので、文字通りそこに私が言っていることを意味します。相関を持つ変量正規想像して、本当に極端な外れ値を追加します。その状況でを推定したい場合、スピアマンはピアソン相関よりもロバスト推定器です。ρ ρρρρ
Glen_b-モニカを復活させる

1
@landroni ...このような状況は、正常に動作するメインプロセスと、非常に極端でありながら時々しか発生しない汚染プロセスがある場合に発生する可能性があります。汚染されていないプロセスの相関関係を推定することに関心がある場合、ピアソンの相関関係は、汚染の影響を非常に受けやすく、スピアマンよりもはるかに大きな影響を受けます。
Glen_b-モニカを復活させる

2

私がいくつかの例を実行したとき、rhoのP値とランクのピアソン相関のt検定は常に一致し、最後の数桁は保存します

さてあなたは間違った例を実行してきました!

a = c(1,2,3,4,5,6,7,8,9)
b = c(1,2,3,4,5,6,7,8,90)
cor.test(a,b,method='pearson')

    Pearson's product-moment correlation

data:  a and b
t = 2.0528, df = 7, p-value = 0.0792
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.08621009  0.90762506
sample estimates:
      cor 
0.6130088 

cor.test(a,b,method='spearman')

    Spearman's rank correlation rho

data:  a and b
S = 0, p-value = 5.511e-06
alternative hypothesis: true rho is not equal to 0
sample estimates:
rho 
  1 

ベクトルabは良好ですが、完全な線形(ピアソン)相関にはほど遠いです。ただし、それらには完全なランク相関があります。参照-スピアマンの、この場合、の最後の桁が8.1、9、90、または9000であるかどうか(それを試してみてください!)は重要ではなく、8より大きい場合にのみ重要です。これが、相関するランクの違いです。 ρb

逆に、一方a及びb完全順位相関を持っている、彼らのピアソン相関係数はピアソン相関がランクを反映していないことを示し、この1よりも小さくなっています。
ピアソン相関は線形関数を反映し、ランク相関は単純に単調関数です。通常のデータの場合、2つは互いに非常によく似ています。これが、SpearmanとPearsonのデータに大きな違いが見られない理由です。

実用的な例として、以下を検討してください。背の高い人の方が体重が多いかどうかを確認したい。はい、それはばかげた質問です...しかし、これがあなたが気にしていることだと仮定してください。背の高い人は小さい人よりも幅が広いので、現在、質量は体重に比例しません。したがって、重量は高さの線形関数ではありません。あなたより10%高い人は、平均して10%以上重いです。これが、ボディ/マスインデックスが分母に立方体を使用する理由です。
したがって、高さと重量の関係を不正確に反映するために、線形相関を想定します。対照的に、この場合、ランク相関は、物理学および生物学の迷惑な法則の影響を受けません。身長が上がるにつれて直線的に体重が増えるかどうかは反映されません。単に、身長が高い人(1つのスケールでランクが高い人)が重いか(他のスケールでランクが高い人)かを単に反映します。

より典型的な例は、人々が何かを「完璧/良い/まともな/普通/悪い/ひどい」と評価するようなリッカートのようなアンケートのランキングの例かもしれません。「完璧」は「まとも」から「まあまあ」までは「まあまあ」から「悪い」までの縮尺ですが、両者の距離は本当に同じだと言えるでしょうか。線形相関は必ずしも適切ではありません。ランク相関はより自然です。

質問にもっと直接取り組むために:いいえ、ピアソンとスピアマンの相関のp値を別々に計算することはできません。概念的にも数値的にも、この2つについては多くの違いがありますが、検定統計量が同等であれば、p値は同等になります。

ピアソン相関で正規性の仮定の質問には、参照これを
より一般的には、他の人々はパラメトリック相関と非パラメトリック相関のトピックここも参照)と、これが分布の仮定に関して何を意味するかに関して、私が考えていたよりもはるかに優れた詳細を示しています


ありがとうございました!次回は、さらに多くの例を試すようにします。:)
GST95 2014

1
いいえ、待ってください。実際、それは私の質問ではありませんでした。method = "pearson"とxとyのmethod = "spearman"バージョンを比較しませんでした。と比較cor.test(x, y, method = "spearman")しましたcor.test(rank(x), rank(y), method = "pearson")。これらの推定値は、どのデータを選択しても同じです。それでもありがとう!:)
GST95 2014

@ GST95、スピアマンの相関は、ランク変換されたデータに対して実行されたピアソンの相関です。2つの「メソッド」は、まったく同じメソッドです。
デニス

@Dennis、厳密には、(同一の)rho係数を比較するのではなく、p値を比較して、両方がt検定で得られたかどうかを確認しました。
GST95、2014
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.