私がいくつかの例を実行したとき、rhoのP値とランクのピアソン相関のt検定は常に一致し、最後の数桁は保存します
さてあなたは間違った例を実行してきました!
a = c(1,2,3,4,5,6,7,8,9)
b = c(1,2,3,4,5,6,7,8,90)
cor.test(a,b,method='pearson')
Pearson's product-moment correlation
data: a and b
t = 2.0528, df = 7, p-value = 0.0792
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.08621009 0.90762506
sample estimates:
cor
0.6130088
cor.test(a,b,method='spearman')
Spearman's rank correlation rho
data: a and b
S = 0, p-value = 5.511e-06
alternative hypothesis: true rho is not equal to 0
sample estimates:
rho
1
ベクトルa
とb
は良好ですが、完全な線形(ピアソン)相関にはほど遠いです。ただし、それらには完全なランク相関があります。参照-スピアマンの、この場合、の最後の桁が8.1、9、90、または9000であるかどうか(それを試してみてください!)は重要ではなく、8より大きい場合にのみ重要です。これが、相関するランクの違いです。 ρb
逆に、一方a
及びb
完全順位相関を持っている、彼らのピアソン相関係数はピアソン相関がランクを反映していないことを示し、この1よりも小さくなっています。
ピアソン相関は線形関数を反映し、ランク相関は単純に単調関数です。通常のデータの場合、2つは互いに非常によく似ています。これが、SpearmanとPearsonのデータに大きな違いが見られない理由です。
実用的な例として、以下を検討してください。背の高い人の方が体重が多いかどうかを確認したい。はい、それはばかげた質問です...しかし、これがあなたが気にしていることだと仮定してください。背の高い人は小さい人よりも幅が広いので、現在、質量は体重に比例しません。したがって、重量は高さの線形関数ではありません。あなたより10%高い人は、平均して10%以上重いです。これが、ボディ/マスインデックスが分母に立方体を使用する理由です。
したがって、高さと重量の関係を不正確に反映するために、線形相関を想定します。対照的に、この場合、ランク相関は、物理学および生物学の迷惑な法則の影響を受けません。身長が上がるにつれて直線的に体重が増えるかどうかは反映されません。単に、身長が高い人(1つのスケールでランクが高い人)が重いか(他のスケールでランクが高い人)かを単に反映します。
より典型的な例は、人々が何かを「完璧/良い/まともな/普通/悪い/ひどい」と評価するようなリッカートのようなアンケートのランキングの例かもしれません。「完璧」は「まとも」から「まあまあ」までは「まあまあ」から「悪い」までの縮尺ですが、両者の距離は本当に同じだと言えるでしょうか。線形相関は必ずしも適切ではありません。ランク相関はより自然です。
質問にもっと直接取り組むために:いいえ、ピアソンとスピアマンの相関のp値を別々に計算することはできません。概念的にも数値的にも、この2つについては多くの違いがありますが、検定統計量が同等であれば、p値は同等になります。
ピアソン相関で正規性の仮定の質問には、参照これを。
より一般的には、他の人々は、パラメトリック相関と非パラメトリック相関のトピック(ここも参照)と、これが分布の仮定に関して何を意味するかに関して、私が考えていたよりもはるかに優れた詳細を示しています。