統計コンサルティングの仕事でこの質問を頻繁に受け取っているので、ここに投稿したいと思いました。答えは下にありますが、他の人の意見を聞きたいと思いました。
質問:正規分布していない2つの変数がある場合、相関にスピアマンのrhoを使用する必要がありますか?
統計コンサルティングの仕事でこの質問を頻繁に受け取っているので、ここに投稿したいと思いました。答えは下にありますが、他の人の意見を聞きたいと思いました。
質問:正規分布していない2つの変数がある場合、相関にスピアマンのrhoを使用する必要がありますか?
回答:
ピアソンの相関は、2つの連続したランダム変数間の線形関係の尺度です。有限分散と有限共分散を想定していますが、正規性は想定していません。変数が二変量正規である場合、ピアソンの相関は関連の完全な説明を提供します。
スピアマンの相関はランクに適用されるため、2つの連続したランダム変数間の単調な関係の尺度を提供します。また、順序データでも役立ち、外れ値に対して堅牢です(ピアソンの相関とは異なります)。
どちらの相関係数の分布も基礎となる分布に依存しますが、どちらも中心極限定理のために漸近的に正常です。
ケンドールのタウを忘れないでください!ロジャー・ニューソンは、ケンドールの優位性を主張したτのAスピアマンの相関を超えるR S全文オンラインで自由に利用可能である論文の相関のランクに基づく措置として:
ニューソンR. 「ノンパラメトリック」統計の背後にあるパラメーター:ケンドールのタウ、ソマーズのDおよび中央値の差。Stata Journal 2002; 2(1):45-64。
彼は(p47)Kendall&Gibbons(1990)を参照して、「...スピアマンのr Sの信頼区間は、ケンドールのτパラメーターの信頼区間よりも信頼性が低く、解釈しにくいが、サンプルのスピアマンのr Sははるかに簡単であるコンピュータなしで計算されます」(これはもはやそれほど重要ではありません)。残念ながら、私は彼らの本のコピーに簡単にアクセスできません。
ケンドール、MG、JDギボンズ。1990. ランク相関法。第5版 ロンドン:グリフィン。
応用の観点から、私は2つの変数間の関係を私の研究の質問と一致する方法で要約するアプローチを選択することにより関心があります。正確な標準誤差とp値を取得する方法を決定することは、2番目に来るべき問題だと思います。漸近に依存しないことを選択した場合でも、ブートストラップまたは分布の仮定を変更するオプションが常にあります。
原則として、私はピアソンの相関関係を好みます。なぜなら、(a)それは一般に私の理論的関心により合致するからです。(b)私の地域のほとんどの研究がピアソンの相関を報告しているため、研究全体の結果をより直接的に比較可能にします。(c)多くの設定で、ピアソン相関係数とスピアマン相関係数の差はごくわずかです。
しかし、生の変数に関するピアソンの相関関係が誤解を招くと思う状況があります。
上記のどちらの場合でも、ピアソンの相関を適用する前に調整戦略(変換、外れ値の除去/調整など)を検討するか、スピアマンのrhoを使用することを研究者に勧めます。
更新しました
この質問は、正常性に疑問がある場合、ピアソンの方法とスピアマンの方法を選択するように求めています。この懸念に限定して、次の論文はだれかの決定を知らせるべきだと思います。
正規性が侵害されているときにスピアマンとピアソンのいずれかを選択するように求められた場合、無料配布の代替案は、スピアマンの方法を提唱する価値があります。
以前 ..
スピアマンの相関は、ランクベースの相関測定です。それはノンパラメトリックであり、正規性の仮定に基づいていません。
ピアソンの相関のサンプリング分布は正規性を想定しています。特に、これは計算することはできますが、有意性テストに基づく結論は適切ではない場合があることを意味します。
Robがコメントで指摘しているように、大きなサンプルではこれは問題ではありません。ただし、正規性が侵害されている小さなサンプルでは、スピアマンの相関が優先されます。
コメントと回答についてMullingを更新すると、これは通常のノンパラメトリックテストとパラメトリックテストの議論に帰着するように思えます。生物統計学などの文献の多くは、大きなサンプルを扱っていません。私は一般に、漸近性に頼ることに無頓着ではありません。この場合、おそらくそれは正当化されますが、それは私にはすぐにはわかりません。