非正規データとのピアソンまたはスピアマンの相関


113

統計コンサルティングの仕事でこの質問を頻繁に受け取っているので、ここに投稿したいと思いました。答えは下にありますが、他の人の意見を聞きたいと思いました。

質問:正規分布していない2つの変数がある場合、相関にスピアマンのrhoを使用する必要がありますか?


1
ピアソンのr スピアマンのρ の両方を計算して報告してみませんか?それらの違い(またはその欠如)は追加情報を提供します。

単純な回帰係数ベータの有意性をテストするとき、およびピアソン相関係数(ベータに数値的に等しい)stats.stackexchange.com/q/181043/3277をテストするときに、分布の仮定を比較する質問が作成されました。
ttnphns

回答:


77

ピアソンの相関は、2つの連続したランダム変数間の線形関係の尺度です。有限分散と有限共分散を想定していますが、正規性は想定していません。変数が二変量正規である場合、ピアソンの相関は関連の完全な説明を提供します。

スピアマンの相関はランクに適用されるため、2つの連続したランダム変数間の単調な関係の尺度を提供します。また、順序データでも役立ち、外れ値に対して堅牢です(ピアソンの相関とは異なります)。

どちらの相関係数の分布も基礎となる分布に依存しますが、どちらも中心極限定理のために漸近的に正常です。


12
ピアソンのは正規性を想定していませんが、ジョイント分布が多変量正規分布である場合、関連付けの網羅的な尺度にすぎません。この区別が引き起こす混乱を考えると、あなたはそれをあなたの答えに加えたいかもしれません。ρ
user603

3
上記のステートメントをサポートするために引用できるソースはありますか(Personのrは正規性を想定していません)?現在、私たちの部署でも同じ議論をしています。

5
「変数が2変量正規分布である場合、ピアソンの相関関係は関連の完全な説明を提供します。」そして、変数が二変量正規分布ではない場合、ピアソンの相関はどれほど有用ですか?
ランドローニ14

2
この答えはむしろ間接的なようです。「変数が二変量正規の場合...」そしてそうでない場合は?このような説明が、統計情報を取得できない理由です。「ロブ、私の新しいドレスはどうですか?」「暗い色は明るい肌を強調します。」「確かに、ロブ、でもそれが私の肌を強調するのは好きですか?」「多くの文化で明るい肌は美しいと考えられています。」「私は知っています、ロブ、あなたはそれ好きですか?」「ドレスは美しいと思います。」「私もそう思う、ロブ、それは私にとって美しいですか?」「あなたはいつも私に美しく見えます、ハニー」ため息

1
その前に2つの文章を読むと、答えが見つかります。
ロブハインドマン

49

ケンドールのタウを忘れないでください!ロジャー・ニューソンは、ケンドールの優位性を主張したτのAスピアマンの相関を超えるR S全文オンラインで自由に利用可能である論文の相関のランクに基づく措置として:

ニューソンR. 「ノンパラメトリック」統計の背後にあるパラメーター:ケンドールのタウ、ソマーズのDおよび中央値の差Stata Journal 2002; 2(1):45-64。

彼は(p47)Kendall&Gibbons(1990)を参照して、「...スピアマンのr Sの信頼区間は、ケンドールのτパラメーターの信頼区間よりも信頼性が低く、解釈しにくいが、サンプルのスピアマンのr Sははるかに簡単であるコンピュータなしで計算されます」(これはもはやそれほど重要ではありません)。残念ながら、私は彼らの本のコピーに簡単にアクセスできません。

ケンドール、MG、JDギボンズ。1990. ランク相関法。第5版 ロンドン:グリフィン。


2
私はケンドールのタウの大ファンでもあります。ピアソンは私の好みの影響ポイント/外れ値に非常に敏感であり、スピアマンはこの問題に悩まされていませんが、私は個人的にケンダルがスピアマンよりも理解、解釈、説明が簡単だと感じています。もちろん、走行距離は異なる場合があります。
ステファンKolassa

経験からの私の記憶は、ケンドールのタウはまだスピアマンのタウよりもずっと遅い(Rで)ことです。これは、データセットが大きい場合に重要になる可能性があります。
18年

35

応用の観点から、私は2つの変数間の関係を私の研究の質問と一致する方法で要約するアプローチを選択することにより関心があります。正確な標準誤差とp値を取得する方法を決定することは、2番目に来るべき問題だと思います。漸近に依存しないことを選択した場合でも、ブートストラップまたは分布の仮定を変更するオプションが常にあります。

原則として、私はピアソンの相関関係を好みます。なぜなら、(a)それは一般に私の理論的関心により合致するからです。(b)私の地域のほとんどの研究がピアソンの相関を報告しているため、研究全体の結果をより直接的に比較可能にします。(c)多くの設定で、ピアソン相関係数とスピアマン相関係数の差はごくわずかです。

しかし、生の変数に関するピアソンの相関関係が誤解を招くと思う状況があります。

  • 外れ値:外れ値は、ピアソンの相関に大きな影響を与える可能性があります。適用された設定の多くの外れ値は、モデルが一般化することを意図していない測定の失敗またはその他の要因を反映しています。1つのオプションは、このような外れ値を削除することです。スピアマンのrhoでは、すべてがランクに変換されるため、単変量の外れ値は存在しません。したがって、スピアマンはより堅牢です。
  • 高度に歪んだ変数:歪んだ変数、特に高度に歪んだ変数を相関させる場合、ログまたはその他の変換により、2つの変数の基礎となる関係が明確になります(たとえば、動物の体重による脳のサイズ)。そのような設定では、生のメトリックがとにかく最も意味のあるメトリックではない可能性があります。スピアマンのローは、両方の変数をランクに変換することにより、変換と同様の効果があります。この観点から、スピアマンのローは、あなたが最適な変換について考える必要がない、迅速で汚いアプローチ(または、より肯定的には、主観的ではない)とみなすことができます。

上記のどちらの場合でも、ピアソンの相関を適用する前に調整戦略(変換、外れ値の除去/調整など)を検討するか、スピアマンのrhoを使用することを研究者に勧めます。


変換の問題は、一般に、各ポイントに関連するエラー、ひいては重みも変換することです。そして、それは外れ値の問題を解決しません。
スカン

11

更新しました

この質問は、正常性に疑問がある場合、ピアソンの方法とスピアマンの方法を選択するように求めています。この懸念に限定して、次の論文はだれかの決定を知らせるべきだと思います。

r

r

正規性が侵害されているときにスピアマンとピアソンのいずれかを選択するように求められた場合、無料配布の代替案は、スピアマンの方法を提唱する価値があります。


以前 ..

スピアマンの相関は、ランクベースの相関測定です。それはノンパラメトリックであり、正規性の仮定に基づいていません。

ピアソンの相関のサンプリング分布は正規性を想定しています。特に、これは計算することはできますが、有意性テストに基づく結論は適切ではない場合があることを意味します。

Robがコメントで指摘しているように、大きなサンプルではこれは問題ではありません。ただし、正規性が侵害されている小さなサンプルでは、​​スピアマンの相関が優先されます。

コメントと回答についてMullingを更新すると、これは通常のノンパラメトリックテストとパラメトリックテストの議論に帰着するように思えます。生物統計学などの文献の多くは、大きなサンプルを扱っていません。私は一般に、漸近性に頼ることに無頓着ではありません。この場合、おそらくそれは正当化されますが、それは私にはすぐにはわかりません。


1
いいえ。ピアソンの相関は正規性を仮定していません。これは、任意の2つの連続確率変数間の相関の推定値であり、比較的一般的な条件下での一貫した推定量です。CLTのためにサンプルが十分に大きい場合、ピアソンの相関に基づくテストでさえ正規性を必要としません。
ロブハインドマン

2
基礎となる分布に有限の分散と共分散がある限り、ピアソンが定義されているという印象を受けます。したがって、正規性は必要ありません。基礎となる分布が正規でない場合、検定統計量は異なる分布を持っている可能性がありますが、それは二次的な問題であり、当面の質問には関係ありません。そうじゃない?

2
@ロブ:はい、私たちは物事をほぼ同じように機能させるための回避策を常に考え出すことができます。ほとんどの非統計学者が標準コマンドで処理できるスピアマンの方法を避けるためです。私のアドバイスは、正規性が疑わしい小さなサンプルにはスピアマンの方法を使用することです。ここで論争があるかどうかはわかりません。
ars

1
@ars。線形の関連付けではなく単調な関連付けに興味がある場合、または外れ値または高レベルの歪度がある場合、スピアマンを使用します。外れ値がなければ、ピアソンの線形関係を使用します。私は、選択を行う際にサンプルサイズが関係するとは思わない。
ロブハインドマン

3
@ロブ:OK、議論してくれてありがとう。私は最初の部分に同意しますが、最後の部分を疑い、通常の漸近現象が適用されないため、そのサイズのみが役割を果たすことを含めます。たとえば、Kowalski 1972は、このことに関する歴史について非常に優れた調査を行っており、ピアソンの相関は考えられているほど堅牢ではないと結論付けています。参照:jstor.org/pss/2346598
ars
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.