ピアソン相関とスピアマン相関の選択方法


119

SpearmanのとPearsonののどちらを選択するかを知るにはどうすればよいですか?私の変数には満足度が含まれており、スコアはスコアの合計を使用して解釈されました。ただし、これらのスコアはランク付けすることもできます。ρr


2
また、非正規のデータのためのスピアマン対ピアソンでこの質問を参照stats.stackexchange.com/questions/3730/...
Jeromy Anglim

1
通常のデータの場合、ピアソンを生成します。非正規データの場合、スピアマンを生成します。

回答:


137

スピアマン(S)とピアソン(P)の相関関係は何らかの情報を提供するため、データを調査する場合は両方を計算するのが最適です。簡単に説明すると、Sはランクで計算されるため、単調な関係を表し、Pは真の値で線形関係を表します。

例として、次を設定した場合:

x=(1:100);  
y=exp(x);                         % then,
corr(x,y,'type','Spearman');      % will equal 1, and 
corr(x,y,'type','Pearson');       % will be about equal to 0.25

これは、xとともに単調に増加するため、スピアマン相関は完全ですが、線形ではないため、ピアソン相関は不完全であるためです。 yバツ

corr(x,log(y),'type','Pearson');  % will equal 1

S> Pがある場合、それは単調ですが線形ではない相関があることを意味するため、両方を行うことは興味深いです。統計に直線性を持たせるのが良いので(簡単です)、(ログなど)に変換を適用することができます。y

これにより、相関関係のタイプの違いが理解しやすくなることを願っています。


2
これはあなたがすでに言ったことから与えられたものだと推測していますが、S <Pが発生することは不可能であることを確認したいだけです。
ジョナサンティーレ

9
@JonathanThiele S <Pを持つことは完全に可能です。たとえば、AnscombeのQuartetsのセットIIおよびIVは、この動作を示しています。:また、この質問を参照stats.stackexchange.com/questions/27127/...
atomicules

1
@atomicules情報をありがとう。Anscombe's Quartetで相関関係を確認したところ、リンクは役に立ちました。
ジョナサンティーレ

1つのcorrgramプレゼンテーションにピアソンとスピアソンの相関関係を含めるにはどうすればよいですか?--ここでケースを考えていますstackoverflow.com/a/40523080/54964--多因子の問題があるため、スピアソンを含めることが有効であり、ピアソンだけに行くことはできないと思います。
レオレオポルドヘルツ

これは、特に多くの変数間の相関をテストするときに、あるテストと別のテストの骨の折れる正当化を回避するという追加の利点があるため、私が通常とるアプローチです。各変数を調べて、ピアソン相関またはスピアマン相関の仮定が満たされているかどうかを確認するのではなく、両方ですべてを実行します。多くの実際のアプリケーションでは、それらは関連の重要性の同様の尺度を与えるので、結果が大きく異なる比較的少数のインスタンスについて深く掘り下げるだけでよく、それらはとにかくさらに学ぶための興味深いケースです。
原子力王

50

最短でほぼ正解は次のとおりです。

ピアソンは線形関係をベンチマークし、スピアマンは単調関係をベンチマークします(より一般的なケースはほとんどありませんが、電力のトレードオフがいくつかあります)。

y=1バツ+0


35

これは統計で頻繁に起こります。あなたの状況に適用できるさまざまな方法があり、どれを選ぶべきかわかりません。検討中の方法の長所と短所、および問題の詳細に基づいて決定を下す必要がありますが、それでも決定は主観的なものであり、同意された「正しい」答えはありません。通常、合理的であると思われる方法でできるだけ多くの方法を試してみて、忍耐力が最終的にどの方法があなたに最良の結果を与えるかを確認することをお勧めします。

ピアソン相関とスピアマン相関の違いは、ピアソンは間隔スケールから取得した測定に最も適しているのに対し、スピアマンは順序スケールから取得した測定により適していることです。間隔スケールの例には、「華氏の温度」と「インチの長さ」が含まれ、個々の単位(1度F、1インチ)が意味を持ちます。「満足度スコア」のようなものは順序型の傾向があります。「5幸福」は「3幸福」よりも幸せであることは明らかですが、「1単位の幸福」の意味のある解釈ができるかどうかは不明です。しかし、合計すると 序数型の多くの測定値は、あなたがあなたの場合に持っているものであり、実際には序数でも間隔でもない測定値になり、解釈するのは困難です。

満足度スコアを変位値スコアに変換してから、それらの合計を操作することをお勧めします。これにより、データの解釈が多少なりやすくなります。しかし、この場合でも、ピアソンとスピアマンのどちらが適切かは明らかではありません。


2
例えば…コミュニケーション不安はどうですか?高い不安は非常に高い不安と明確な違いはありませんよね?しかし、ピアソンのrを使用して、変数が他の変数と相関していることがわかりました。大丈夫ですか?ありがとうございました!

28

今日、興味深いコーナーケースに遭遇しました。

非常に少数のサンプルを見ている場合、スピアマンとピアソンの違いは劇的です。

以下の場合、2つの方法はまったく逆の相関を報告します。

ここに画像の説明を入力してください

スピアマンとピアソンを決める簡単な経験則:

  • ピアソンの仮定は、一定の分散と線形性(またはそれに合理的に近いもの)であり、これらが満たされない場合、スピアマンを試す価値があるかもしれません。
  • 上記の例は、少数(<5)のデータポイントがある場合にのみポップアップするコーナーケースです。100以上のデータポイントがあり、データが線形またはそれに近い場合、ピアソンはスピアマンに非常に似ています。
  • 線形回帰がデータを分析するのに適した方法であると感じた場合、ピアソンの出力は線形回帰勾配の符号と大きさに一致します(変数が標準化されている場合)。
  • データに線形回帰で検出されない非線形成分が含まれている場合、まず変換(おそらくlog e)を適用して、データを線形形式にまっすぐにしようとします。それがうまくいかない場合は、スピアマンが適切かもしれません。
  • 私はいつもピアソンのものを最初に試します。それでもうまくいかない場合は、スピアマンを試します。
  • 経験則を追加したり、私が推測したルールを修正したりできますか?この質問をコミュニティWikiにしたので、そうすることができます。

ps上記のグラフを再現するRコードです。

# Script that shows that in some corner cases, the reported correlation for spearman can be
# exactly opposite to that for pearson. In this case, spearman is +0.4 and pearson is -0.4.
y = c(+2.5,-0.5, -0.8, -1)
x = c(+0.2,-3,   -2.5,+0.6)

plot(y ~ x,xlim=c(-6,+6),ylim=c(-1,+2.5))
title("Correlation: corner case for Spearman vs. Pearson\nNote that they are exactly opposite each other (-0.4 vs. +0.4)")
abline(v=0)
abline(h=0)
lm1=lm(y ~ x)
abline(lm1,col="red")

spearman = cor(y,x,method="spearman")
pearson = cor(y,x,method="pearson")
legend("topleft",
    c("Red line: regression.",
    sprintf("Spearman: %.5f",spearman),
    sprintf("Pearson:   +%.5f",pearson)
))

7

チャールズの答えに同意している間、私は(厳密に実用的なレベルで)両方の係数を計算し、違いを見ることを提案します。多くの場合、それらはまったく同じであるため、心配する必要はありません。

ただし、それらが異なる場合は、ピアソンの仮定(一定の分散と線形性)を満たしているかどうかを調べる必要があり、これらが満たされていない場合は、おそらくスピアマンを使用した方がよいでしょう。


3
機械学習者として、私は確かに統計的正確性に関する聖人ではありませんが、テストの実行後に仮定を確認することは私にとって異端のようです。
ステフェン

7
@steffen大丈夫だと思う。回帰の1つの前提は、残差が正規分布していることです。回帰を実行する前に、どのように確認しますか?
グレン

1
@Glen:この場合、私はできません。しかし、異なるモデルの品質を比較する場合、一般に、テストを実行する前に仮定(たとえば、ほぼ正規分布)を確認して、特定のテスト結果に有利になるように仮定を緩和する傾向を減らします。それをマインドトリックの防止と呼びます。私はそれだけだと思う​​;)。
ステフェン

1
@ steffen:異端については正しいですが、2つの手順が同じ結果を与える場合、それは使用する好みの問題ですが、彼らが仮定しない場合、仮定と失敗した場所をチェックすると、データの有用な洞察を得ることができます。個人的には、可能な限りスピアマンを使用しますが、これは私の分野では一般的ではありません。
-richiemorrisroe
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.