特定のデータセットのピアソン相関とスピアマン相関の相関係数に大きな違いを引き起こす原因は何ですか?


22

2つの変数間のピアソンの係数は非常に高い(r = .65)。しかし、変数値をランク付けしてスピアマンの相関を実行すると、係数値ははるかに低くなります(r = .30)。

  • これの解釈は何ですか?

5
一般に、相関係数を解釈する前にデータの散布図を表示することをお勧めします。
-chl

サンプルサイズは?
ジェロミーアングリム

回答:


37

なぜ大きな違いがあるのか

  • データが正規分布または均一に分布している場合、スピアマンとピアソンの相関関係はかなり似ているはずだと思います。

  • あなたの場合のように結果が非常に異なる場合(.65対.30)、私の推測では、データまたは外れ値に歪みがあり、外れ値がピアソンの相関をスピアマンの相関よりも大きくしていると推測されます。つまり、Xの非常に高い値は、Yの非常に高い値と共起する可能性があります。

  • @chlはスポットオンです。最初のステップは、散布図を見ることです。
  • 一般に、ピアソンとスピアマンのこのような大きな違いは、
    • ピアソン相関は、2つの変数間の関連の有用な要約ではない場合があります。または
    • ピアソンの相関を使用する前に、一方または両方の変数を変換する必要があります。または
    • ピアソンの相関を使用する前に、外れ値を削除または調整する必要があります。

関連する質問

また、スピアマンとピアソンの相関関係の違いに関するこれらの以前の質問も参照してください。

単純なRの例

以下は、これがどのように発生するかを示す簡単なシミュレーションです。以下のケースには単一の外れ値が含まれますが、複数の外れ値または歪んだデータで同様の効果が生じる可能性があることに注意してください。

# Set Seed of random number generator
set.seed(4444)

# Generate random data
# First, create some normally distributed correlated data
x1 <- rnorm(200)
y1 <- rnorm(200) + .6 * x1

# Second, add a major outlier
x2 <- c(x1, 14)
y2 <- c(y1, 14)

# Plot both data sets
par(mfrow=c(2,2))
plot(x1, y1, main="Raw no outlier")
plot(x2, y2, main="Raw with outlier")

plot(rank(x1), rank(y1), main="Rank no outlier")
plot(rank(x2), rank(y2), main="Rank with outlier")

# Calculate correlations on both datasets
round(cor(x1, y1, method="pearson"), 2)
round(cor(x1, y1, method="spearman"), 2)
round(cor(x2, y2, method="pearson"), 2)
round(cor(x2, y2, method="spearman"), 2)

これはこの出力を与えます

[1] 0.44
[1] 0.44
[1] 0.7
[1] 0.44

相関分析は、異常値のないスピアマンとピアソンが非常に類似しており、かなり極端な異常値がある場合、相関がまったく異なることを示しています。

以下のプロットは、データをランクとして処理することで外れ値の極端な影響を除去する方法を示しています。これは、スピアマンがしばしばロバストと呼ばれる理由を強調しています。

ここに画像の説明を入力してください

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.