関連するデータセットがたくさんあります。それらのペア間のピアソン相関は通常、スピアマン相関よりも明らかに大きくなります。これは、相関関係が線形であることを示唆していますが、ピアソンとスピアマンが同じであったとしても、予想されるかもしれません。ピアソンとスピアマンの相関関係に明確なギャップがあり、ピアソンが大きい場合、それはどういう意味ですか?これは、私のデータセット全体で一貫した機能のようです。
関連するデータセットがたくさんあります。それらのペア間のピアソン相関は通常、スピアマン相関よりも明らかに大きくなります。これは、相関関係が線形であることを示唆していますが、ピアソンとスピアマンが同じであったとしても、予想されるかもしれません。ピアソンとスピアマンの相関関係に明確なギャップがあり、ピアソンが大きい場合、それはどういう意味ですか?これは、私のデータセット全体で一貫した機能のようです。
回答:
スピアマン相関は、実際の数値ではなくランク(次数統計)を使用したピアソン相関です。あなたの質問に対する答えは、彼らは同じものを測定していないということです。ピアソン:線形トレンド、スピアマン:単調トレンド。ピアソン相関が高いということは、線形相関がランク相関よりも大きいことを意味します。これはおそらく、ランク付けされた値に比べて影響が大きい分布の裾の影響力のある観測によるものです。ピアソン相関を使用した関連性のテストは、データに線形性がある場合に、より高い検出力になります。
ピアソン相関は、正確であるためにいくつかの仮定を前提としています。1)各変数は正規分布です。2)ホモセダスティシティ、各変数の分散は一定のままです。および3)直線性。これは、関係を表す散布図が、回帰直線の周りに対称的にクラスタリングされたデータポイントを示すことを意味します。
スピアマン相関は、観測値のランクに基づくピアソン相関のノンパラメトリックな代替です。スピアマン相関を使用すると、データセットに関する3つの仮定すべてを緩和し、妥当な精度の相関を導き出すことができます。
データが示唆していることは、2つの相関関係が大幅に異なるように、おそらく前述の仮定の1つ以上が実質的に破られることです。
2つの相関関係の間に大きなギャップがある場合は、データセットの変数が散布図内で正規分布し、等分散性で、線形であるかどうかを調査する必要があります。
上記の調査は、スピアマンまたはピアソンの相関係数がより代表的なものであるかどうかの決定を容易にします。