ピアソンの相関係数は、正規性の違反に対してどの程度堅牢ですか?


20

特定の種類の変数のデータは、特定の集団で測定した場合、非正常になる傾向があります(たとえば、大うつ病性障害の人々の集団のうつ病のレベル)。ピアソンが正規性を仮定しているとすると、非正規性の条件下での検定統計量はどの程度堅牢ですか?

相関係数が必要な変数がいくつかありますが、これらの変数のいくつかのZスキューはp <.001で重要です(比較的小さなサンプルの場合)。私はいくつかの変換を試みましたが、分布の改善はせいぜいわずかです。

ノンパラメトリック分析に固執する必要がありますか?相関だけでなく、他のタイプの分析も同様ですか?


待ってください、ピアソンの相関係数は正規性を仮定していますか?私はそれがそうだとは思わないし、私は非通常のデータでそれを使用してきました。正常でない状況でより頻繁に発生するいくつかの事柄に対してロバストではありませんが、ピアソンの相関係数を使用しても問題が見られない正常でない状況がたくさんあります。
ダグラスザーレ

1
ピアソンの相関関係は、多くの統計テキストが主張しているように、正常性を仮定しています。ピアソンのrの正規性は不必要な仮定であると他の場所で聞いたことがあります。分析を実行すると、ピアソンとスピアマンの両方が比較的類似した結果を生成します。
始祖鳥

スピアマンの順位相関係数は、非正規ランキングに適用されるピアソンの相関係数です。ピアソンが正常性を要求しているとあなたがどのような意味で信じているかはまだわかりません。多変量正規分布で使用している場合に備えて、いくつか追加のことを言うことができます。
ダグラスザーレ

単純な2変量相関に使用しています。正常性が必要であると主張されている理由がわかりません。私が読んだ統計テキストには、常にピアソンの相関の仮定として正規性がリストされており、非正規性が成立する条件にはスピアマンの使用を推奨しています。
始祖鳥

回答:


20

簡単な答え:非常に堅牢ではありません。相関は線形依存性の尺度であり、一方の変数もう一方の変数の線形関数として記述できない場合(さらに、与えられた周辺分布がある場合)、完全な(正または負の)相関を持つことはできません。実際、可能な相関値は厳しく制限される場合があります。

問題は、母集団の相関が常にから1の間であるのに対し、達成可能な正確な範囲は周辺分布に大きく依存することです。簡単な証明とデモンストレーション:11

相関の達成可能な範囲

バツYHFGH

HバツyHバツyH+バツy
Hバツy=最大Fバツ+Gy10H+バツy=FバツGy

境界自体は分布関数です。してみましょう均一な分布を持っています。上限はの分布関数であり、下限はの分布関数です。X Y = F U G U F U G 1 U うんバツY=FうんGうんFうんG1うん

ここで、共分散の式でこのバリアントを使用すると、 がそれぞれおよび等しい場合、つまりが(正または負の 場合)最大および最小相関が得られることがます。 )単調関数。H H + H Y X

Cov(X,Y)=H(x,y)F(x)G(y)dxdy,
HH+HYX

以下にいくつかの例を示します(証明なし):

  1. 場合および正規分布している場合、我々は、最大値と最小値を求める、通常の二変量正規分布有しの線形関数として書かれている。つまり、の最大値を取得し ここで、と平均と分散に関係なく、境界は(もちろん)とです。Y X Y Y X Y = μ Y + σ Y X - μ XバツYバツYYバツ11XY

    Y=μY+σYバツμバツσバツ
    11バツY
  2. ときにと対数正規分布を有していることがあることを意味するものと同じように、下限は、決して達成可能である書くことができますいくつかのためにと正の、及び負になることはありません。厳密な境界には(わずかにい)式が存在しますが、特別なケースを示します。場合及び(累乗場合、それらは通常の標準であることを意味する)、標準的な対数正規分布を有する、達成可能範囲は。(一般に、上限も制限されています。)Y Y Y = A - B X 、B Y X Y [ - 1 / E 1 ] [ - 0.37 1 ]バツYYY=abバツabYバツY[1/e1][0.371]

  3. 場合標準正規分布を有し、、標準的な対数正規分布を有し、相関の境界は Y ± 1バツY

    ±1e10.76。

すべての境界は母集団の相関関係であることに注意してください。サンプル相関は、特に小さなサンプルの場合、境界の外側に簡単に拡張できます(簡単な例:サンプルサイズ2)。

相関限界の推定

周辺分布からシミュレートできる場合、実際には相関の上限と下限を推定するのは非常に簡単です。上記の最後の例では、このRコードを使用できます。

> n = 10^5      # Sample size: 100,000 observations
> x = rnorm(n)  # From the standard normal distribution
> y = rlnorm(n) # From the standard lognormal distribution
>
> # Estimated maximum correlation
> cor( sort(x), sort(y) )
0.772
>
> # Estimated minimum correlation
> cor( sort(x), sort(y, decreasing=TRUE) )
−0.769

実際のデータしかなく、周辺分布がわからない場合でも、上記の方法を使用できます。観測値のペアが依存している限り、変数が依存していることは問題ではありません。しかし、多くの観測ペアがあれば役立ちます。

データの変換

もちろんである可能(わずかに)正常に分布するデータを変換した後、変換されたデータに相関を計算します。問題は解釈可能性の1つです。(そして、なぜ正規分布の代わりに、任意の使用の他の分布  の線形関数であることができる?)データについてれる二変量正規分布、相関が良い解釈を有している(その正方形が他ずつ変数の分散を説明するの)。ここではそうではありません。XYバツ

ここで実際に行っているのは、周辺分布に依存しない依存性の新しい尺度を作成することです。つまり、コピュラベースの依存関係の尺度を作成しています。スピアマンの  ρケンドールの  τが最もよく知られているそのような尺度がすでにいくつかあります。(依存関係の概念に本当に興味があるなら、コピュラを調べることは悪い考えではありません。)

結論として

いくつかの最終的な考えとアドバイス:相関関係を見るだけでも、大きな問題が1つあります。一方、散布図を見ると、よく考え始めます。したがって、私の主なアドバイスは、散布図を調べ、依存関係を明示的にモデル化することです。

つまり、単純な相関関係のような測定が必要な場合は、スピアマンのρ(および関連する信頼区間と検定)を使用するだけ  です。その範囲は制限されていません。ただし、非単調な依存性には十分注意してください。相関に関するWikipediaの記事は、潜在的な問題を説明する素敵なプロットのカップルを持っています。


1
+1この非常に優れた貢献は、相関関係に関連するいくつかの繰り返し発生する問題に明確に対処しています。私は特に、思考の停止/開始に関する最初の結論段落の発言に感謝します。
whuber

非堅牢性は漸近的にも残るのでしょうか?もしそうなら、ウィキは「[rの単純な変換のためのスチューデントのt分布]は、サンプル値がそれほど小さくない限り、観測値が非正規であってもほぼ成り立つ」と言って間違っていますか?
最大

5

これらの変数の分布はどのように見えますか(歪んでいる以上)?非正規性のみが歪度である場合、何らかの変換が役立つはずです。しかし、これらの変数に多くの集中がある場合、変換は正常になりません。変数が連続的でない場合、同じことが当てはまります。

違反との相関はどの程度堅牢ですか?Anscombe Quartetをご覧ください。いくつかの問題を非常によく示しています。

他のタイプの分析に関しては、分析に依存します。たとえば、歪んだ変数が回帰の独立変数である場合、問題はまったくない可能性があります-残差を調べる必要があります。


1
一部の変数には尖度の問題もありますが、歪度が最大の問題です。問題の変数に対して平方根と対数変換を試しましたが、あまり改善されません。実際、分布はほとんどまったく同じように見えますが、スコアが大きく積み重なっています。
始祖鳥

1
それはとても奇妙に思えます。問題の変数の平均、中央値、歪度、尖度を投稿できますか?または(さらに良い)密度プロット?
ピーターフロム-モニカの復職

6
(X、Y)の分布が二変量正規分布であるかどうかに関係なく、ピアソン相関は線形性の度合いの尺度です。サンプル推定の確率分布は、正規性に依存します。
マイケルR.チャーニック

3
これらの変数はあまり歪んでいません。そのままにしておくことができます。
ピーターフロム-モニカの復職

3
ここで重要性について心配する必要はありません。通常、スキューおよび尖度が-2または> 2である場合、おそらく変換が必要と見なされます。より良いのは、何が起こっているかを見るために、例えばクォンタイル標準プロットやカーネル付き密度プロットなどのグラフを見ることです。
ピーターフローム-モニカの復職
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.