簡単な答え:非常に堅牢ではありません。相関は線形依存性の尺度であり、一方の変数をもう一方の変数の線形関数として記述できない場合(さらに、与えられた周辺分布がある場合)、完全な(正または負の)相関を持つことはできません。実際、可能な相関値は厳しく制限される場合があります。
問題は、母集団の相関が常にから1の間であるのに対し、達成可能な正確な範囲は周辺分布に大きく依存することです。簡単な証明とデモンストレーション:−11
相関の達成可能な範囲
(X,Y)HFGH
H−(x 、y)≤ H(x 、y)≤ H+(x 、y)、
H−(x 、y)H+(x 、y)= 最大(F(x )+ G (y)- 1 、0 )= 分(F(x )、G (y))。
境界自体は分布関数です。してみましょう均一な分布を持っています。上限はの分布関数であり、下限はの分布関数です。(X 、Y )= (F −(U )、G −(U ))(F −(− U )、G −(1 − U ))うん(X、Y)= (F−(U)、G−(U))(F−(− U)、G−(1 − U))
ここで、共分散の式でこのバリアントを使用すると、
がそれぞれおよび等しい場合、つまりが(正または負の
場合)最大および最小相関が得られることがます。 )単調関数。H H + H − Y X
Cov(X、Y)= ∬H(x 、y)− F(x)G(y)dxdy,
HH+H−YX
例
以下にいくつかの例を示します(証明なし):
場合および正規分布している場合、我々は、最大値と最小値を求める、通常の二変量正規分布有しの線形関数として書かれている。つまり、の最大値を取得し
ここで、と平均と分散に関係なく、境界は(もちろん)とです。Y (X 、Y )Y X Y = μ Y + σ Y X - μ XバツY(X、Y)Yバツ−11XY
Y= μY+ σYバツ- μバツσバツ。
− 11バツY
ときにと対数正規分布を有していることがあることを意味するものと同じように、下限は、決して達成可能である書くことができますいくつかのためにと正の、及び負になることはありません。厳密な境界には(わずかにい)式が存在しますが、特別なケースを示します。場合及び(累乗場合、それらは通常の標準であることを意味する)、標準的な対数正規分布を有する、達成可能範囲は。(一般に、上限も制限されています。)Y Y Y = A - B X 、B Y X Y [ - 1 / E 、1 ] ≈ [ - 0.37 、1 ]バツYYY= a − b XabYバツY[ - 1 / E 、1 ] ≈ [ - 0.37 、1 ]
場合標準正規分布を有し、、標準的な対数正規分布を有し、相関の境界は
Y ± 1バツY
± 1e − 1−−−−√≈ 0.76。
すべての境界は母集団の相関関係であることに注意してください。サンプル相関は、特に小さなサンプルの場合、境界の外側に簡単に拡張できます(簡単な例:サンプルサイズ2)。
相関限界の推定
周辺分布からシミュレートできる場合、実際には相関の上限と下限を推定するのは非常に簡単です。上記の最後の例では、このRコードを使用できます。
> n = 10^5 # Sample size: 100,000 observations
> x = rnorm(n) # From the standard normal distribution
> y = rlnorm(n) # From the standard lognormal distribution
>
> # Estimated maximum correlation
> cor( sort(x), sort(y) )
0.772
>
> # Estimated minimum correlation
> cor( sort(x), sort(y, decreasing=TRUE) )
−0.769
実際のデータしかなく、周辺分布がわからない場合でも、上記の方法を使用できます。観測値のペアが依存している限り、変数が依存していることは問題ではありません。しかし、多くの観測ペアがあれば役立ちます。
データの変換
もちろんである可能(わずかに)正常に分布するデータを変換した後、変換されたデータに相関を計算します。問題は解釈可能性の1つです。(そして、なぜ正規分布の代わりに、任意の使用の他の分布 の線形関数であることができる?)データについてれる二変量正規分布、相関が良い解釈を有している(その正方形が他ずつ変数の分散を説明するの)。ここではそうではありません。XYバツ
ここで実際に行っているのは、周辺分布に依存しない依存性の新しい尺度を作成することです。つまり、コピュラベースの依存関係の尺度を作成しています。スピアマンの ρとケンドールの τが最もよく知られているそのような尺度がすでにいくつかあります。(依存関係の概念に本当に興味があるなら、コピュラを調べることは悪い考えではありません。)
結論として
いくつかの最終的な考えとアドバイス:相関関係を見るだけでも、大きな問題が1つあります。一方、散布図を見ると、よく考え始めます。したがって、私の主なアドバイスは、散布図を調べ、依存関係を明示的にモデル化することです。
つまり、単純な相関関係のような測定が必要な場合は、スピアマンのρ(および関連する信頼区間と検定)を使用するだけ です。その範囲は制限されていません。ただし、非単調な依存性には十分注意してください。相関に関するWikipediaの記事は、潜在的な問題を説明する素敵なプロットのカップルを持っています。