共分散とスピアマンのローのサイン


8

2つの変数間の共分散が常に SpearmanのRhoと同じ符号であるという証明、または両方がゼロない仮定した人、またはこれが当てはまらない理由を示す説明/反例はありますか?

私は「母集団」(理論的)の大きさについて話しているのであって、それらのサンプルの対応物について話しているのではありません。つまり、場合、分布関数があり、必要なすべてのモーメント、コモーメントなどが存在する2つの確率変数が存在します。X,YFX,FY

Cov(X,Y)=E(XY)E(X)E(Y)
while

ρs(X,Y)=Cov[FX(X),FY(Y)]

私があればということを知っている(依存クアドラントある)、正または負、これは確かに、保持していますX,YQD

(X,Y)=QDsign{Cov(X,Y)}=sign{ρs(X,Y)}

...再度、両方がゼロでない場合。しかし、を確立できない、または保持できない場合はどうなりますか?QD

私は最終的に後の午前する証拠である場合の増加単調変換である、次に。これは非常に直感的で「自明」であるように見えることは知っていますが、そのような証拠をどこにも見つけることができず、自分で証明することもできませんでした。より正確には、私が示したいのは、両方がゼロでなければ、反対の符号を持つことはできないということです。h(Y)Ysign{Cov(X,Y)}=sign{Cov(X,h(Y))}

ここで、スピアマンのローは単調変換に対して不変なので、があるので、共分散の「同じ符号」の結果を証明する方法は、共分散が常にスピアマンのローと同じ符号を持っていることを証明するため、この質問。ρs(X,Y)=ρs(X,h(Y))

と定義を「非常に近い」ものにするW. Hoeffdingによる共分散の古い美しい式を見つけましたが、象限依存を仮定しないと一般的なステートメントを証明できませんでした。Covρs

もちろん、誰かが共分散の「同じ符号」(望ましい)結果に直接何かを持っている場合、それは同様に役立ちます。

更新
私は関連しているが同一ではないこの質問を見つけました。すでに述べたように、それは私の質問を次のように変更します:「両方のメジャーがゼロでないと仮定します。それらは反対の符号を持つことができますか?」


任意のサンプルが分布を決定します:その経験的分布。したがって、サンプルを検討対象から除外するための努力は、離散分布、または場合によってはすべての非連続分布を除外すると解釈する必要があります。しかし、任意の離散分布に対応するのは、その共分散とSpearman Rhoプロパティが離散分布のそれらに収束する、密接に近似する連続分布のシーケンスです。したがって、これらの除外を主張することは無意味であり、それらを許可することは無数の反例を生み出す洞察を提供します。
whuber

@whuber「分布からのサンプルからの結果に興味がない」、「する必要がある」が「離散分布を除外する」と解釈される方法がわかりません。本当に、わかりません。私が求めているのは、少なくとも分布のパラメータのいくつかの値について、期待値で表される2つの式が反対の符号を持つことができるような2変量CDFと相関要素を持つ2つの限界を与えることだけです。または持つことはできません。
Alecos Papadopoulos

あなたはそのような二変量CDFを持っています:私のシミュレーションが与える点の一様分布。
Dave

回答:


3

多くの反例があります。 しかし、根本的な質問に取り組みましょう:

私が最終的に求めているのは、が増加する単調変換の場合、。hSign{Cov(X,Y)}=Sign{Cov(X,h(Y))}

これは誤りです。

最初の反例は離散一様分布であるに点左のパネルでこれらの7つの点を赤い円としてプロットすることによってここに示されます:F(xi,yi)(1,8.1),(2,9.1),(3,10.1),(4,11.1),(5,12.1),(6,13.1),(7,0.1),

図

Box-Cox変換のファミリーを検討する

hp(y)=yp1pC+1

定数ここでの値にするために選択されるのものに匹敵する(例えば、設定することにより、なるようにの幾何平均の力)と作製するために添加される身元。これらはすべて単調です。例を示しますChp(yi)yCp1yi1h1p=2右側のパネルで。共分散への影響は中央のパネルにプロットされています。これは、負の共分散(左下の外れ点による)から正の共分散への変化を示しています(変換により、点の外れが少し少なくなり、他のすべてのデータの他の強い正の共分散に対する負の影響が減少するため)。 。

特に、完全に明確にするために、

h(yi,2)=(7.0,8.6,10.4,12.4,14.5,16.8,0.908),

与えと 点は、左側のパネルに中空の青い三角形としてプロットされます。Cov(xi,yi)=7/3<0Cov(xi,h(yi,2))=0.39217>0.(xi,h(yi,2))

2番目の反例は、最初の例の継続バージョンです。してみましょう上でサポートされている任意の連続分布してい実数定義(U,V)[1,1]×[1,1].ϵ

(Xϵ,Yϵ)=(X,Y)+ϵ(U,V).

提供連続分布を持っている(参照が連続連続確率変数と混合確率変数の和であります?)。提供のサポートは最初の象限(両方の変数で厳密に正)にあり、Box-Cox変換が適用できることを意味し の共分散がの連続関数であることを確認して計算を実行できますエルゴ、十分に小さい、最初の反例は次の共分散を示します。ϵ0, (Xϵ,Yϵ)|ϵ|<1/10,(Xϵ,Yϵ)Yϵ.(Xϵ,Yϵ)ϵ. ϵ,(Xϵ,Yϵ)は負で、は正のQEDです。(Xϵ,h2(Yϵ))


1

私は彼らが反対の兆候を持つことができると言います。

次のシミュレーションを見てみましょう。

# Set a random seed so that everyone can get the same results
#     
set.seed(1)

# Import the library that simulates correlated bivariate data
#  
library(MASS) 

# Simulate bivariate normal data with standard normal 
# marginals and 0.9 Pearson correlation. To those 99 
# observations, add a gigantic outlier completely out 
# of the mainstream of the other 99 points. This is why 
# we end up with negative covariance.
#  
X <- rbind(mvrnorm(99,c(0,0),matrix(c(1,0.9,0.9,1),2,2)),c(-10000,10000)) 

# Plot the data
#  
plot(X[,1],X[,2]) 

# Calculate the covariance of the sample. When we regard 
# the simulated data as a discrete population, this is 
# the population covariance.
#  
cov(X[,1],X[,2]) # comes out negative, as the plot suggests

# Calculate the sample Spearman correlation, which is 
# positive, since 99% of the data follow an upward trend.
#  
cor(X[,1],X[,2],method='spearman') # comes out positive

ただし、シミュレーションされたデータを離散母集団として取得できます。

# Apply the empirical CDF function to perform the probability
# integral transform. If we regard the sampled data as a
# discrete population, we have tricked R into calculating the
# population Spearman correlation.
#  
cov(ecdf(X[,1])(X[,1]),ecdf(X[,2])(X[,2])) # Positive, same value as before

"ecdf"(経験的CDF)は、Rをだましてこの離散変数の母集団CDFを作成するので、母集団レベルで作業していると思います。


お返事ありがとうございます。ここでのデータ生成メカニズムとは何かについて、コードを解読していただけますか?
アレコスパパドプロス

コードにコメントを追加しました。うまくいけば、それが役立ちます。
Dave、

ありがとうございました。実際、それらは助けになります。相関する2変量正規分布である2つの確率変数は常に象限に依存するため、見つけたものが純粋にサンプルの問題であることを明確にするからです。したがって、この母集団の場合、母集団の共分散は母集団のSpearmanのrhoと常に同じ符号を持ちます。
Alecos Papadopoulos

人口をそれらの99点の離散的な一様分布として捉えると、人口の兆候が異なる例ではないのでしょうか。
デイブ

私が正しく理解していれば、データ生成メカニズムは2変量正規です、そうですか?
Alecos Papadopoulos

1

このスレッドの価値を高めるために、四分円依存性が
a)共分散がスピアマンのローと同じ符号を持つ場合、両方がゼロでない場合
b)共分散の符号は、それが残っている場合、厳密に増加する単調変換の影響を受けませんゼロ以外。

密度のある連続分布で表示しますが、これは重要な条件ではありません。

LET、 2つのジョイント分布関数と確率変数である、周辺分布関数と限界密度/確率質量関数。次に、XYFXY(x,y)FX(x),FY(y)fX(x),fY(y)

{Positive Quadrant Dependence iffFXY(x,y)FX(x)FY(y)0(x,y)Negative Quadrant Dependence iff FXY(x,y)FX(x)FY(y)0(x,y)

重要な条件は「for all」修飾子であることに注意してください。(x,y)

今、「ヘッフディングの美しい共分散式」は

Cov(X,Y)=SXY[FXY(x,y)FX(x)FY(y)]dxdy

ここで、はジョイントサポートです。一方、スピアマンのローは次のように表すことができます。SXY

ρS(X,Y)=12SXYfx(x)fy(y)[FXY(x,y)FX(x)FY(y)]dxdy

ことを覚えている人は、密度の存在が重要ではない理由を理解しています。それは明確にされている:圧縮、我々が持っていますdF(x)=f(x)dx[FXY(x,y)FX(x)FY(y)]QD(x,y)

Cov(X,Y)=SXYQD(x,y)dxdy

ρS(X,Y)=12SXYfx(x)fy(y)QD(x,y)dxdy

共分散は、「重み付けされていない」ジョイントサポート上の量を「合計」し、スピアマンのローは、密度の積(常に非-負)。象限依存が成立する場合、両方の測定で、負でないもののみ、または正でないもののみを「合計」します。 QD(x,y)fx(x)fy(y)

そう

a)の下では、両方がゼロでない場合、共分散はスピアマンのRhoのと同じ符号を持つことになります。QD

sign{Cov(X,Y)}=sign{ρs(X,Y)}

また、の厳密に増加単調変換検討、。スピアマンズのローはそのような変換の下で不変なので、Yh(Y)

ρS(X,Y)=ρS(X,h(Y))

Quadrant Dependenceの下では、両方の測定値がゼロでない場合にも、

sign{Cov(X,h(Y))}=sign{ρs(X,h(Y))}

次に得られる等号のリンク

sign{Cov(X,Y)}=sign{Cov(X,h(Y))}

他の回答で暗示されているように、ここの直観に反する結果は、象限依存を削除できないことです。それが成立しない場合、1つの変数の厳密に増加する変換が共分散の符号を維持するという保証はありません。したがって、のような「かわいい論理」非公式の引数「以来、ときそれほど増加する傾向があるん、それがあればということになる正にcovaries、それはとも積極covaryます、」間違っている- 「それはが成り立つ 場合のみ」Yh(Y)XYh(Y)QD

正式には、に設定し、それを観察することでこれを確認できます。Z=h(Y),h(y)>0

FZ(z)=FY(h1(z)),FXZ(x,z)=FXY(x,h1(z)),dz=h(y)dy
です。次に、

Cov(X,Z)=SXZ[FXZ(x,z)FX(x)FZ(z)]dxdz

=SXZ[FXY(x,h1(z))FX(x)FY(h1(z))]dxdz
および次に、変数をからに変更して、ZY

Cov(X,Z)=SX,Yh(y)QD(x,y)dxdy

が成立しない場合は、一部のが正で、一部が負になることを意味します。次に、だけ言っても、は保証できません。これは、ここで、以前の被積分関数に。正の値は定数ではないため、正の値よりも負の値の偏って重み付けされ、全体として負の値になります。したがって、少なくともこのパスから、象限依存のプロパティは不可欠です。QDQD(x,y)Cov(X,Y)>0Cov(X,Z)>0h(y)QD(x,y)

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.