ゼロ相関が必ずしも独立性を意味するわけではない理由


41

2つの変数に0の相関がある場合、なぜそれらは必ずしも独立していないのですか?特別な状況下でゼロ相関変数は独立していますか?可能であれば、高度に技術的な説明ではなく、直感的な説明を探しています。


10
相関は、線形依存性(関連付け)の尺度です。2つのランダム変数が無相関であるが非線形に依存する可能性があります。
マークL.ストーン


6
変数が多変量正規である場合、ゼロ相関は独立性を意味します。これは各変数が正常であることとは異なります- ゼロ相関だが従属する正常変数の散布図についてはこちらをご覧ください(各変数は個別に正常です)
-Glen_b

1
相関(非修飾)には、単調な依存が問題となるランク相関などが含まれます。
ニックコックス

1
見通しについては、独立性の尺度としてウィキペディアの「距離相関」を参照することをお勧めします。
ttnphns

回答:


41

相関関係は、与えられた2つの変数間の線形関連性を測定するものであり、他の形式の関連性を検出する義務はありません。

そのため、これらの2つの変数は他のいくつかの非線形方法で関連付けられている可能性があり、相関は独立したケースと区別できません。

非常に教訓的、人工の非現実的な例として、一つは考えることができ ようにのために、および。それらは関連付けられているだけでなく、一方が他方の機能であることに注意してください。それにもかかわらず、それらの相関は相関が検出できる関連に直交しているため、それらの相関は0です。XP(X=x)=1/3x=1,0,1Y=X2


1
ランダムな分散が無相関であるが依存しているという証拠を探していましたが、私の質問に対する直接的な答えは直観的な事実を明らかにしませんでした。一方、あなたの答えは、私にそれについて考えるための非常に良い角度を与えてくれます、ありがとう!
スタッカッシュ

1
@stucash私の喜び!それは私が学んだ古い反例でした
マルセロベンチュラ

23

「相関」という言葉は、仮定と意味が大きく異なる可能性があるという単純な理由から、一般的な厳密性の欠如があります。最も単純で、最もゆるく、最も一般的な使用法は、ランダム変数の静的ペアの間に曖昧な関連、関係、または独立性の欠如があることです。

ここで、参照されるデフォルトのメトリックは通常、ピアソン相関です。これは、2つの連続的に分布する変数間のペアワイズ線形関連の標準化された尺度です。ピアソンの最も一般的な誤用 1つは、割合として報告することです。それは間違いなく割合ではありません。ピアソン相関、R、-1.0と+1.0 0手段なしとの間の範囲で線形会合。ピアソン相関をデフォルトとして使用することであまり広く認識されていない他の問題は、入力として間隔スケール変量を必要とする線形性の非常に厳密で非ロバストな尺度であるということです(Paul Embrechtsの優れた論文を参照してください)リスク管理の相関関係と依存関係:プロパティと落とし穴はこちら:https : //people.math.ethz.ch/~embrecht/ftp/pitfalls.pdf)。

エンブレヒトは、これらの関係の基礎となる構造と幾何学的形状の仮定から始まる依存性について多くの誤った仮定があることに注意します。

これらの誤fallは、楕円世界の依存特性が非楕円世界でも成り立つという単純な仮定から生じます。

Embrechts は、財務およびリスク管理で使用される依存性メトリックのはるかに広いクラスとしてコピュラを指しますが、ピアソン相関はその1つにすぎません。

コロンビアの統計部門は、依存構造のより深い理解の開発に焦点を当てて2013-2014年度を費やしました。たとえば、線形、非線形、単調、ランク、パラメトリック、ノンパラメトリック、潜在的に非常に複雑でスケーリングに大きな違いがあります。この年は3日間のワークショップと会議で終わり、この分野のトップレベルの貢献者のほとんどが集まりました(http://datascience.columbia.edu/workshop-and-conference-nonparametric-measures-dependence-apr-28-may- 2)。

これらの貢献者はReshefブラザーズ、2011年の今の有名な含ま科学論文大規模データで検出新規アソシエーションセットを http://www.uvm.edu/~cdanfort/csc-reading-group/reshef-correlation-science-2011.pdfこと広く批判されています(コロンビアイベントと同時に公開されている概要については、AndrewGelman.comを参照してください:http ://andrewgelman.com/2014/03/14/maximal-information-coefficient )。Reshefsは、プレゼンテーション(Columbia会議のWebサイトで入手可能)でこれらすべての批判に対処し、さらに非常に効率的なMICアルゴリズムに対処しました。

NSFで現在DCにいるGabor Szekelyを含む、他の多くの主要な統計学者がこのイベントで発表しました。セーケリーは、距離部分距離の相関を開発しました。テンプル大学のディープ・ムホパダーイ氏が、ユージン・フランゼンhttp://www.fox.temple.edu/mcm_people/subhadeep-mukhopadhyay/で行った研究に基づいて、データ科学の統一アルゴリズムのフレームワークである統合統計アルゴリズムを発表しました。そして、他の多くの。私にとって興味深いテーマの1つは、Revolve Kernel Hilbert Space(RKHS)とカイ2乗の幅広い活用と使用でした。この会議で依存構造へのモーダルアプローチがあった場合、それはRKHSでした。

典型的なイントロ統計の教科書は、通常、循環または放物線の関係の視覚化の同じセットの提示に依存する、依存性の扱いにおいておざなりです。より洗練されたテキストは、類似の単純な統計的特性を持ちながら関係が大きく異なる4つの異なるデータセットの視覚化であるAnscombeのQuartetを掘り下げますhttps : //en.wikipedia.org/wiki/Anscombe%27s_quartet

このワークショップの素晴らしい点の1つは、標準的な機能的な処理をはるかに超えた、視覚化および提示された多数の依存構造と関係でした。たとえば、Reshefsには、考えられる非線形性のサンプリングを表す多数のサムネイルグラフィックスがありました。Deep Mukhopadhayには、ヒマラヤの衛星ビューのように見える非常に複雑な関係の見事なビジュアルがありました。統計とデータサイエンスの教科書の著者は注意する必要があります。

これらの非常に複雑なペアワイズ依存構造の開発と可視化を伴うコロンビア会議から出て、私はこれらの非線形性と複雑性を捉える多変量統計モデルの能力に疑問を投げかけられました。


2
私はQuoraの上で関連の施策のこの優れた網羅議論に出くわした: quora.com/...
マイク・ハンター

6

「相関」の正確な定義に依存しますが、縮退したケースを作成するのはそれほど難しくありません。「独立」とは、「線形相関」と同じくらい「予測力がまったくない」などのことです。

たとえば、線形相関は、のドメインが場合、への依存を示しません。y=sin(2000x)x[0,1)


3

基本的に、YのXへの依存は、Yの値の分布がXの値の何らかの方法に依存することを意味します。 Y.

たとえば、Xを0または1にします。X= 0の場合、Yを0にします。X= 1の場合、Yを-1、0または1(同じ確率)にします。XとYは無相関です。平均して、YはXに依存しません。なぜなら、Xの値が何であれ、Yの平均は0だからです。しかし、明らかにYの値の分布はXの値に依存します。この場合、たとえば、Yの分散はX = 0のとき0、X = 1のとき> 0であるため、少なくとも分散への依存性があります。つまり、依存性があります。

したがって、線形相関は平均に対する依存のタイプ(線形依存)のみを示し、それは依存の特別な場合にすぎません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.