共同分布が多変量正規分布である場合、ピアソンのρは関連性の網羅的な尺度にすぎないのはなぜですか?


16

この主張はこの質問への一番の回答で提起されました。「なぜ」という質問は、新しいスレッドを保証するほど十分に異なると思います。グーグルの「関連性の徹底的な尺度」はヒットを生み出さず、そのフレーズが何を意味するのか分かりません。

回答:


15

多変量分布の「関連性の尺度」を理解して、値が任意に再スケーリングおよび再センタリングされたときに同じままであるすべてのプロパティで構成されることをお勧めします。そうすることで、平均と分散を理論的に許容される値に変更できます(分散は正でなければなりません。平均は何でもかまいません)。

相関係数(「ピアソンの」)は、多変量正規分布を完全に決定します。これを確認する1つの方法は、密度関数や特性関数の公式など、公式の定義を見ることです。それらには平均、分散、共分散のみが含まれますが、分散を知っていれば、共分散と相関関係を相互に推測できます。ρ

この特性を享受する分布のファミリは、多変量正規ファミリだけではありません。たとえば、多変量t分布(自由度がを超える場合)は、明確に定義された相関行列を持ち、最初の2つのモーメントによっても完全に決定されます。2


ここで適用している定義によれば、共分散は関連性の尺度ではないでしょうか?分散が拡大するにつれて拡大する傾向があるためです。
user1205901-モニカの復元

2
それは正しいです。共分散は明らかに関連性の尺度に関連していますが、他の要因の影響も受けるため、共分散自体ではありません。
whuber

19

ピアソンの相関関係が完全に見えないように、変数を関連付けることができます。

多変量正規分布では、可能な唯一の関連付けがによってインデックス付けされるという意味で、ピアソン相関は「網羅的」です。しかし、他の分布(通常のマージンがあるものも含む)の場合、相関のない関連付けが存在する可能性があります。以下に、3つの通常のランダム変量(x、yおよびx、z)のプロットをいくつか示します。それらは高度に関連付けられています(変量の値を教えたら、他の2つを教え、を教えたら伝えることができます)が、それらはすべて無相関です。ρバツyz

ここに画像の説明を入力してください

関連付けられているが相関関係のない変量の別の例を次に示します。

ここに画像の説明を入力してください

(ここではデータで説明していますが、分布については根本的なポイントが出されています。)

変量が相関している場合でも、ピアソン相関は一般にその方法を教えません-同じピアソン相関を持つ非常に異なる形式の関連を取得できます(ただし、変量が多変量正規である場合、すぐに伝えます)標準化された変量がどのように関連しているかを正確に言うことができる相関)。

そのため、ピアソン相関は、変量が関連付けられている方法を「使い尽くす」ことはありません。それらは、関連付けられているが無相関である場合もあれば、相関はあるがまったく異なる方法で関連付けられている場合もあります。[相関によって完全に捕捉されない関連付けが発生する可能性のあるさまざまな方法は非常に大きいですが、それらのいずれかが発生した場合、多変量正規分布を持つことはできません。ただし、私の議論では、タイトルの引用が示唆しているように見えても、これが(を知っていることが関連の可能性を定義している)多変量正規を特徴づけることを意味するものではありません。ρ

(多変量関連に対処する一般的な方法は、コピュラを使用することです。コピュラに関連するサイトには多数の質問があります。そのうちのいくつかは役に立つかもしれません)


このような分布の現実世界のデータはありますか?

@what正規分布から引き出された実世界のデータもありますか?私はそれを疑っています(図では私の限界がすべて正常だったので)すぐに答えは「いいえ」になります。例のポイントは、ランダム変数間の関連付けが時々想定されるほど単純ではない理由を明確に示すことです(ピアソン相関を計算して関連付けを測定する頻度はどれくらいですか?通常は異なります。ピアソンの相関関係が、実際に起こっていることをキャプチャしない非常に現実的な例
Glen_b-モニカを

ディストリビューションについては少し話しましょう。ドットクラウドから相関を計算する場合、基になる「幾何学的形状」(線形、双曲線、対数、サインなど)の理想的な相関を仮定します。今、私が見たすべての理想的な形状は、連続(ブレークなし)で実際のデータから抽象化され、少なくとも1つの軸に沿って常に増加しています(たとえば、円形ではありません)。データに関する私の知識は限られているため、実際には相関が非連続的または循環的である実世界のデータがあるのだろうかと考えていました。

たとえば、プロットすると2つのドットクラウドのように見えるデータがあります。このデータの相関関係を盲目的に計算すると、1つを見つけるかもしれませんが、プロットから、未知の交絡変数が欠落していることが明確に示されます。データ。私の教授があなたの「x」または「y」形の例を見ると、彼は私がデータの2つの異なるサブセットを混同していると私に言うでしょう。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.