共分散の定義に関する直感


11

私は2つの確率変数の共分散をよりよく理解しようとし、それを最初に考えた人が統計で日常的に使用されている定義に到達した方法を理解しようとしました。私はそれをよりよく理解するためにウィキペディアに行きました。記事から、適切な候補メジャーまたは数量には次のプロパティが必要です。CovバツY

  1. 2つの確率変数が類似している場合(つまり、一方が増加し、もう一方が増加し、一方が減少すると、もう一方も増加する)、正の符号が表示されます。
  2. また、2つの確率変数が逆に類似している場合(つまり、1つが増加すると、もう1つの確率変数が減少する傾向がある場合)には、負の符号を付けます。
  3. 最後に、2つの変数が互いに独立している場合(つまり、それらが互いに共変動しない場合)は、この共分散量をゼロ(またはおそらく非常に小さい)にする必要があります。

上記のプロパティから、を定義します。私の最初の質問は、なぜがこれらのプロパティを満足するのかが完全に明らかではないということです。私たちが持っている特性から、「導関数」のような方程式が理想的な候補になることを期待していました。たとえば、「Xの変化が正の場合、Yの変化も正でなければならない」などのようなものです。また、なぜ平均との違いを「正しい」こととするのですか?C o v X Y = E [ X - E [ X ] Y - E [ Y ] ]CovバツYCovバツY=E[バツE[バツ]YE[Y]]

より接線的ですが、それでも興味深い質問ですが、それらの特性を満たし、さらに意味があり、有用であった別の定義がありますか?なぜこの定義を最初から使用しているのか誰も疑問に思わないので、私はこれを尋ねています数学的好奇心と思考)。受け入れられた定義は、私たちが持つことができる「最良の」定義ですか?


これらは、受け入れられた定義が理にかなっている理由についての私の考えです(それは直感的な議論になるだけです):

してみましょう(すなわち、それはいくつかの時点でいくつかの他の値にいくつかの値から変更)、変数Xのためのいくつかの違いがあります。同様に、を定義します。ΔΔバツΔY

ある時点で、それらが関連しているかどうかを計算することができます:

sgΔバツΔY

これは少しいいです!ある時点では、それは私たちが望む特性を満たしています。両方が一緒に増加する場合、ほとんどの場合、上記の量は正でなければなりません(同様に、それらが反対に類似している場合は、の符号が反対になるため、負になります)。Delta

しかし、それは時間内に1つのインスタンスに必要な量を与えるだけであり、それらはrvであるため、1つの観測のみに基づいて2つの変数の関係をベースにすることを決定した場合、オーバーフィットする可能性があります。次に、これの期待を利用して、差異の「平均」積を確認してください。

sgE[ΔバツΔY]

上記で定義された平均的な関係がどのようなものであるかを平均して把握する必要があります!しかし、この説明の唯一の問題は、この違いを何から測定するのでしょうか。これは、平均からのこの差を測定することで対処されるようです(これは、何らかの理由で正しいことです)。

私が定義で持っている主な問題は、平均からの差を取ることだと思います。私にはまだそれを正当化することはできません。


記号の解釈は、より複雑なトピックのように思われるため、別の質問に任せることができます。


2
まさに出発点は、外積の概念または直感かもしれません(共分散は、その拡張にすぎません)。同じ長さの2つの系列XおよびYがあり、合計された外積をSum(Xi * Yi)として定義する場合、両方の系列が同じ順序で並べ替えられている場合は最大化され、一方の場合は最小化されますシリーズは昇順でソートされ、その他は降順でソートされました。
ttnphns 2014年

平均との違いは根本的な問題ではありません。重要なのは大きさであり、起源との違いです。いくつかの理由で、起源を平均に入れることは自然で便利です。
ttnphns 2014年

@ttnphnsは、それらが共変する場合、共分散は「最大化」されるべきであり、反対に共変する場合、それは可能な限り負であるべきだと言っていますか?(つまり、最小化されている)なぜそれがクロス積の期待値として定義されていないのですか?
チャーリーパーカー

共分散は、固有の起源がない変数にとって自然です。次に、平均値を起点として計算します(平均値には、関連のテーマに関連しない素晴らしいプロパティがあるため、通常は選択されます)。起源が固有で意味のあるものである場合は、それに固執するのが妥当です。「共分散」(共爆発)は対称的ではありませんが、誰が気にするのでしょうか。
ttnphns 2014年

1
この答えは、共分散に関する非常に優れた直感を提供します。
Glen_b-モニカを2014

回答:


10

数字の空のスタックから始めることを想像してみてください。次に、それらの結合分布からペア描画を開始します。次の4つのいずれかが起こります。バツY

  1. XとYの両方が大きい場合、それぞれの平均はペアが類似していると言うため、正の数をスタックに入れます。
  2. XとYの両方が小さい場合、それぞれの平均はペアが類似していると見なし、正の数をスタックに入れます。
  3. Xがその平均よりも大きく、Yがその平均よりも小さい場合、ペアは類似しておらず、負の数をスタックに入れます。
  4. Xがその平均よりも小さく、Yがその平均よりも大きい場合、ペアは異なるものであり、負の数をスタックに入れます。

次に、XとYの(非)類似性の全体的な測定値を取得するために、スタック上の数値のすべての値を合計します。正の合計は、変数が同時に同じ方向に移動することを示唆しています。負の合計は、変数が反対方向に頻繁に移動することを示唆しています。合計がゼロの場合は、1つの変数の方向を知っていても、もう1つの変数の方向についてはあまりわかりません。

2つの負でない変数は類似していると判断されるため(たとえば、M42の次の自動車事故のサイズとパディントン駅で明日購入したチケットの数)。

共分散式は、このプロセスを形式化したものです。

Cov(X,Y)=E[(XE[X])(YE[Y])]

モンテカルロシミュレーションではなく確率分布を使用し、スタックに配置する数値のサイズを指定します。


うわー、これは非常に良い答えです。最後にもう1つ、なぜそれ平均との違いである必要があるのかについての正当化の詳細を追加してもよろしいですか?他の価値がないのはなぜですか?なぜそれが理にかなっているのですか?それが、この定義を完全に内部化することにこだわっている主な理由だと思います。ありがとうございます!
チャーリーパーカー

ありがとう。2つの異なる国に2つの大型トラックがあるとします。現在、大型トラックは大きな荷物を運ぶ傾向があります。各トラックが大きな荷物を運ぶたびに正の数をスタックに追加すると、2つのトラックの動作は非常に似ていると言わざるを得なくなります。しかし、実際には、1つのトラックが運ぶ荷物のサイズは、特定の時点で他のトラックが運ぶ荷物のサイズとは関係ありません。彼らはたまたま両方とも大きなトラックである。したがって、類似性の測定は役に立たないでしょう。そのため、「平均よりも大きい」ことを考える必要があります。
2014年

申し訳ありませんが少し遅れましたが、このトピックを確認することにしましたが、なぜそれが平均値との違いなのかについて疑問があります。各確率変数XとYは異なるスケールに由来する可能性があるため、それぞれの平均との違いは重要ですか?すなわち、「大きな」とは何かを理解するために、それらがどのような基本的なスケールであるかによって異なります。それで、このスケールの問題を克服するために、それをそれぞれの手段と比較しますか?
チャーリーパーカー

1

ここに、方程式を使わずに直観的に見る方法があります。

  1. 高次元への分散の一般化。動機はおそらくデータがどのように振る舞うかを説明しようとすることから来ました。最初の注文には、その場所-平均があります。2次では、分散、つまり共分散があります。

    私が定義で抱えている主な問題は、平均からの差を取ることだと思います。私にはまだそれを正当化することはできません。

    散布は、分布の中心を基準にして評価されます。分散の最も基本的な定義は、「平均からの平均偏差」です。したがって、共分散の場合も平均を差し引く必要があります。

  2. 頭に浮かぶもう1つの主な動機は、確率変数間の距離を測定する方法を定義する必要があることです。マハラノビス距離と共分散は密接に関連しています:ガウス分布と、分布平均と等しいユークリッド距離を持つ他の2つのサンプルが与えられます。ガウス分布から抽出されなかった外れ値である可能性が高いサンプルはどれかと尋ねると、ユークリッド距離はそうではありません。マハラノビス距離には、ユークリッド距離との顕著な違いが1つあります。これは、分布の分散(共分散)を考慮に入れています。これにより、確率変数までの距離を一般化できます。


1
  1. 最後に、2つの変数が互いに独立している場合(つまり、それらが互いに共変動しない場合)は、この共分散量をゼロ(またはおそらく非常に小さい)にする必要があります。

(12)バツYE[バツY]E[バツY]=14バツ^=1000バツY^=1000YE[バツ^Y^]=250000バツY=E[バツE[バツ]YE[Y]]

  1. また、2つの確率変数が逆に類似している場合(つまり、1つが増加すると、もう1つの確率変数が減少する傾向がある場合)には、負の符号を付けます。

バツY=1バツE[バツY]=0バツY=E[バツE[バツ]YE[Y]]

  1. 2つの確率変数が類似している場合(つまり、一方が増加し、もう一方が増加する場合、および一方が減少する場合、もう一方も同様は、正の符号を持つ必要があります。

バツY=バツ1E[バツY]バツY=E[バツE[バツ]YE[Y]] あなたが望むように正の値を与えます。

バツ=Y


1

私は同じ質問について疑問に思っていました、そして推測によって与えられた直感は私を助けました。直観を視覚化するために、xとyの2つのランダムな法線ベクトルを取り、散布図をプロットし、各点をそれぞれの平均からの偏差の積で色分けしました(正の値は青、負の値は赤)。

プロットから明らかなように、積は右上および左下の象限で最も正であり、右下および左上象限で最も負です。青の点が赤の点を相殺するため、積を合計した結果は0になります。

しかし、赤い点を削除した場合、残りのデータは互いに正の関係を示していることがわかります。これは、積の正の合計(つまり、青い点の合計)によって検証されます。

ここに画像の説明を入力してください


0

確率変数のベクトル空間では、2つの確率変数xとyの間の距離の2乗をE {(xy)^ 2}で定義するのが妥当です。この距離の内積の定義または確率変数の関係はEになります。 {xy}は、正規化の一種である-E {x}および-E {y}を除いて、共分散の定義に非常に似ています。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.