2つの変数の合計は、個々の変数よりも多くの分散をどのように説明できますか?


13

2つの予測子が負の相関関係にある場合、合計と3番目の変数との相関関係について、困惑する結果が得られます。これらの困惑する結果の原因は何ですか?

例1:2つの変数の合計と3番目の変数の相関

以下に示すギルドフォードの1965年のテキストの427ページの式16.23を検討してください。

複雑な結果:両方の変数が.2を3番目の変数と相関させ、-。7を相互に相関させる場合、式の値は.52になります。2つの変数がそれぞれ.2だけを3番目の変数と相関させる場合、合計と3番目の変数との相関関係を.52にするにはどうすればよいですか?

例2:2つの変数と3番目の変数の間の多重相関とは何ですか?

ギルフォードの1965年のテキストの404ページの式16.1を検討してください(以下を参照)。

困惑する発見:同じ状況。両方の変数が.2を3番目の変数と相関させ、-。7を互いに相関させる場合、式の値は.52になります。2つの変数がそれぞれ.2だけを3番目の変数と相関させる場合、合計と3番目の変数との相関関係を.52にするにはどうすればよいですか?

ちょっとしたモンテカルロシミュレーションを試したところ、ギルフォードの公式の結果が確認できました。

しかし、2つの予測子がそれぞれ3番目の変数の分散の4%を予測する場合、それらの合計は分散の1/4をどのように予測できますか?

2つの変数の合計と3番目の変数との相関 2つの変数と3番目の変数の多重相関

出典:心理学と教育の基礎統計、第4版、1965年。

明確化

私が対処している状況には、現在の能力の測定に基づいて、個々の人々の将来のパフォーマンスを予測することが含まれます。

以下の2つのベン図は、状況に対する私の理解を示しており、私の困惑を明確にするためのものです。

このベン図(図1)は、x1とCの間のゼロ次r = .2を反映しています。私の分野では、基準を適度に予測するこのような予測変数が多数あります。

図1

このベン図(図2)は、それぞれr = .2でCを予測する2つの予測子x1とx2と、負の相関がある2つの予測子r =-。7を反映しています。

図2

Cの分散の25%を一緒に予測する2つのr = .2予測子間の関係を想像するのに途方に暮れています。

x1、x2、およびCの関係を理解するのに役立ちます。

(私の質問に対する回答で示唆されたように)x2がx1のサプレッサー変数として機能する場合、2番目のベン図のどの領域が抑制されますか?

具体的な例が役立つ場合、x1とx2は2人の人間の能力であり、Cは4年後の4年制大学GPAであると考えることができます。

サプレッサー変数が、2つのr = .2ゼロ次rの8%の説明された分散を引き起こし、Cの分散の25%を拡大して説明する方法を想像するのに問題があります。具体的な例は非常に役立つ答えです。


統計には、独立変数のセットの合計の分散がそれらの分散の合計に等しいという古い経験則があります。
マイクハンター

@DJohnson。コメントは質問にどのように関連していますか?
ジョエルW.

申し訳ありませんが、質問がわかりません。私にとって、それがどのように関係するかは明らかです。その上、それは報奨金の資格がなく、より詳細な説明を必要としないコメントです。
マイクハンター

1
@DJohnson。コメントは質問にどのように関連していますか?私にとって、それがどのように関係しているかは明らかではありません。
ジョエルW.

2
Nビューの意味に関するあなたの質問は、Meta CVサイトでより良い反応を得るかもしれません。
mdewey

回答:


3

これは、2つの予測子の両方に大きな迷惑要因が含まれるが、符号が反対の場合に発生する可能性があるため、それらを加算すると迷惑がキャンセルされ、3番目の変数により近いものが得られます。

さらに極端な例で説明しましょう。仮定する独立した標準正規確率変数です。さあX,YN(0,1)

A=X

B=X+0.00001Y

言うあなたの3番目の変数であることを起こる、A Bは、あなたの2つの予測因子である、そしてXは、あなたがについて何も知らない潜在変数です。AとYの相関は0で、BとYの相関は非常に小さく、0.00001に近い*。しかし、A + BYの相関は1です。YA,BXA+BY

* Bの標準偏差が1を少し超えると、わずかな修正が行われます。


この種の状況は社会科学で発生しますか?
ジョエルW.

1
社会科学の専門用語では、これは基本的に、特定の方法で弱い効果を混乱させる強い効果です。私は社会科学の専門家ではありませんが、その例を見つけるのは難しいとは思いません。
ポール

物理科学以外の例はありますか?
ジョエルW.

説明する関係をベン図に表示できますか?
ジョエルW.

個人的にはここではベン図は役に立ちませんが、必要に応じてBを長方形として描画し、それを2つのサブ長方形、大きな太いものAと小さな細いYに分割します。大部分のAを相殺し、ごく一部のY.残して
ポール

10

3つの変数を他の無相関変数の線形結合であると考えると便利です。 洞察を改善するために、幾何学的にそれらを描写し、代数的にそれらを操作し、必要に応じて統計的な説明を提供します。

次に、3つの無相関のゼロ平均、単位分散変数Y、およびZを考えます。これらから次を構築します。XYZ

U=X,V=(7X+51Y)/10;W=(3X+17Y+55Z)/75.

幾何学的な説明

次の図は、これらの変数間の関係を理解するために必要なすべてのものです。

Figure

この擬似3Dダイアグラムは、X Y Z座標系のVW、およびU + Vを示しています。ベクトル間の角度は、それらの相関を反映します(相関係数は角度の余弦です)。UVの間の大きな負の相関は、それらの間の鈍角に反映されます。UおよびVWの小さな正の相関関係は、垂直に近いことに反映されています。ただし、UVの合計はWの直下になりますUVWU+VX,Y,ZUVUVWUVW、鋭角(約45度)を作る:予想外に高い正の相関があります。


代数計算

より厳密にしたい人のために、グラフィックのジオメトリをバックアップする代数を以下に示します。

それらの平方根はすべて、V、およびWにも単位分散を持たせるためにあります。これにより、相関は共分散に等しくなるため、相関を簡単に計算できます。だからUVW

Cor(U,V)=Cov(U,V)=E(UV)=E(51XY7X2)/10=7/10=0.7

なぜならYが無相関です。同様に、XY

Cor(U,W)=3/75=1/5=0.2

そして

Cor(V,W)=(73+1517)/(1075)=1/5=0.2.

最後に、

Cor(U+V,W)=Cov(U+V,W)Var(U+V)Var(W)=1/5+1/5Var(U)+Var(V)+2Cov(U,V)=2/51+12(7/10)=2/53/50.5164.

したがって、これらの3つの変数には、必要な相関関係があります。


統計的説明

これで、すべてが正常に機能する理由を確認できます。

  • 及び Vは、の強い負の相関有する - 7 / 10ので、 Vが負に比例する Uプラスの小さな複数の形で少し「ノイズ」 YUV7/10VUY

  • および Wは弱い正の相関有する 1 / 5ので、 Wが小さな複数含む Uプラスの倍数の形で多くのノイズ Y及び ZをUW1/5WUYZ

  • 及び Wは弱い正の相関有する 1 / 5ので、 W(乗じた場合VW1/5Wは、相関関係を変更しません)は、次の3つのことの合計です。75

    • 、これはVと正の相関があります。17YV
    • Vとの負の相関により全体的な相関が減少します3XV
    • そして、倍数は多くのノイズをもたらします。Z
  • それでも、Wとかなり正の相関があります。これは、Zを含まないWの部分の倍数であるためです。U+V=(3X+51Y)/10=3/100(3X+17Y)WWZ


これをベン図で表示する方法はありますか?数学にも関わらず、合計に入る2つの変数のそれぞれが予測するが、その3番目の変数の分散の4%の場合、3番目の変数の分散の25 +%を説明する2つの変数の合計の論理は表示されません。2つの変数を追加するだけで、8%の説明付き分散を25%の説明付き分散にすることができますか?
ジョエルW.

また、この奇妙な現象の実用的なアプリケーションはありますか?
ジョエルW.

ベン図が説明された分散を表すのに不適切な場合、それが不適切である理由を教えてください。
ジョエルW.

@JoelW。:ここでの素敵な答えはベン図がアップ(答えの端に向かって)この現象を説明するのタスクにない理由に触れstats.stackexchange.com/a/73876/5829
ジェイクウェストフォール

ジョエル、コーエンズは、分散を分析するために「バランタイン」と呼ばれるベンのような図を使用しました。たとえばww2.amstat.org / publications / jse / v10n1 / kennedy.htmlを参照してください。実用的なアプリケーションに関しては、逆の質問をする必要があります。どのような分散と分散分解のアプリケーションが実用的でないのでしょうか?
whuber

5

別の簡単な例:

  • してみましょうzN(0,1)
  • ましょうx1N(0,1)
  • ましょう(したがって、Z = X 1 + X 2x2=zx1z=x1+x2

次に:

  • Corr(z,x1)=0
  • Corr(z,x2).7
  • Corr(z,x1+x2)=1

幾何学的に、起こっていることはWHuberのグラフィックのようです。概念的には、次のようになります。 enter image description here

(数学のキャリアのある時点で、ランダム変数がベクトルであり、内積であるため、相関は2つのランダム変数間の角度のコサインであることがわかります。)E[XY]

zは相関関係がないため、直交しています。してみましょう θは、 2つのベクトル間の角度を表します。x1zθ

  • Corr(z,x1)=cosθzx1=0θz,x1=π2
  • Corr(z,x2)=cosθzx2.7θz,x2=π4
  • Corr(z,x1+x2)=cosθz,x1+x2=1θz,x1+x2=0

コメントFloundererの答えをでの議論に接続するには、と思う、いくつかの信号として- X 1、いくつかのノイズ、ノイズの多い信号としてのx 2信号の和としてZとノイズ- X 1。追加のx 1に対してX 2はノイズ減算と等価である- X 1は、ノイズの多い信号からX 2zx1x2zx1x1x2x1x2


(+1)良い例!
user795305

回答の前提を説明してください。z = x1 + x2を仮定した後、なぜ「Corn(z、x1)= 0」と言うのですか?Corr(z、x1)= 0は最初のLetステートメントの後に続くと言っているのですか、それともゼロの相関は追加の仮定ですか?それが追加の仮定である場合、元の質問の状況がその追加の仮定を必要とするのはなぜですか?
ジョエルW.

@JoelW。私が言っている標準正規分布と以下の確率変数であるX 1はまた、標準正規分布に従う独立した確率変数です。zx 1は独立しているため、それらの相関は正確に0です。次に、z x 1を計算し、そのx 2を呼び出します。zx1zx1zx1x2
マシューガン

@matthewGunn。3番目のLetはz = x1 + x2と言います。それはあなたの最初の2つに違反しているようです。つまり、zとx1は独立しているとしましょう。
ジョエルW.

1
@JoelW。その声明は真実ではないので、私は同意しません。見ると、zx 1の間の独立性について何も意味しません。z=x1+x2zx1
マシューガン

3

コメントへの対応:

数学にも関わらず、合計に入る2つの変数のそれぞれが予測するが、その3番目の変数の分散の4%の場合、3番目の変数の分散の25 +%を説明する2つの変数の合計の論理はまだ表示されません。2つの変数を追加するだけで、8%の説明付き分散を25%の説明付き分散にすることができますか?

ここでの問題は、「分散が説明される」という用語のようです。統計の多くの用語と同様に、これは実際よりも意味があるように聞こえるように選択されています。

Y

y=(6,7,4,8,9,6,6,3,5,10)

UYRRY

r=(20,80,100,90,50,70,40,30,40,60)

U=R+0.1Y

u=(19.4,79.3,100.4,90.8,50.9,70.6,40.6,30.3,40.5,61.0)

V=R+0.1Y

v=(20.6,80.7,99.6,89.2,49.1,69.4,39.4,29.7,39.5,59.0)

UVYr0.2YY

YUURVRYU+V

Plot of each of the variables

ABBA


@ naught101は、変数Floundererを示す図をいくつか作成しました。それらを含めることがあなたにアピールするかどうかを見たいと思うかもしれません。
グング-モニカを復活

もちろん、好きなように編集してください。私は実際に職場でimgurを見ることができませんが、それは大丈夫だと確信しています!
ヒラメ

私は提案を拒否しました、b / c彼がここであなたに連絡したことはわかりませんでした。ただし、提案された編集キューに移動して承認できます。
GUNG -復活モニカ

慎重に作成された場合、提供する例は興味深いものですが、私が提示した状況はより一般的で(数値は慎重に選択されていません)、2つの変数N(0,1)に基づいています。用語を「説明」から「共有」に変更しても、問題は残ります。それぞれが3番目の変数と4%の共有分散を持つ2つのランダム変数を、式に従って、3番目の変数と25%の共有分散を持つ単純な合計で結合するにはどうすればよいですか?また、目標が予測である場合、共有分散のこの奇妙な増加の実際の実用的なアプリケーションはありますか?
ジョエルW.

さて、電子機器のどこでも(大きなノイズ+弱い信号)+(-大きなノイズ)=弱い信号がある場合、これを適用することになります。たとえば、ノイズキャンセリングヘッドフォン。
ヒラメ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.