直交、相関、独立の関係は何ですか?


25

計画されたコントラストを使用して一元配置分散分析で異なる手段を見つけるとき、それらが無相関であり、タイプIエラーが膨らまないようにするために、制約は直交する必要があるという記事を読みました。

どのような状況でも、直交が無相関を意味する理由はわかりません。その視覚的/直感的な説明が見つからないため、これらの記事/回答を理解しようとしました

https://www.psych.umn.edu/faculty/waller/classes/FA2010/Readings/rodgers.pdf

統計の文脈で直交とはどういう意味ですか?

しかし、私には、彼らは互いに矛盾しています。最初は、2つの変数が無相関および/または直交の場合、それらは線形独立であるが、それらが線形独立であるという事実は、それらが無相関および/または直交であることを意味しないと言います。

2番目のリンクには、「直交は無相関を意味する」、「XとYが独立している場合は直交であるが、逆は成り立たない」などの回答があります。

2番目のリンクの別の興味深いコメントは、2つの変数間の相関係数がこれらの変数に対応する2つのベクトル間の角度のコサインに等しいことを示しています。これは、2つの直交ベクトルが完全に無相関であることを意味します(最初の記事とは異なります)クレーム)。

それでは、独立性、直交性、相関関係の本当の関係は何ですか?たぶん私は何かを見逃したが、それが何であるかを見つけることができません。


1
この質問の右側に「リンク」および「関連」と表示されている質問への回答はどれもあなたを満足させませんか?
ディリップサルウェート

2
私が提供する2つのリンクが固体の答えが、状態の異なるものを提供しているようだ、と私は関連の質問を見たとき、私は答えを与えている人々がお互いに同意することから遠く離れている見ることができます
カールルヴァスール

2
混乱/知覚された矛盾は、完全に線形独立性と統計的独立性の違いに起因する可能性があります。
ジョナ

1
(ANOVA)制約は直交である必要があると思いますが、これはこの問題の重要な側面です。これは単なるランダム変数ではありません。また、西安が重複の可能性を示唆した密接に関連する質問と比較して、「独立」に特別な重点が置かれています(OPは回答で「当然」と考えられた「独立」を理解していると述べました)。だから私はそれが重複ではないことをお勧めします、そして2番目の@jonaは混乱が「独立」の複数の意味に包まれているかもしれません。
シルバーフィッシュ

1
また、これは複製ではないと思います。その質問は相関関係について言及しておらず、その答えは直交性と無相関性の可能な違いを詳述していません。さらに、ポスターが指摘したように、さまざまな関連する質問に矛盾する答えがあります。
A.ドンダ

回答:


39

独立は統計的な概念です。二つの確率変数 と共同分布は周辺分布の積である場合に統計的に独立である、すなわち、 各変数は、濃度がある場合、またはより一般的に ここで、は各ランダム変数の累積分布関数を示します。Y f x y = f x f y f F x y = F x F y FXY

f(x,y)=f(x)f(y)
f
F(x,y)=F(x)F(y)
F

相関は、より弱いが関連する統計概念です。2つの確率変数の(ピアソン)相関は、標準化された変数の積の期待値です。つまり、 場合、 変数は無相関です。独立している2つのランダム変数は、必ずしも相関していないが、その逆ではないことを示すことができます。

ρ=E[XE[X]E[(XE[X])2]YE[Y]E[(YE[Y])2]].
ρ=0

直交性は、幾何学に由来する概念であり、線形代数および数学の関連分野で一般化されました。線形代数では、2つのベクトルと直交性は、内積空間、つまり内積持つベクトル空間で、 の条件として 定義されます。さまざまな方法で定義できます(結果として異なる内積空間が得られます)。ベクトルが数値のシーケンスの形式で与えられる場合、一般的な選択は内積ですuvu,v

u,v=0.
u=(u1,u2,un)u,v=i=1nuivi

したがって、直交性自体は統計的な概念ではなく、観察する混乱は、線形代数の概念の統計への異なる変換による可能性があります。

a)正式には、ランダム変数の空間はベクトル空間と見なすことができます。その後、さまざまな方法で、その空間で内積を定義することができます。一般的な選択肢の1つは、共分散として定義することです: 共分散がゼロの場合、2つのランダム変数の相関は正確にゼロになるため、この定義よれば、無相関は直交性と同じです。(別の可能性は、確率変数の内積を単に積の期待値として定義することです。)

X,Y=cov(X,Y)=E[(XE[X])(YE[Y])].

b)統計で考慮するすべての変数が確率変数であるわけではありません。特に線形回帰では、ランダムとは見なされないが事前定義された独立変数があります。独立変数は通常、数列として与えられ、その直交性は内積によって自然に定義されます(上記参照)。その後、独立変数が直交する場合と直交しない場合の回帰モデルの統計的結果を調査できます。このコンテキストでは、直交性には特に統計的な定義はありません。さらに、ランダム変数には適用されません。

Silverfishのコメントへの追加:直交性は元のリグレッサーだけでなくコントラストにも関連します。これは単純なコントラスト(のセット)がデザインマトリックスの変換、つまりセットとして見られるためです。独立変数の新しい独立変数セットへの。コントラストの直交性は、内積によって定義されます。元のリグレッサが相互に直交し、直交コントラストを適用すると、新しいリグレッサも相互に直交します。これにより、コントラストのセットが分散の分解を説明するものと見なされるようになります。たとえば、主な効果と相互作用、ANOVAの基礎となるアイデアなどです。

バリアントa)によると、無相関性と直交性は同じものの異なる名前にすぎないので、その意味での用語の使用は避けるべきだと思う。ランダム変数の無相関性について話したい場合は、背景が異なり、含意が異なる別の単語を使用して問題を複雑にしないで、言ってみましょう。これはまた、バリアントb)に従って使用される直交性という用語を解放します。これは、特に重回帰の議論に非常に役立ちます。また、逆の場合、独立変数はランダム変数ではないため、相関という用語を独立変数に適用することは避けてください。


Rodgersらのプレゼンテーションは、特に直交性が無相関性とは異なることを理解しているため、この見解とほぼ一致しています。ただし、非ランダム変数(数値のシーケンス)に相関という用語を適用します。これは、サンプル相関係数 に関してのみ統計的に意味があります。数列が確率変数の一連の実現とみなされない限り、この用語の使用を避けることをお勧めします。r

上記のテキスト全体で、2つの関連する質問への回答へのリンクを散らばっています。これは、これらの質問をこの回答のコンテキストに入れるのに役立ちます。


1
+1ここで行った区別は非常に明確で有益です。投稿全体を読むのが楽しかったです。
whuber

+1私は、そうでなければ矛盾しているように見えるかもしれない他の答えを一緒に織り交ぜるのが好きでした。おそらく(b)実験デザインまたはANOVA(OPの質問で言及されているため)について具体的に言及するのは良いでしょう-あなたの答えの文脈では、なぜ「直交性」が興味深いのかすぐに明らかではありませんまたは独立変数の実際に望ましい特性。
シルバーフィッシュ

@Silverfish、あなたは正しい、私はそれを追加しようとします。
A.ドンダ

2
私はwhuberの賞賛のコメントとは異なるようにお願いします。独立性の定義は恐ろしい:確率変数とがここでで示される同じ累積確率分布関数(CDFまたはcdf)を持っていることを暗示しているようです。いいえ、とはと異なる CDFを示しません。は実変数の実数値関数であり、およびは数値およびでのこの関数の値を示しますXYF()F(x)F(y)XYF()F(x)F(y)xy。正しいフレージングは​​、
FX,Y(x,y)=FX(x)FY(y) for all x and y,<x,y<.
ディリップサルワテ

2
@DilipSarwate、puh-lease ...
A.ドンダ

0

ここに私の直感的な見解があります:xとyが無相関/直交であると述べることは、xまたはyの値の知識は他の予測を可能にしないと言う方法です-xとyは互いに独立しています-仮定関係は線形です。

相関係数は、x(またはy)の知識がy(またはx)をどれだけうまく予測できるかを示します。線形関係を前提としています。

平面内では、X軸に沿ったベクトルは、Y軸に沿ったコンポーネントを変更することなく大きさを変えることができます-X軸とY軸は直交し、Xに沿ったベクトルはYに沿ったものと直交します。ベクトルの大きさを変えるXに沿ってではなく、XとYの両方の成分が変化します。ベクトルはYに直交しなくなりました。

2つの変数が無相関の場合、それらは直交し、2つの変数が直交する場合、無相関です。相関と直交性は単純に異なりますが、線形独立の概念を表現する同等の方法(代数的および幾何学的)です。類推として、プロット(幾何)および行列式(代数)による2つの変数の線形方程式のペアの解法を考えます。

線形性の仮定に関して、xを時間、yを正弦関数とします。1つの期間にわたって、xとyは両方とも直交であり、両方を計算する通常の手段を使用して無相関です。ただし、xの知識により、yを正確に予測できます。直線性は、相関と直交性の重要な側面です。

質問の一部ではありませんが、相関関係と非直交性は因果関係とは異なることに注意してください。xとyは、両方とも3番目の変数に依存している可能性があるため、相関させることができます。夏にはアイスクリームの消費量が増え、夏には人々がより頻繁にビーチに行きます。2つは相関していますが、どちらも「原因」ではありません。この点の詳細については、https://en.wikipedia.org/wiki/Correlation_does_not_imply_causationを参照してください


無相関と直交性は異なります。こちらで確認できます-terpconnect.umd.edu/~bmomen/BIOM621/LineardepCorrOrthogonal.pdf-
ユーリイ

0

XとYが無相関の場合、XE [X]はYE [Y]に直交します。

それとは異なり、独立は無相関のより強力な概念です。つまり、独立は無相関につながり、(非)直交および(非)相関が同時に発生する可能性があります。 例

私は今学期の確率のTAなので、独立、相関、直交性についての短いビデオを作成します。

https://youtu.be/s5lCl3aQ_A4

それが役に立てば幸い。


これは質問に答えません。
マイケルR.チャーニック

私は答えを修正し、これが助けになることを願っています〜@マイケル・チェルニック
リナン・ファン

Larxの@linanhuangの人々?
YHH
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.