線形重回帰式のすべてのIV間の共有分散はどこにありますか?


10

線形重回帰式で、ベータの重みが他のすべてのIVの寄与に加えて個々の独立変数の寄与を反映している場合、回帰式では、DVを予測するすべてのIVが共有する分散です。

たとえば、下に表示されているベン図(およびここのCVの「about」ページから取得したもの:https : //stats.stackexchange.com/about)のラベルが3 IVと1 DVに変更された場合、アスタリスクのある領域が入ります。重回帰式に?

ここに画像の説明を入力してください


4
ここでは反対投票の必要はないと思います。この質問は、基本レベルでの重回帰で何が起こっているのかを理解し、そうでなければ議論されないMRについて何かを説明する機会を提供すると思います。
gung-モニカの復活

回答:


8

この図の意味を理解するには、いくつかのことを定義する必要があります。ベン図が4つの異なる変数間の重複(または共有)分散を表示し、、、およびに関する知識に基づいてのレベルを予測するとします。つまり、不確実性(つまり、分散)をnull分散から残差分散まで減らすことができるようにしたいと考えています。それはどれほどうまくできますか?それはベン図があなたのために答えている質問です。 D i g g F o r u m B l o g W i k iWikiDiggForumBlogWiki

各円はポイントのセットを表し、それによって分散の量を表します。ほとんどの場合、の差異に関心がありますW iはkはI R 20.35 D I G G BのL O G F O R U M W I k個のIWikiですが、図には予測子の分散も表示されます。私たちの図について注意すべきことがいくつかあります。まず、各変数は同じ量の分散を持っています-それらはすべて同じサイズです(ただし、誰もが文字通りベン図を使用するわけではありません)。また、同じ量のオーバーラップなどもあります。さらに重要なのは、予測変数間にかなりのオーバーラップがあることです。これは、それらが相関していることを意味します。この状況は、二次(つまり、アーカイブ)データ、観測研究、または実際の予測シナリオを処理するときに非常に一般的です。一方、これが計画された実験である場合、おそらく設計または実行が不十分であることを意味します。この例を少し長く続けると、予測能力が中程度になることがわかります。ほとんどの変動性Wikiは、すべての変数が使用された後も残差変動として残ります(図を見ると、だと思い)。もう1つ注意すべき点は、とがモデルに入力されると、はの変動性をまったく考慮しないことです。R2.35DiggBlogForumWiki

現在、複数の予測子を含むモデルを適合させた後、人々はそれらの予測子をテストして、それらが応答変数に関連しているかどうかを確認したいことがよくあります(ただし、これが人々がそうであると信じているように重要であるかどうかは明らかではありません)。私たちの問題は、これらの予測子をテストするにはSum of Squaresを分割する必要があることです。予測子は相関しているため、複数の予測子に起因する可能性のあるSSがあります。実際、アスタリスクが付いた領域では、SS は3つの予測子のいずれかに起因する可能性があります。これは、SSの一意のパーティションがないため、一意のテストがないことを意味します。この問題の処理方法は、研究者が使用するSSタイプ研究者によるその他の判断。多くのソフトウェアアプリケーションは、デフォルトではタイプIII SSを返すので、多くの人が捨て重複領域に含まれる情報を、彼らは審判の判定を行っている実現することなく。これらの問題、さまざまなタイプのSSについて説明し、ここで詳細に説明します

述べられているように、質問は具体的にはこれらすべてがベータ /回帰方程式のどこに現れるかについて尋ねます。答えはそうではないということです。そのことについていくつかの情報は、私の答えに含まれ、ここで(あなたがラインを少しの間で読まなければならないでしょうが)。


こんにちは、ガンさん、投稿ありがとうございます。それは非常に興味深く、いくつかの領域で私の目を開きました。ただし、リンク先の投稿の行間を読むことができません。だから、私の質問は残ります:線形重回帰方程式で、ベータの重みが他のすべてのIVの寄与に加えて各個々の独立変数の寄与を反映する場合、回帰方程式では、すべてのIVによって共有される分散ですDVを予測しますか?
ジョエルW.

ええ、見づらいでしょう。重要なのは、テスト用にSSをどのように分割するか、および2ベータを推定するという問題には基本的な違いがあるということです。1は、SSをどの予測子に帰属させるかについて考えます。2は、ベータの最適値を選択します。重複は前者に現れ、後者には現れません。あなたが回帰した場合上&保存残差、そしてそれらから残油予測、あなたはベータ版が激しく変動見るでしょう(これはところで、不適切である)&保存残油-2、など。しかし、Mult Regはすべてのベータを同時に推定するため、表示されません。D I G G F O R U MWikiDiggForum
ガン-モニカの復活

「前者では重複が後者ではなく現れる」場合、回帰式は共有分散をどのように反映できますか?他のすべてのIVの影響が統計的に削除されたときにベータが各IVの寄与を示している場合、削除された共有分散の予測力を反映するのは回帰式のどの部分ですか?または、オーバーラップがベータに反映されていない場合に、IVの1つを1だけインクリメントすると、予測されたYがどうなるかを回帰式でどのように示すことができますか?3番目の質問:ベン図の基礎となるデータのMR分析では、フォーラムのベータ= 0になりますか?
ジョエルW.

オーバーラップはベータ版ではなくテストにあります-それを他にどのように置くかわかりません。各ベータは、他のすべてが一定に保たれた状態で、共変量の1単位の変化が応答変数に及ぼす影響を示します。他の共変量がモデルから削除された場合、特定のベータはほぼ確実に同じではありませ。ベン図が真のデータ生成プロセスを正確に反映している場合、の真の値ですが、実際の経験的推定は基本的に正確に0になることはありません。βF=0
ガン-モニカの復活

1
@MarkWhite、学生の答えはほとんど問題ありません。X1とX2が完全に相関している場合、それらのベータは半分であるという記述は正しくありません。r = 1の場合、モデルは識別できません(ここ、を参照)。rが1に近づくと、推定ベータはサンプルデータの関係に依存し、サンプルごとに大きく異なる可能性があります。
ガン-モニカの回復

5

Peter Kennedyは、彼の本JSEの記事に、回帰のためのBallentine / Venn図についての素晴らしい説明があります。

要点は、スター付き領域の変動は、勾配係数の推定とテストのためにのみ捨てられるということです。を予測および計算する目的で、その変動が追加されます。R2


+1、「推定用」「勾配係数」のテスト用を追加しますが、に含まれているという点は良いものです。R2
ガン-モニカの回復

確かにそして終わりました。
Dimitriy V. Masterov 14

スター付きエリアは予測yの計算に使用されますか?もしそうなら、スター付きの領域は予測式のどこで予測されたyに寄与しますか?言い換えると、予測式のどの用語がスター付きの領域を反映していますか?
Joel W.

3

私はこれが(非常に)日付の古いスレッドであることを理解していますが、同僚の1人が今週同じ質問をしたところ、Webで彼に指摘できるものが見つからなかったので、「後世のために」2セントを追加すると思いました。ここに。これまでに提供された回答がOPの質問に答えるとは確信していません。

2つの独立変数のみを含むように問題を単純化します。2つ以上に拡張するのは非常に簡単です。次のシナリオを検討してください:2つの独立変数(X1およびX2)、従属変数(Y)、1000の観測、2つの独立変数は互いに高度に相関(r = .99)、各独立変数は従属と相関変数(r = .60)。一般性を失うことなく、すべての変数をゼロの平均と標準偏差1に標準化します。これにより、各回帰で切片項がゼロになります。

X1でYの単純な線形回帰を実行すると、rの2乗が.36になり、b1の値が0.6になります。同様に、X2でYの単純な線形回帰を実行すると、0.36のr-2乗と0.6のb1値が生成されます。

X1とX2でYの重回帰を実行すると、0.36よりほんの少し高いr-2乗が生成され、b1とb2の両方の値が0.3になります。したがって、Yの共有変動は、b1とb2の両方で(等しく)キャプチャされます。

OPが誤った(しかし完全に理解可能な)仮定をした可能性があると思います。つまり、X1とX2が完全に相関するように近づくにつれて、重回帰式のそれらのb値はゼロに近づきます。そうではありません。実際、X1とX2が完全に相関するように近づくと、重回帰のb値は、どちらか一方の単純な線形回帰のb値のHALFに近づきます。ただし、X1とX2が完全に相関するように近づくにつれて、b1とb2の標準誤差は無限に近づくため、t値はゼロに収束します。したがって、t値はゼロに収束します(つまり、X1とYまたはX2とYの間に一意の線形関係はありません)。

したがって、OPの質問に対する答えは、X1とX2の間の相関が1に近づくと、部分勾配係数の各EAがY値の予測に等しく寄与することになりますが、どちらの独立変数も従属の一意の説明を提供しません変数。

これを経験的に確認したい場合は、上記の特性を持つ作成されたデータセット(... Corr2Data.sasという名前のSASマクロを使用しました)を生成します。b値、標準誤差、およびt値を確認してください。これらは、ここで説明したとおりであることがわかります。

HTH // Phil


1
これは素晴らしい説明です、ありがとう。私はRでさまざまな状況をシミュレートしようとしましたが、nが大きすぎる場合、または出力(Y)と共有コンポーネント(X1とX2)の間の相関がある場合、共有の変動性を取り除くことができないという結論に達しました)が高すぎます。しかし、なぜt値は、最初からX1とX2の固有の寄与ではない何かを反映しているのでしょうか。回帰t値が予測子の一意の寄与を反映している場合、共有された変動性がt値に影響することはまったくわかりませんが、影響はあります。何故ですか?
Galit
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.