線形重回帰式で、ベータの重みが他のすべてのIVの寄与に加えて個々の独立変数の寄与を反映している場合、回帰式では、DVを予測するすべてのIVが共有する分散です。
たとえば、下に表示されているベン図(およびここのCVの「about」ページから取得したもの:https : //stats.stackexchange.com/about)のラベルが3 IVと1 DVに変更された場合、アスタリスクのある領域が入ります。重回帰式に?
線形重回帰式で、ベータの重みが他のすべてのIVの寄与に加えて個々の独立変数の寄与を反映している場合、回帰式では、DVを予測するすべてのIVが共有する分散です。
たとえば、下に表示されているベン図(およびここのCVの「about」ページから取得したもの:https : //stats.stackexchange.com/about)のラベルが3 IVと1 DVに変更された場合、アスタリスクのある領域が入ります。重回帰式に?
回答:
この図の意味を理解するには、いくつかのことを定義する必要があります。ベン図が4つの異なる変数間の重複(または共有)分散を表示し、、、およびに関する知識に基づいてのレベルを予測するとします。つまり、不確実性(つまり、分散)をnull分散から残差分散まで減らすことができるようにしたいと考えています。それはどれほどうまくできますか?それはベン図があなたのために答えている質問です。 D i g g F o r u m B l o g W i k i
各円はポイントのセットを表し、それによって分散の量を表します。ほとんどの場合、の差異に関心がありますW iはkはI R 2 ≈ 0.35 D I G G BのL O G F O R U M W I k個のIですが、図には予測子の分散も表示されます。私たちの図について注意すべきことがいくつかあります。まず、各変数は同じ量の分散を持っています-それらはすべて同じサイズです(ただし、誰もが文字通りベン図を使用するわけではありません)。また、同じ量のオーバーラップなどもあります。さらに重要なのは、予測変数間にかなりのオーバーラップがあることです。これは、それらが相関していることを意味します。この状況は、二次(つまり、アーカイブ)データ、観測研究、または実際の予測シナリオを処理するときに非常に一般的です。一方、これが計画された実験である場合、おそらく設計または実行が不十分であることを意味します。この例を少し長く続けると、予測能力が中程度になることがわかります。ほとんどの変動性は、すべての変数が使用された後も残差変動として残ります(図を見ると、だと思い)。もう1つ注意すべき点は、とがモデルに入力されると、はの変動性をまったく考慮しないことです。
現在、複数の予測子を含むモデルを適合させた後、人々はそれらの予測子をテストして、それらが応答変数に関連しているかどうかを確認したいことがよくあります(ただし、これが人々がそうであると信じているように重要であるかどうかは明らかではありません)。私たちの問題は、これらの予測子をテストするにはSum of Squaresを分割する必要があることです。予測子は相関しているため、複数の予測子に起因する可能性のあるSSがあります。実際、アスタリスクが付いた領域では、SS は3つの予測子のいずれかに起因する可能性があります。これは、SSの一意のパーティションがないため、一意のテストがないことを意味します。この問題の処理方法は、研究者が使用するSSのタイプと研究者によるその他の判断。多くのソフトウェアアプリケーションは、デフォルトではタイプIII SSを返すので、多くの人が捨て重複領域に含まれる情報を、彼らは審判の判定を行っている実現することなく。これらの問題、さまざまなタイプのSSについて説明し、ここで詳細に説明します。
述べられているように、質問は具体的にはこれらすべてがベータ /回帰方程式のどこに現れるかについて尋ねます。答えはそうではないということです。そのことについていくつかの情報は、私の答えに含まれ、ここで(あなたがラインを少しの間で読まなければならないでしょうが)。
Peter Kennedyは、彼の本とJSEの記事に、回帰のためのBallentine / Venn図についての素晴らしい説明があります。
要点は、スター付き領域の変動は、勾配係数の推定とテストのためにのみ捨てられるということです。を予測および計算する目的で、その変動が追加されます。
私はこれが(非常に)日付の古いスレッドであることを理解していますが、同僚の1人が今週同じ質問をしたところ、Webで彼に指摘できるものが見つからなかったので、「後世のために」2セントを追加すると思いました。ここに。これまでに提供された回答がOPの質問に答えるとは確信していません。
2つの独立変数のみを含むように問題を単純化します。2つ以上に拡張するのは非常に簡単です。次のシナリオを検討してください:2つの独立変数(X1およびX2)、従属変数(Y)、1000の観測、2つの独立変数は互いに高度に相関(r = .99)、各独立変数は従属と相関変数(r = .60)。一般性を失うことなく、すべての変数をゼロの平均と標準偏差1に標準化します。これにより、各回帰で切片項がゼロになります。
X1でYの単純な線形回帰を実行すると、rの2乗が.36になり、b1の値が0.6になります。同様に、X2でYの単純な線形回帰を実行すると、0.36のr-2乗と0.6のb1値が生成されます。
X1とX2でYの重回帰を実行すると、0.36よりほんの少し高いr-2乗が生成され、b1とb2の両方の値が0.3になります。したがって、Yの共有変動は、b1とb2の両方で(等しく)キャプチャされます。
OPが誤った(しかし完全に理解可能な)仮定をした可能性があると思います。つまり、X1とX2が完全に相関するように近づくにつれて、重回帰式のそれらのb値はゼロに近づきます。そうではありません。実際、X1とX2が完全に相関するように近づくと、重回帰のb値は、どちらか一方の単純な線形回帰のb値のHALFに近づきます。ただし、X1とX2が完全に相関するように近づくにつれて、b1とb2の標準誤差は無限に近づくため、t値はゼロに収束します。したがって、t値はゼロに収束します(つまり、X1とYまたはX2とYの間に一意の線形関係はありません)。
したがって、OPの質問に対する答えは、X1とX2の間の相関が1に近づくと、部分勾配係数の各EAがY値の予測に等しく寄与することになりますが、どちらの独立変数も従属の一意の説明を提供しません変数。
これを経験的に確認したい場合は、上記の特性を持つ作成されたデータセット(... Corr2Data.sasという名前のSASマクロを使用しました)を生成します。b値、標準誤差、およびt値を確認してください。これらは、ここで説明したとおりであることがわかります。
HTH // Phil