なぜ独立変数を中央揃えすると、節度によって主効果が変わるのでしょうか?


28

このCVスレッドに触発された重回帰と相互作用に関連する質問があります:中心変数階層回帰分析を使用した相互作用項?どの変数を中心にすべきか?

節度効果を確認するとき、相互作用項を計算するために、独立変数を中央に配置し、中央に配置した変数を乗算します。次に、回帰分析を実行し、主効果と相互作用効果を確認します。

センタリングせずに分析をやり直した場合、明らかに決定係数()は変わりませんが、回帰係数()は変わります。それは明確で論理的なようです。R2β

理解できないこと:主効果のp値はセンタリングによって大幅に変化しますが、相互作用はそうではありません(正しい)。したがって、私の主な効果の解釈は劇的に変わる可能性があります-センタリングによって決定されるだけです。(両方の分析で同じデータです!)

誰かが明らかにできますか?-それは、変数を中央に配置するオプションが必須であり、誰もが同じデータで同じ結果を得るためにそれを行う必要があることを意味するためです。


その問題と包括的な説明を配布してくれてありがとう。あなたの助けが非常に高く評価されることを保証してください!

私にとって、センタリングの最大の利点は、多重共線性を回避することです。中央に配置するかどうかに関係なく、ルールを確立することは依然としてかなり混乱しています。私の印象では、ほとんどのリソースが集中することを示唆していますが、それを行う際に「リスク」がいくつかあります。繰り返しますが、同じ資料とデータを扱う2人の研究者が異なる結果を結論付ける可能性があるという事実を出したいと思います。私はちょうどボルツの本の一部を読みました(彼は教授であり、ドイツとヨーロッパの統計スターの一種でした)。彼はその手法についても言及していません。変数が相互作用に関与している場合、変数の主な効果を解釈する際には注意が必要であると指摘しています。

結局、1つのIV、1つのモデレーター(または2番目のIV)、およびDVを使用して回帰を実行する場合、中央に配置することをお勧めしますか?


5
私はセンタリングをほとんど使用せず、完全に不必要で混乱します。
フランクハレル

3
慎重に答えをもう一度読んでください。独立変数を中心に置いたり、線形変換を適用しても、それらが正しく描かれていれば、結論は変わりませ。センタリングしないことによる多重共線性は、純粋に数値的な問題であり、適切なソフトウェアによって自動的に処理されます。
Scortchi-モニカの復職

1
この現象(p値が変化する)は、stats.stackexchange.com / questions / 28730 /…で説明されているように、相互作用の2次の性質の結果として理解できます。
whuber

回答:


23

相互作用項のない(つまり、他の項の積として構築される項のない)モデルでは、各変数の回帰係数は、その変数の方向における回帰曲面の勾配です。変数の値に関係なく一定であるため、その変数の全体的な効果を測定すると言えます。

相互作用のあるモデルでは、相互作用に関係しない変数についてのみ、さらなる解釈なしでこの解釈を行うことができます。相互作用に関与する変数の場合、「主効果」回帰係数-つまり、変数自体の回帰係数-は、他のすべての変数がその変数と相互作用する値はゼロであり、係数の有意性検定は、予測子空間のその領域でのみ回帰表面の勾配を参照します。空間のその領域に実際にデータが存在する必要はないため、主効果係数は、データが実際に観測された予測子空間の領域の回帰曲面の勾配にほとんど似ていない場合があります。

anovaの用語では、主効果係数は、全体的な主効果ではなく、単純な主効果に類似しています。さらに、それは、データを含むセルから外挿することによってデータが提供された、anova設計で空のセルになるものを指す場合があります。

anovaの全体的な主効果に類似しており、データが観察された領域を超えて外挿しない変数の全体的な効果の測定値については、変数の方向の回帰曲面の平均勾配を調べる必要があります、平均は実際に観測されたN個のケースを超えています。この平均勾配は、問題の変数を含むモデル内のすべての項の回帰係数の加重和として表すことができます。

重みは説明するのが厄介ですが、簡単に取得できます。変数の主効果係数は常に1の重みを取得します。その変数に関係する項の他の各係数の場合、重みはその項の他の変数の積の平均です。たとえば、5つの「生の」変数x1, x2, x3, x4, x5に加えて、4つの2方向交互作用(x1,x2), (x1,x3), (x2,x3), (x4,x5)と1つの3方向交互作用(x1,x2,x3)がある場合、モデルは次のようになります。

y = b0 + b1*x1 + b2*x2 + b3*x3 + b4*x4 + b5*x5 +
    b12*x1*x2 + b13*x1*x3 + b23*x2*x3 + b45*x4*x5 +
    b123*x1*x2*x3 + e

全体の主な効果は

B1 = b1 + b12*M[x2] + b13*M[x3] + b123*M[x2*x3],

B2 = b2 + b12*M[x1] + b23*M[x3] + b123*M[x1*x3],

B3 = b3 + b13*M[x1] + b23*M[x2] + b123*M[x1*x2],

B4 = b4 + b45*M[x5],

B5 = b5 + b45*M[x4],

ここで、M [。]は括弧内の量の標本平均を示します。括弧内のすべての製品用語は、回帰を行うために作成されたものの1つであるため、回帰プログラムはそれらについてすでに知っており、要求に応じて平均を印刷できるはずです。

主効果と双方向の相互作用しかないモデルでは、全体的な効果を得るためのより簡単な方法があります。つまり、平均値で生の変数を中心[1]します。これは、製品条件を計算する前に行われ、製品に対しては行われません。その後、すべてのM [。]式は0になり、回帰係数は全体的な効果として解釈可能になります。bの値は変わります。Bの値はそうではありません。相互作用に関与する変数のみを中央に配置する必要がありますが、通常、他の測定された変数を中央に配置しても害はありません。変数の中心化の一般的な効果は、切片の変更に加えて、中心化された変数と相互作用する他の変数の係数のみを変更することです。特に、中心変数を含む項の係数は変更されません。上記の例では、x1をセンタリングするとb0、b2、b3、およびb23が変更されます。

[1-「センタリング」は、混乱を引き起こすのに十分なほど異なる方法で、さまざまな人々によって使用されます。ここで使用されている「変数を#にセンタリングする」とは、変数のすべてのスコアから#を減算し、元のスコアを#からの偏差に変換することを意味します。

それでは、なぜ、いつも手段をいつも中心にしないのですか?3つの理由。まず、非中心変数の主効果係数自体が重要です。このような場合の中心化は、他の変数の主効果係数を変更するため、逆効果になります。

第二に、センタリングはすべてのM [。]式を0にし、3方向以上の相互作用のないモデルでのみ、単純な効果を全体的な効果に変換します。モデルにそのような相互作用が含まれている場合、すべての変数がその平均に集中していても、b-> Bの計算を実行する必要があります。

第三に、合理的に選択されるのではなく、予測子の分布によって定義される平均などの値を中心とすることは、中心化の影響を受けるすべての係数が特定のサンプルに固有であることを意味します。平均に集中する場合、研究を再現しようとする人は、あなたが得たのと同じ係数を取得したい場合、自分の平均ではなく、あなたの平均に集中しなければなりません。この問題の解決策は、スコアの意味に依存し、スコアの分布に依存しない、その変数の合理的に選択された中心値に各変数を集中させることです。ただし、b-> Bの計算は依然として必要です。

全体的な効果の重要性は、回帰係数の線形結合をテストするための通常の手順でテストできます。ただし、全体的な効果は構造パラメーターではなく、設計に依存するため、結果は注意して解釈する必要があります。構造パラメータ-回帰係数(非中心化、または合理的な中心化を伴う)および誤差分散-は、予測変数の分布が変化しても不変のままであると予想される場合がありますが、全体的な効果は一般に変化します。全体的な効果は特定のサンプルに固有のものであり、予測子の分布が異なる他のサンプルに持ち越されることを期待すべきではありません。ある研究で全体的な効果が重要であり、別の研究では重要でない場合、それは予測変数の分布の違いにすぎない可能性があります。


10

これは、複数の予測子が関係する回帰では、は部分係数であるためです。これらは、予測変数の1単位増加ごとに従属変数の予測される変化として解釈され、他のすべての予測変数を一定に保ちます。β

相互作用項を含む回帰において、例えば、の各1単位の増加の従属変数に予測された増加である、他のすべての用語を一定に保持します。これは、用語のための問題ですそれはとして変化するよう、異なります。または(相互作用に関与する2つの変数)の1単位増加に対して相互作用項を一定​​に保つ唯一の方法は、他の変数を0に設定することです。したがって、変数も相互作用項の一部である場合、解釈β 1 X 1 β 3 、X 1 、X 2 、X 1 、X 1 、X 2 βy=β1x1+β2x2+β3x1x2+ϵβ1x1β3x1x2x1x1x2βこの変数は、他の変数が0であることを条件としています-単に一定に保持されているだけではありません。

このため、の解釈は、相互作用に関係する他の変数の 0がどこにあるかによって変わります。0が対象変数にある場合、実際にはその係数の解釈は変更されません。この場合、たとえば、は、ときの 1単位の増加ごとのの予測増加です。と関係が関数として変化する場合(相互作用項を含めると仮定すると)、の重要度はのセンタリングの関数として変化しますβ 1、Y 、X 1 、X 2 = 0 、X 1、Y 、X 2 β 1 、X 2ββ1yx1 x2=0x1yx2β1x2

また、の値がセンタリングの関数として大幅に変化する場合、相互作用項はおそらく重要であることに注意してください。そして、もしそうなら、「主効果」の解釈は誤解を招く可能性があります。これは、と関係がの値に依存することを意味するためです。これに対処する一般的な方法は、いくつかの値(たとえば、0と±1 SDなど)について、予測値を関数としてプロットすることです。X 1、Y 、X 2、Y 、X 1 、X 2βx1yx2yx1x2


-1

私は同じ質問に夢中になりましたが、私は最終的にあなたと私の問題の解決策を見つけました。中心となる変数の計算方法はすべてです。2つのオプションがあります。
1. MEAN -個々の変数2.個々の変数- MEAN
あなたはおそらく、あなたの中心の変数計算(個別の変数-平均値)が低い値を持つものは、負のスコアを取得しますので、と高い値を持つものはポジティブになるだろうスコア。
わかりやすくするために例を挙げて説明します。私は、筋力が骨量にどのように影響するかを見たいです。そして、性別を考慮して、それが少女と少年で異なる影響を与えるかどうかを見たいです。アイデアは、筋肉の強度が高いほど、骨量も高くなるということです。私はしたがって:

従属変数:骨量独立変数:性別、筋力、相互作用_SEX_MUSCLE強度。

多重共線性を見つけたので(通常、相互作用項がある場合に行います)、筋力(平均-個別変数)を中心に配置し、新しい中心変数を使用して新しい相互作用項を作成しました。私の係数は

定数:0.902
性別:-0.010(Boys = 0; Girls = 1)
中心の筋肉:-0.023
相互作用:0.0002
したがって、少年の骨量を推定したい場合、次の方程式があります:
骨量=0.902(00.010)(0.023musclecentredvalue)+(Interaction0.0002)

これを見ると、筋肉が骨に悪影響を及ぼしていると思うかもしれませんが、元の変数ではなく、中心の変数を考える必要があります。グループの平均筋力がであったとしましょう30 KG。そして、実行した少年(WEAKBOY)と実行20 KGした別の少年(STRONGBOY)の骨量を推定します40KG。WEAKBOYの中央値は(平均グループ値-個別値; 30-20 = 10)であり、STRONGBOYの場合は-10です。これらの値を方程式に適用する:

弱体骨量= 0.902 – 0 –(0.023 * 10)+ .... = 0.672

STRONGBOY骨量= 0.902 –(0.023 *(-10))+ ... = 1.132

ご覧のとおり、STRONGBOYは確かに強い骨を持っています。逆方向に変数を中央に配置した場合:(個別–平均)、すべての係数は同じになりますが、シンボルは異なります。これは、中央の変数を適用すると、WEAKBOYが(-10)になり、STRONGBOYが(+10)になるためです。したがって、最終結果はまったく同じになります。

理解すれば、すべてが理にかなっています。

例が十分に明確であることを願っています。


この間違いは、p値の変化を説明しません。ところで、オプション(1)は、値に定数を乗算することも含むため、センタリングしません。(定数は-1です)
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.