カテゴリー変数を使用したロジット回帰の相互作用項の解釈


25

私は、回答者が4つのグループのいずれかにランダムに割り当てられた調査実験のデータを持っています。

> summary(df$Group)
       Control     Treatment1     Treatment2     Treatment3 
            59             63             62             66 

3つの治療グループは適用される刺激がわずかに異なりますが、私が気にする主な違いはコントロールと治療グループの間です。そこで、ダミー変数を定義しましたControl

> summary(df$Control)
     TRUE FALSE 
       59   191 

調査では、回答者は(特に)次の2つのうちどちらを優先するかを選択するように求められました。

> summary(df$Prefer)
      A   B  NA's 
    152  93   5 

次に、治療グループによって決定されたいくつかの刺激を受けた後(対照グループの場合は刺激なし)、回答者は同じ2つのことから選択するように求められました。

> summary(df$Choice)
  A    B 
149  101 

3つの治療グループのうちの1つに属していることが、この最後の質問で回答者が行った選択に影響を与えたかどうかを知りたいです。私の仮説は、治療を受けた回答者が治療するよりAも選択する可能性が高いということですB

カテゴリデータを使用していることを考えると、ロジット回帰を使用することにしました(それが間違っていると思われる場合はお気軽にご連絡ください)。回答者はランダムに割り当てられたため、他の変数(人口統計など)を必ずしも制御する必要はないという印象を受けているため、この質問ではそれらを省略しました。私の最初のモデルは単純に次のものでした:

> x0 <- glm(Product ~ Control + Prefer, data=df, family=binomial(link="logit"))
> summary(x0)

Call:
glm(formula = Choice ~ Control + Prefer, family = binomial(link = "logit"), 
    data = df)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-1.8366  -0.5850  -0.5850   0.7663   1.9235  

Coefficients:
                    Estimate Std. Error z value Pr(>|z|)    
(Intercept)           1.4819     0.3829   3.871 0.000109 ***
ControlFALSE         -0.4068     0.3760  -1.082 0.279224    
PreferA              -2.7538     0.3269  -8.424  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 328.95  on 244  degrees of freedom
Residual deviance: 239.69  on 242  degrees of freedom
  (5 observations deleted due to missingness)
AIC: 245.69

Number of Fisher Scoring iterations: 4

統計的に有意な切片は、解釈可能な意味を持つものではないという印象を受けています。おそらく、次のような相互作用用語を含めるべきだと考えました。

> x1 <- glm(Choice ~ Control + Prefer + Control:Prefer, data=df, family=binomial(link="logit"))
> summary(x1)

Call:
glm(formula = Product ~ Control + Prefer + Control:Prefer, family = binomial(link = "logit"), 
    data = df)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.5211  -0.6424  -0.5003   0.8519   2.0688  

Coefficients:
                                 Estimate Std. Error z value Pr(>|z|)    
(Intercept)                         3.135      1.021   3.070  0.00214 ** 
ControlFALSE                       -2.309      1.054  -2.190  0.02853 *  
PreferA                            -5.150      1.152  -4.472 7.75e-06 ***
ControlFALSE:PreferA                2.850      1.204   2.367  0.01795 *  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 328.95  on 244  degrees of freedom
Residual deviance: 231.27  on 241  degrees of freedom
  (5 observations deleted due to missingness)
AIC: 239.27

Number of Fisher Scoring iterations: 5

現在、治療グループのように回答者のステータスが期待される効果を持っています。これは有効な一連の手順でしたか?相互作用用語をどのように解釈できControlFALSE:PreferAますか?他の係数はまだ対数オッズですか?


私の答えはここでは関係あり: stats.stackexchange.com/questions/246873/...
HalvorsenのはKjetil B

回答:


31

私はAを好むときPreferA = 1を、そうでなければ0を、処理時にControlFALSE = 1を、制御時に0を仮定します。

exp3.135=23

exp2.309=.0991.099×100=90.1.09923=2.3、したがって、Bを好むすべての人に対して2.3を好むそのような人が存在します。したがって、このグループの中で、AはBよりも依然として人気がありますが、未処理/ベースライングループよりもそうではありません。

.00699.4

exp2.850=17.317.3×.099=1.71exp2.8502.309

したがって、指数定数はベースラインのオッズを提供し、主効果の指数係数は他の変数が0に等しい場合のオッズ比を提供し、相互作用項の指数係数はオッズ比の変化によって比率を示します


マールテンに感謝します。これは、他の関連する質問への回答と同様に非常に役立ちます。ただし、1つの点について少し説明をお願いします。他の質問でほのめかしたように、ControlFALSE最初のモデルではp値が高く、2番目のモデルではp値がかなり低いため、ここで行ったことの統計的妥当性が心配です。この特定のケースに私の他の質問への答えを適用すると、あなたは、これがControl一方のグループにマイナスの影響を及ぼし、他方のグループにPreferプラスの影響を与えた場合に起こり得ると述べました。
ピグマリオン

(スペース不足)その解釈はここで意味がありますか?直接適用する方法が正確にわかりません。
ピグマリオン

効果ControlFALSE最初のモデルでは、の治療の効果で両方それら以前れる好ましいAおよび第2のモデルで効果があるが、しなかったもののみ以前にAを好むしなかった人のための治療の効果。それがOKかどうかは統計的な問題ではありませんが、それは実質的な意味をなすかどうかです。
マールテンビュス

@MaartenBuis素晴らしい説明。推定値の信頼区間の等価計算をどのように行いますか?解釈を容易にするため、私は一般的にロジスティックモデル(例えば、この例では前の好みによる)を層別化してきたとORで有意差のために、「統計的検定との相互作用の用語を使用し、この許容されています。?
bobmcpop

2

また、ロジスティック回帰における相互作用の解釈にこのペーパーが役立つこともわかりました。

JJ、チェン(2003)。複雑な情報の伝達:多重ロジスティック回帰分析における統計的相互作用の解釈アメリカ公衆衛生ジャーナル93(9)、1376-1377。


4
完全なリファレンス(タイトル、著者、日付、ジャーナルなど)を提供しました。これは、リンクアドレスが変更された場合でも貢献が有用であることを意味します。しかし、内容を要約するためにそれを展開できますか?それ以外の場合、これは回答よりもコメントの方が多い-回答は自己完結型であることが望ましいため、「リンク腐敗」に耐性があります。または、これをコメントに変換することもできます。
シルバーフィッシュ

ありがとう。NCBIをリンクしていたので、問題ないと思いました。変更に同意します。ありがとう!
-deepseas

0

ロジスティック回帰の相互作用を解釈しようとするとき、私自身の好みは、カテゴリー変数の各組み合わせの予測確率を調べることです。あなたの場合、これはたった4つの確率になります:

  1. Aを優先、trueを制御
  2. Aを優先、falseを制御
  3. Bを優先、制御はtrue
  4. Bを優先、falseを制御

連続変数がある場合、通常、中央値、1番目、および3番目の四分位の予測値を確認します。

これは各係数の解釈に直接は到達しませんが、私(および私のクライアント)が何が起こっているかを明確な方法で見ることができます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.