GLMで傍受用語​​を解釈する方法は?


20

私はRを使用しており、Binomialリンク付きのGLMでデータを分析しています。

出力テーブルのインターセプトの意味を知りたいです。私のモデルの1つの切片は大きく異なりますが、変数は違いません。これは何を意味するのでしょうか?

インターセプトとは何ですか。私は自分自身を混乱させているだけでなく、インターネットを検索したかどうかはわかりません。ただこれだけで、それに気づいてください...またはしないでください。

助けてください、とてもイライラした学生


glm(formula = attacked_excluding_app ~ treatment, family = binomial, 
    data = data)
Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.3548   0.3593   0.3593   0.3593   0.3593  
Coefficients:
                         Estimate Std. Error z value Pr(>|z|)   
(Intercept)                 2.708      1.033   2.622  0.00874 **
treatmentshiny_non-shiny    0.000      1.461   0.000  1.00000

(Dispersion parameter for binomial family taken to be 1)
Null deviance: 14.963  on 31  degrees of freedom
Residual deviance: 14.963  on 30  degrees of freedom
(15 observations deleted due to missingness)
AIC: 18.963
Number of Fisher Scoring iterations: 5

1
glmで指定するリンク関数は何ですか?
トマス

5
切片は、すべての独立変数が0である場合の従属変数の予測値です。モデルに関する詳細な情報がなければ、これがあなたの場合に意味があるかどうかはわかりません。
ピーターフロム-モニカの復職

回答:


21

E[Y]=g1(Xβ)gXβ

Xβ=c+X1β1+X2β2+

あなたの場合、切片は非常にゼロではありませんが、変数はそうではないので、

Xβ=c0

リンク関数は二項なので、

g(μ)=ln(μ1μ)

And so with just the intercept term, your fitted model for the mean is:

E[Y]=11+ec

You can see that if c=0 then this corresponds to simply a 50:50 chance of getting Y=1 or 0, i.e. E[Y]=11+1=0.5

So your result is saying that you can't predict the outcome, but one class (1's or 0's) is more likely than the other.


2
You scared me at E[Y]=.... :). Thank you for the reply, I do (kind off) understand what you are saying. You said that the intercept is sig. non-zero, but the var. is not, it is p=1.00!? What effect does the variables p-value have on what I can say about the resut?
Samuel Waldron

2
If a variables p-value is not small, the one would typically not include that variable in the model. In your case the variable is not even being estimated to have a non-zero value, hence the p-value of 1.00. Basically there is no relationship between "treatment" and "attacked_excluding_app". The absence of relationship is so perfect here that it is almost suspcious, although you have a small dataset. It might be worth visualising your data, and seeing if it is reasonable.
Corone

2
+1 for answer, (and suggestion in comment that something odd is happening in dataset) although I'd disagree with the opening of your comment "If a variables p-value is not small, the one would typically not include that variable in the model." This is not necessarily so -- often one wants to report the magnitude of a relationship, even if it is not "significant" (and more to the point, if you were interested in modelling a relationship to start with, then a null result is still important to report.)
James Stanley

1
@James - very good point, one should always report what variables you tested - I should have been clearer, I merely meant that one would typically not include that variable when trying to use the model to make a forecast (since it would usually mean overfitting).
Corone

@Corone - I'm particulary interested in your comments here about variable in/exclusion and their relation to the thread at stats.stackexchange.com/questions/17624/…
rolando2

5

It looks to me like there may be some problem with the data. It is odd that the parameter estimate for the coefficient would be 0.000. It looks like both your DV and your IV are dichotomous and that the proportions of your DV do not vary at all with your IV. Is this right?

The intercept, as I noted in my comment (and as @corone 's answer implies) is the value of the DV when the IV is 0. How was your IV coded? As is, though, the fact that the estimate for the coefficient is 0.000 implies that the IV makes no difference.

Therefore, the intercept of 2.708 is the estimated logit of the DV: that is, log(p1p) at all levels of the IV.


こんにちは。コメントありがとうございます。データポイントはほぼ同じです。レポートで報告していますが、それでも強調する必要があります。これが結果が奇妙に見える理由です。このデータ(GLM)とレポートの他のデータセット(GLMM)を使用して、歩く前に運命的に実行しています(#TEAM2x2x2x2)。私の主な問題は、報告する必要があるものを知ることであると思いますが、インターセプトまたはIVの統計を管理しますか?以下は、二項リンクを使用した私の(できればより標準的な)GLMMです。
サミュエルウォルドロン

Generalized linear mixed model fit by the Laplace approximation Formula: Attacked ~ Treatment + Trial + Treatment * Trial + (1 | Bird) Data: data AIC BIC logLik deviance 139.6 153.8 -64.78 129.6 Random effects: Groups Name Variance Std.Dev. Bird (Intercept) 0.87795 0.93699 Number of obs: 128, groups: Bird, 32
Samuel Waldron

修正された効果:推定標準 エラーz値Pr(> | z |)(切片)3.19504 0.90446 3.533 .000412 ***治療shiny_non-shiny 0.02617 1.26964 0.021 .983558試行-1.53​​880 0.36705 -4.192 2.76e-05 ***治療:試行0.16909 0.49501 0.342 .732655 ---シグニフ。コード:0 ' ' 0.001 ' ' 0.01 ' ' 0.05 '。' 0.1 '' 1固定効果の相関:(Intr)Trtm_- Trial Trtmntshn_- -0.712 Trial -0.895 0.638 Trtmnts _-:T 0.664 -0.896 -0.742
Samuel Waldron

3

In your case, the intercept is the grand mean of attacked_excluding_app, calculated for all data regardless of treatment. The significance test in the table of coefficients is testing whether it is significantly different from zero. Whether this is relevant depends on whether you have some a priori reason to expect it be zero or not.

たとえば、血圧への影響について薬物とプラセボをテストしたと想像してください。各被験者について、(治療後の圧力-治療前の圧力)を計算して血圧の変化を記録し、これを分析の従属変数として扱います。次に、治療の効果(薬物対プラセボ)は重要ではないが、切片が有意に0より大きいことがわかります。これにより、2つの測定時間の間に被験者の血圧が平均的に上昇したことがわかります。これは興味深い場合があり、さらに調査が必要です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.