GLMMの仕様と解釈について質問があります。3つの質問は間違いなく統計的で、2つはRについてより具体的です。最終的に問題はGLMMの結果の解釈だと思うので、ここに投稿します。
私は現在GLMMに適合させようとしています。Longitudinal Tract Databaseの米国国勢調査データを使用しています。私の観察は国勢調査地区です。私の従属変数は空いている住宅の数で、空室と社会経済変数の関係に興味があります。ここの例は単純で、2つの固定効果を使用しています。非白人人口の割合(人種)と中央値世帯収入(クラス)、およびそれらの相互作用です。私は2つの入れ子にされたランダム効果を含めたいと思います:数十年から数十年以内のトラクト、つまり(10年/トラクト)。私はこれらのランダムを、空間的(すなわちトラクト間)および時間的(すなわち数十年間)の自己相関を制御するために検討しています。ただし、固定効果としては10年にも興味があるので、固定要素としても含めています。
私の独立変数は非負の整数カウント変数であるため、ポアソンおよび負の二項GLMMを近似しようとしています。オフセットとして、総住宅数のログを使用しています。これは、係数が空き家の総数ではなく、空室率への影響として解釈されることを意味します。
私は現在、ポアソンと負の二項GLMMの結果からglmerとglmer.nbを用いて推定していlme4。係数の解釈は、データと研究領域に関する私の知識に基づいて私には理にかなっています。
データとスクリプトが必要な場合は、私のGithubにあります。スクリプトには、モデルを構築する前に行った記述的調査の詳細が含まれています。
これが私の結果です:
ポアソンモデル
Generalized linear mixed model fit by maximum likelihood (Laplace Approximation) ['glmerMod']
Family: poisson ( log )
Formula: R_VAC ~ decade + P_NONWHT + a_hinc + P_NONWHT * a_hinc + offset(HU_ln) + (1 | decade/TRTID10)
Data: scaled.mydata
AIC BIC logLik deviance df.resid
34520.1 34580.6 -17250.1 34500.1 3132
Scaled residuals:
Min 1Q Median 3Q Max
-2.24211 -0.10799 -0.00722 0.06898 0.68129
Random effects:
Groups Name Variance Std.Dev.
TRTID10:decade (Intercept) 0.4635 0.6808
decade (Intercept) 0.0000 0.0000
Number of obs: 3142, groups: TRTID10:decade, 3142; decade, 5
Fixed effects:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -3.612242 0.028904 -124.98 < 2e-16 ***
decade1980 0.302868 0.040351 7.51 6.1e-14 ***
decade1990 1.088176 0.039931 27.25 < 2e-16 ***
decade2000 1.036382 0.039846 26.01 < 2e-16 ***
decade2010 1.345184 0.039485 34.07 < 2e-16 ***
P_NONWHT 0.175207 0.012982 13.50 < 2e-16 ***
a_hinc -0.235266 0.013291 -17.70 < 2e-16 ***
P_NONWHT:a_hinc 0.093417 0.009876 9.46 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Correlation of Fixed Effects:
(Intr) dc1980 dc1990 dc2000 dc2010 P_NONWHT a_hinc
decade1980 -0.693
decade1990 -0.727 0.501
decade2000 -0.728 0.502 0.530
decade2010 -0.714 0.511 0.517 0.518
P_NONWHT 0.016 0.007 -0.016 -0.015 0.006
a_hinc -0.023 -0.011 0.023 0.022 -0.009 0.221
P_NONWHT:_h 0.155 0.035 -0.134 -0.129 0.003 0.155 -0.233
convergence code: 0
Model failed to converge with max|grad| = 0.00181132 (tol = 0.001, component 1)
負の二項モデル
Generalized linear mixed model fit by maximum likelihood (Laplace Approximation) ['glmerMod']
Family: Negative Binomial(25181.5) ( log )
Formula: R_VAC ~ decade + P_NONWHT + a_hinc + P_NONWHT * a_hinc + offset(HU_ln) + (1 | decade/TRTID10)
Data: scaled.mydata
AIC BIC logLik deviance df.resid
34522.1 34588.7 -17250.1 34500.1 3131
Scaled residuals:
Min 1Q Median 3Q Max
-2.24213 -0.10816 -0.00724 0.06928 0.68145
Random effects:
Groups Name Variance Std.Dev.
TRTID10:decade (Intercept) 4.635e-01 6.808e-01
decade (Intercept) 1.532e-11 3.914e-06
Number of obs: 3142, groups: TRTID10:decade, 3142; decade, 5
Fixed effects:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -3.612279 0.028946 -124.79 < 2e-16 ***
decade1980 0.302897 0.040392 7.50 6.43e-14 ***
decade1990 1.088211 0.039963 27.23 < 2e-16 ***
decade2000 1.036437 0.039884 25.99 < 2e-16 ***
decade2010 1.345227 0.039518 34.04 < 2e-16 ***
P_NONWHT 0.175216 0.012985 13.49 < 2e-16 ***
a_hinc -0.235274 0.013298 -17.69 < 2e-16 ***
P_NONWHT:a_hinc 0.093417 0.009879 9.46 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Correlation of Fixed Effects:
(Intr) dc1980 dc1990 dc2000 dc2010 P_NONWHT a_hinc
decade1980 -0.693
decade1990 -0.728 0.501
decade2000 -0.728 0.502 0.530
decade2010 -0.715 0.512 0.517 0.518
P_NONWHT 0.016 0.007 -0.016 -0.015 0.006
a_hinc -0.023 -0.011 0.023 0.022 -0.009 0.221
P_NONWHT:_h 0.154 0.035 -0.134 -0.129 0.003 0.155 -0.233
ポアソンDHARMaテスト
One-sample Kolmogorov-Smirnov test
data: simulationOutput$scaledResiduals
D = 0.044451, p-value = 8.104e-06
alternative hypothesis: two-sided
DHARMa zero-inflation test via comparison to expected zeros with simulation under H0 = fitted model
data: simulationOutput
ratioObsExp = 1.3666, p-value = 0.159
alternative hypothesis: more
負の二項DHARMaテスト
One-sample Kolmogorov-Smirnov test
data: simulationOutput$scaledResiduals
D = 0.04263, p-value = 2.195e-05
alternative hypothesis: two-sided
DHARMa zero-inflation test via comparison to expected zeros with simulation under H0 = fitted model
data: simulationOutput2
ratioObsExp = 1.376, p-value = 0.174
alternative hypothesis: more
DHARMaプロット
ポアソン
負の二項
統計の質問
私はまだGLMMを理解しているので、仕様と解釈について不安を感じています。いくつか質問があります。
私のデータはポアソンモデルの使用をサポートしていないようです。そのため、負の二項式を使用する方がよいでしょう。ただし、最大制限を増やしても、負の二項モデルが反復制限に達するという警告が常に表示されます。「theta.ml(Y、mu、weights = object @ resp $ weights、limit = limit、:反復制限に達しました。」これは、かなりの数の異なる仕様(つまり、固定効果とランダム効果の両方の最小モデルと最大モデル)を使用して発生します。また、上位1%の値は非常に外れ値であるため(最下位99%の範囲は0〜1012、上位1%は1013〜5213)、従属(外れ値)の外れ値も削除してみました。 tは反復に影響を与え、係数にもほとんど影響を与えません。ここではそれらの詳細を含めません。ポアソンと負の二項式の間の係数もかなり似ています。この収束の欠如は問題ですか?負の二項モデルは適切ですか?を使用して負の二項モデルも実行しましたすべてのオプティマイザではなくAllFitがこの警告をスローします(bobyqa、Nelder Mead、およびnlminbwはスローしませんでした)。
私の10年間の固定効果の分散は一貫して非常に低いか0です。これは、モデルが過適合であることを意味していることを理解しています。固定効果から10を取り除いても、10進変量効果の分散は0.2620に増加し、固定効果係数にはあまり影響しません。それを残すことに何か問題がありますか?私はそれを単に観測の分散の間で説明するために必要とされていないと解釈します。
これらの結果は、ゼロインフレモデルを試す必要があることを示していますか?DHARMaはゼロインフレが問題ではないかもしれないと示唆しているようです。とにかく私が試してみるべきだと思うなら、以下を見てください。
Rの質問
ゼロインフレモデルを試してみてもかまいませんが、ゼロパッケージのポアソンと負の二項GLMMの入れ子になったランダム効果をどのパッケージが意味するかはわかりません。glmmADMBを使用してAICをゼロ膨張モデルと比較しますが、これは単一のランダム効果に制限されているため、このモデルでは機能しません。MCMCglmmを試すこともできますが、ベイジアン統計がわからないので、これも魅力的ではありません。他のオプションはありますか?
集計(モデル)内で指数係数を表示できますか、またはここで行ったように、集計外で表示する必要がありますか?
bobyqa
オプティマイザを試したが警告は出されなかったと言った。それで問題は何ですか?だけを使用してくださいbobyqa
。
bobyqa
は、デフォルトのオプティマイザよりも収束が良好です(そして、将来のバージョンのでデフォルトになるとどこかで読んだと思いますlme4
)。デフォルトのオプティマイザーがと収束する場合でも、収束しないことについて心配する必要はないと思いますbobyqa
。
decade
固定とランダムの両方を持つことは意味がありません。それを固定して、(1 | decade:TRTID10)
ランダムにのみ含める(これは、10年ごとに同じレベルがないと(1 | TRTID10)
仮定することTRTID10
と同じです)か、固定効果から削除します。レベルが4つしかない場合は、それを修正しておくとよいでしょう。通常の推奨事項は、5つ以上のレベルがある場合はランダムな効果を当てはめることです。