1つの観測値のみのランダム効果は、一般化線形混合モデルにどのように影響しますか?


14

ランダム効果として使用したい変数がいくつかのレベルで単一の観測値を持つデータセットがあります。以前の質問への回答に基づいて、原則としてこれで問題ないことをまとめました。

混合モデルを、観測値が1つだけの被験者に適合させることはできますか?

ランダム切片モデル-被験者ごとに1つの測定

ただし、2番目のリンクでは、最初の答えは次のとおりです。

「...一般的な線形混合モデルGLMMを使用していないと仮定します。この場合、過剰分散の問題が発生します」

GLMMの使用を検討していますが、1回の観測でのランダムな効果レベルがモデルにどのように影響するかを本当に理解していません。


ここに、私が当てはめようとしているモデルの1つの例を示します。私は鳥を研究していますが、移動中のストップの数に対する人口と季節の影響をモデル化したいと思います。一部の個人では最大5年間のデータがあるため、個人をランダム効果として使用したいと思います。

library(dplyr)
library(lme4)
pop <- as.character(c("BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "MA", "MA", "MA", "MA", "MA", "MA", "MA", "MA", "MA", "MA", "MA", "MA", "MA", "MA", "MA", "NU", "NU", "NU", "NU", "NU", "NU", "NU", "NU", "NU", "SA", "SA", "SA", "SA", "SA", "SA", "SA", "SA", "SA", "SA", "SA", "SA", "SA", "SA", "SA", "SA", "SA", "SA", "SA", "SA", "SA", "SA", "SA", "SA", "SA", "SA", "SA", "SA", "SA"))
id <- "2 2 4 4 7 7 9 9 10 10 84367 84367 84367 84368 84368 84368 84368 84368 84368 84369 84369 33073 33073 33073 33073 33073 33073 33073 33073 33073 80149 80149 80149 80150 80150 80150 57140 57141 126674 126677 126678 126680 137152 137152 137157 115925 115925 115925 115925 115925 115925 115925 115925 115926 115926 115926 115926 115926 115926 115927 115928 115929 115929 115929 115930 115930 115930 115930 115931 115931 115931 115932 115932 115932"
id <- strsplit(id, " ")
id <- as.numeric(unlist(id))
year <- "2014 2015 2014 2015 2014 2015 2014 2015 2014 2015 2009 2010 2010 2009 2010 2010 2011 2011 2012 2009 2010 2009 2009 2010 2010 2011 2011 2012 2012 2013 2008 2008 2009 2008 2008 2009 2008 2008 2013 2013 2013 2013 2014 2015 2014 2012 2013 2013 2014 2014 2015 2015 2016 2012 2013 2013 2014 2014 2015 2013 2012 2012 2013 2013 2012 2013 2013 2014 2013 2014 2014 2013 2014 2014"
year <- strsplit(year, " ")
year <- as.numeric(unlist(year))
season <- as.character(c("fall", "spring", "fall", "spring", "fall", "spring", "fall", "spring", "fall", "spring", "fall", "fall", "spring", "fall", "fall", "spring", "fall", "spring", "spring", "fall", "spring", "fall", "spring", "fall", "spring", "fall", "spring", "fall", "spring", "spring", "fall", "spring", "spring", "fall", "spring", "spring", "fall", "fall", "fall", "fall", "fall", "fall", "fall", "spring", "fall", "fall", "fall", "spring", "fall", "spring", "fall", "spring", "spring", "fall", "fall", "spring", "fall", "spring", "spring", "fall", "fall", "fall", "fall", "spring", "fall", "fall", "spring", "spring","fall", "fall", "spring", "fall", "fall", "spring"))
stops <- "0 0 0 0 0 0 1 0 2 1 1 0 0 3 2 0 1 1 0 1 1 2 0 1 0 2 0 4 0 0 2 1 1 2 5 2 1 0 9 6 2 3 4 7 2 0 0 0 0 0 2 0 0 1 0 0 0 0 0 0 1 1 0 0 1 1 0 0 1 1 0 0 0 0"
stops <- strsplit(stops, " ")
stops <- as.numeric(unlist(stops))

stopdata <- data.frame(pop = pop, id = id, year = year, season = season, stops = stops, stringsAsFactors = FALSE)


stopdata <- group_by(stopdata, pop, id)
summary1 <- summarise(stopdata, n.years = length(year))
table(summary1$n.years)

27人がいます。9人の個人が1回の観察を行います。18人の個人が2〜9個の観察を行います。

ランダム効果レベルの1/3に観測値が1つしかない場合、何を心配する必要がありますか?


私は検討してきました:

オプション1:上記のGLMM

stops.glmm <- glmer(stops ~ pop + season + (1|id), data=stopdata, family = poisson)

オプション2:複数の観測値を持つ個人用の手段を使用した加重一般化線形モデルGLM

aggfun <- function(data, idvars=c("pop", "season", "id"), response){
#select id variables, response variable, and year
sub1 <- na.omit(data[,c(idvars, "year", response)])
#aggregate for mean response by year
agg1 <- aggregate(sub1[names(sub1) == response],by=sub1[idvars],FUN=mean)
#sample size for each aggregated group
aggn <- aggregate(sub1[response],by=sub1[idvars],FUN=length)
#rename sample size column
names(aggn)[4] <- "n"
agg2 <- merge(agg1, aggn)
agg2}


#Create weighted dataset
stops.weight <- aggfun(data = stopdata, response = "stops")
stops.weight$stops <- round(stops.weight$stops)

#Weighted GLM
stops.glm <- glm(stops~pop + season, data=stops.weight, family = poisson, weights = n)

引用はどこから来ますか?対応する答えが見つかりません。
アメーバは、モニカの復活を

括弧内の2番目のリンク、最初の回答
-canderson156

3
短い答えではない:私は問題があるとは思わない。上記のリンクされた2番目の質問の最初の回答者が何を意味していたのか正確にはわかりません。グループごとに正確に1つの観測値がある限界では、グループ間および残留変動性は完全に混乱します。あなたが持っていた場合、私は混合モデルと気にしないかもしれない少数派 > 1つの観測を持つグループの(およびそれらのグループに小さな数)が、あなたのケースの音の罰金...
ベンBolker

2番目のオプション(重み付きポアソン)が実際に正しく機能するかどうかはわかりませんが、より慎重に検討する必要があります。
ベンボルカー16年

@BenBolkerあなたが説明する場合、観察が1を超えるグループが少数しかない場合、あなたは何をすることを選択しますか?
mkt-モニカの復活

回答:


3

一般に、識別可能性に問題があります。1つの測定値のみを持つパラメーターにランダム効果が割り当てられた線形モデルでは、ランダム効果と残留誤差を区別できません。

典型的な線形混合効果方程式は次のようになります。

E=β+η+ϵj

βηϵjjηϵηϵSDηSDϵvarη+varϵ

SDηSDϵ

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.