二項GLMM(glmer)を比率または分数である応答変数に近似する


9

誰かが私が比較的単純な質問だと思うことを手伝ってくれるといいのですが、私は答えを知っていると思いますが、確認なしでは、それは私が確信できないものになっています。

いくつかのカウントデータを応答変数として持っていますが、何かが比例して存在するときにその変数がどのように変化するかを測定したいと思います。

より詳細には、応答変数は多数のサイトでの昆虫種の存在の数です。たとえば、サイトは10回サンプリングされ、この種は4回発生する可能性があります。

これが、これらのサイトの植物の全体的なコミュニティーにおける植物種のグループの比例的な存在と相関関係があるかどうかを確認したいと思います。

これは私のデータが次のように見えることを意味します(これは単なる例です)

Site, insectCount, NumberOfInsectSamples, ProportionalPlantGroupPresence
1, 5, 10, 0.5
2, 3, 10, 0.3
3, 7, 9, 0.6
4, 0, 9, 0.1

データには、場所のランダムな影響も含まれます。

私は2つの方法を考えました、1つはlmer昆虫を比率に変換した線形モデル()でしょう

 lmer.model<-lmer(insectCount/NumberOfInsectSamples~
 ProportionalPlantGroupPresence+(1|Location),data=Data)

2番目は二項GLMM(glmer)です。

glmer.model <- glmer(cbind(insectCount,NumberOfInsectSamples-insectCount)~
 ProportionalPlantGroupPresence+(1|Location),
 data=Data,family="binomial")

私は二項グラマーが正しい方法であると信じていますが、それらはかなり異なる結果を生み出します。私はまだ少し不安を感じずにネット上で決定的な答えを見つけることができないようで、間違いを犯さないようにしたいと思います。

これに関する別の方法への助けや洞察は大歓迎です。


回答:


17

おそらく、二項GLMMが正しい答えです。

  • 特にサンプル数が少ないから中程度(例では9と10)では、応答変数の分布はおそらく不均一です(分散は一定ではなく、特に系統的な方法で平均に依存します)。特に、予測変数の一部の値の比率が0または1に近い場合は、変換が困難な方法で、正規性から。それはGLMMを良い考えにします。
  • 過剰分散がないかどうかを確認する/注意する必要があります。ロケーションごとに1つの観測値(つまり、データフレーム内の1つの2項サンプル/行)がある場合、(1|Site)ランダム効果がこれを自動的に処理します(注意事項についてはHarrison 2015を参照)
  • 前の仮定が正しい場合(場所ごとに2項のサンプルが1つしかない場合)、これを通常の2項モデルとして近似することもできます(glm(...,family=binomial)その場合、準二項モデル(family=quasibinomial)をより簡単で代替的な方法として使用することもできます)過剰分散を説明する
  • weights引数をサンプル数と等しくなるように設定した場合は、GLMMを比率として応答に合わせることもできます。

     glmer(insectCount/NumberOfInsectSamples~ProportionalPlantGroupPresence+
           (1|Location),
           weights=NumberofInsectSamples,
           data=Data,family="binomial")
    

    (これはglmer()あなたがあなたの質問に持っているフィットと同じ結果を与えるはずです)。

ハリソン、ザビエルA.「生態学と進化における二項データの過剰分散をモデル化するための観測レベルの変量効果とベータ二項モデルの比較」PeerJ 3(2015年7月21日):e1114。doi:10.7717 / peerj.1114。


こんにちはベン、明確で包括的な答えに感謝します!
ALは2016年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.