この答えは、私の知識に基づいているのではなく、Bolker et al。(2009)ジャーナルTrends in Ecology and Evolutionに影響力のある論文を書きました。この記事はオープンアクセスではないので(Googleの学者で検索すると成功するかもしれませんが、質問の一部に対処するのに役立つ重要な文章を引用すると思いました。これは、GLMM(診断を含む)についての最も凝縮された情報を非常に単純明快で理解しやすい書体で表しています。診断に関する質問に関しては、大胆。
ページ127:
非正規データに直面した研究者は、ノンパラメトリック検定を使用したり、バランスのとれた設計の非正規性に対する従来のANOVAの堅牢性に依存して、データを変換して正規性と分散の均一性を達成するなどのショートカットをよく試します[15]。それらは、ランダム効果を完全に無視するか(したがって、疑似複製をコミットする)、またはそれらを固定要素として扱うかもしれない[16]。ただし、このようなショートカットは失敗する可能性があります(たとえば、ゼロ値が多いカウントデータは変換によって正常にできません)。成功したとしても、統計的仮定に違反する可能性があります(ノンパラメトリックテストでさえ、たとえばグループ間の分散の均一性を仮定します)または推論の範囲を制限します(固定効果の推定値を新しいグループに外挿できません)。データを古典的な統計フレームワークに押し込むのではなく、研究者は、データと一致する統計的アプローチを使用する必要があります。一般化線形混合モデル(GLMM)は、生態学と進化で広く使用されている2つの統計フレームワーク、線形混合モデル(ランダム効果を組み込む)、および一般化線形モデル(リンク関数と指数族を使用して非正規データを処理する正規分布、ポアソン分布または二項分布)。GLMMは、ランダム効果を伴う非正規データを分析するための最適なツールです。原則として、行う必要があるのは、ランダム効果の分布、リンク関数、および構造を指定することだけです。線形混合モデル(ランダム効果を組み込む)および一般化線形モデル(リンク関数および指数族[正規、ポアソン、または二項)分布を使用して非正規データを処理する)GLMMは、ランダム効果を伴う非正規データを分析するための最適なツールです。原則として、行う必要があるのは、ランダム効果の分布、リンク関数、および構造を指定することだけです。線形混合モデル(ランダム効果を組み込む)および一般化線形モデル(リンク関数および指数族[正規、ポアソン、または二項)分布を使用して非正規データを処理する)GLMMは、ランダム効果を伴う非正規データを分析するための最適なツールです。原則として、行う必要があるのは、ランダム効果の分布、リンク関数、および構造を指定することだけです。
ページ129、ボックス1:
残差は、過分散を示しました、我々は準ポアソンモデルとデータを改装して、。大規模な推定スケールパラメーター(10.8)にもかかわらず、探索的グラフでは、個人、遺伝子型、または集団のレベルで異常値の証拠は見つかりませんでした。ランダム効果[49]、ランダム効果、固定効果モデルの選択に1自由度を使用して、準AIC(QAIC)を使用しました。
ページ133、ボックス4:
ここでは、GLMM分析の最初のステップである、完全な(最も複雑な)モデルを構築するための一般的なフレームワークの概要を説明します。このプロセスの後、メインテキストと図1で説明されているように、パラメーターを評価し、サブモデルを比較できます。
固定(治療または共変量)およびランダム効果(実験的、空間的または時間的ブロック、個人など)を指定します。重要な相互作用のみを含めます。経験則(ランダム効果ごとに5〜6のランダム効果レベル、治療レベルまたは実験単位ごとに10〜20を超えるサンプル)および適切なサンプルサイズの知識に基づいて、モデルを事前に複雑な実行可能なレベルに制限します。以前の研究[64,65]。
エラー分布とリンク関数を選択します(例:カウントデータのポアソン分布とログリンク、割合データの二項分布とロジットリンク)。
グラフィカルなチェック:データの分散(リンク関数によって変換された)はカテゴリ全体で均一ですか?変換されたデータの応答は、連続予測子に対して線形ですか?外れ値の個人またはグループはありますか?グループ内の分布は想定される分布と一致していますか?
固定効果GLMを、完全な(プールされた)データセットとランダムファクターの各レベル内の両方に適合させます[28,50]。推定パラメーターは、グループ全体にほぼ正規分布する必要があります(グループレベルのパラメーターは、特にサンプルサイズが小さいグループの場合、大きな不確実性を持つ可能性があります)。必要に応じてモデルを調整します(リンク関数の変更、共変量の追加など)。
完全なGLMMを取り付けます。コンピューターのメモリが不足しているか、遅すぎる:モデルの複雑さを軽減します。データのサブセットで推定が成功した場合、より効率的な推定アルゴリズムを試してください(適切な場合はPQLなど)。収束の失敗(警告またはエラー):モデルの複雑さを軽減するか、最適化設定を変更します(結果の答えが意味をなすことを確認してください)。他の推定アルゴリズムを試してください。ゼロ分散コンポーネントまたは特異点(警告またはエラー):モデルが適切に定義され、識別可能であることを確認します(つまり、すべてのコンポーネントを理論的に推定できます)。モデルの複雑さを軽減します。モデルに情報を追加する(追加の共変量、または変量効果の新しいグループ化)と、平均を減算することで連続共変量を中央揃えにする[50]ように、問題を軽減できます。必要に応じて、完全なモデルからランダム効果を除去し、(i)固有の生物学的関心が低い用語、(ii)推定された分散が非常に小さい、および/または不確実性が大きい用語、または(iii)相互作用用語を削除する。(収束エラーまたはゼロ分散は、データが不十分であることを示す可能性があります。)
χ2
残差プロットを使用して過分散を評価し、変換された分散はカテゴリ全体で均一でなければなりません。この記事のどこにも、残差が正規分布しているとは言及されていません。
対照的な声明がある理由は、GLMM(127-128ページ)を反映していると思います...
...統計学者でさえ使用するのは驚くほど困難です。いくつかのソフトウェアパッケージがGLMMを処理できますが(表1)、生態学者や進化生物学者の多くは、さまざまなオプションや潜在的な落とし穴を認識しています。Google Scholarによって発見された2005年以降の生態学と進化に関する論文のレビューで、537のGLMM分析のうち311(58%)が何らかの方法でこれらのツールを不適切に使用しました(オンライン補足資料を参照)。
そしてここ診断を含むGLMMsを使用して、いくつかの完全な加工された例があります。
この答えはコメントに似ているため、そのように扱われるべきだと思います。しかし、コメントセクションでは、このような長いコメントを追加することはできません。また、この論文はこの議論にとって価値があると信じているので(残念ながら有料の壁の背後にある)、ここで重要な文章を引用するのが役立つと思いました。
引用論文:
[15]-GP Quinn、MJ Keough(2002):生物学者のための実験計画とデータ分析、ケンブリッジ大学出版局。
[16]-MJ Crawley(2002):統計計算:S-PLUS、John Wiley&Sonsを使用したデータ分析の紹介。
[28]-JC Pinheiro、DM Bates(2000):SおよびS-PLUSの混合効果モデル、Springer。
[49]-F.ヴァイダ、S。ブランチャード(2005):混合効果モデルの条件付き赤池情報。Biometrika、92、pp。351–370。
[50]-A.ゲルマン、J。ヒル(2006):回帰およびマルチレベル/階層モデルを使用したデータ分析、ケンブリッジ大学出版局。
[64]-NJ Gotelli、AM Ellison(2004):生態統計学入門、Sinauer Associates。
[65]-FJハレル(2001):回帰モデリング戦略、スプリンガー。
[66]-JK Lindsey(1997):一般化線形モデルの適用、スプリンガー。
[67]-W.ヴェナブルズ、BDリプリー(2002):Sの現代応用統計、スプリンガー。
glm.diag.plots
それはジャックナイフされた逸脱残差のためだと言います(区別が重要だと思います)。また、カウントデータがあることを収集します。あなたはその事実に集中したいかもしれません。たとえば、カウントは(ある意味では)異分散であると想定されています。カウント回帰の診断プロットは役に立ちます(ただし、混合効果の側面には対応していません)。