一般化線形(混合)モデル(特に残差)の診断


25

現在、困難なカウントデータ(従属変数)に適したモデルを見つけるのに苦労しています。lmerand などのさまざまな異なるモデル(混合効果モデルが私の種類のデータに必要です)lme4や、Gaussianや負の二項分布などのさまざまなファミリを持つ一般化線形混合効果モデルを試しました。

しかし、結果の適合をどのように正しく診断するかについてはかなり確信が持てません。Webでそのトピックについて多くの異なる意見を見つけました。線形(混合)回帰の診断は非常に簡単だと思います。先に進んで残差(正規性)を分析し、残差と比較した近似値をプロットすることで不均一分散性を調べることができます。

ただし、一般化バージョンではどのように適切に行うのですか?今のところ、負の二項(混合)回帰に注目しましょう。私はここで残差に関するまったく反対の声明を見ました:

  1. では一般化線形モデルにおける正規の残差チェック、それはプレーンな残差が正常にGLMために配布されていないことを最初の回答で指摘されているが、これは明らかだと思います。ただし、ピアソンおよび逸脱残差も正常であるとは想定されていないことが指摘されています。それでも、2番目の答えは、逸脱の残差を正規に分布する必要があることを示しています(参照と組み合わせて)。

  2. ただし、逸脱残差を正規分布で分布させる必要があることは、?glm.diag.plots(Rのbootパッケージから)のドキュメントで示唆されています。

  3. 、このブログの記事、著者は最初のNB混合効果回帰モデルのためのピアソン残差は、私が想定し何の正常性を研究しています。予想通り(私の意見では)、残差は正常であるとは示されず、著者はこのモデルが不適切であると仮定しました。ただし、コメントで述べたように、残差は負の二項分布に従って分布する必要があります。私の意見では、GLM残差は通常の分布とは異なる分布を持つ可能性があるため、これは真実に最も近くなります。これは正しいです?ここで異分散のようなものをチェックする方法は?

  4. 最後の点(推定分布の変位値に対する残差のプロット)は、Ben&Yohai(2004)で強調されています。現在、これは私のために行く方法のようです。

簡単に言うと、特に残差に焦点を当てて、一般化線形(混合)回帰モデルのモデル適合をどのように適切に研究しますか?


1
GLMの残差は通常は正常ではありません(こちらを参照)が、GLMには多くの種類の残差があることに注意してください。例えば、glm.diag.plotsそれはジャックナイフされた逸脱残差のためだと言います(区別が重要だと思います)。また、カウントデータがあることを収集します。あなたはその事実に集中したいかもしれません。たとえば、カウントは(ある意味では)異分散であると想定されています。カウント回帰の診断プロットは役に立ちます(ただし、混合効果の側面には対応していません)。
GUNG -復活モニカ

私はあなたが言った投稿に精通しています。ただし、(偏差)残差は「非常に大きな残差と、通常からの偏差残差のかなりの偏差(すべてポアソンに反して)が見られる」を正常にする必要があることを示唆する記述もあります。
fsociety

回答:


18

この答えは、私の知識に基づいているのではなく、Bolker et al。(2009)ジャーナルTrends in Ecology and Evolutionに影響力のある論文を書きました。この記事はオープンアクセスではないので(Googleの学者で検索すると成功するかもしれませんが、質問の一部に対処するのに役立つ重要な文章を引用すると思いました。これは、GLMM(診断を含む)についての最も凝縮された情報を非常に単純明快で理解しやすい書体で表しています。診断に関する質問に関しては、大胆

ページ127:

非正規データに直面した研究者は、ノンパラメトリック検定を使用したり、バランスのとれた設計の非正規性に対する従来のANOVAの堅牢性に依存して、データを変換して正規性と分散の均一性を達成するなどのショートカットをよく試します[15]。それらは、ランダム効果を完全に無視するか(したがって、疑似複製をコミットする)、またはそれらを固定要素として扱うかもしれない[16]。ただし、このようなショートカットは失敗する可能性があります(たとえば、ゼロ値が多いカウントデータは変換によって正常にできません)。成功したとしても、統計的仮定に違反する可能性があります(ノンパラメトリックテストでさえ、たとえばグループ間の分散の均一性を仮定します)または推論の範囲を制限します(固定効果の推定値を新しいグループに外挿できません)。データを古典的な統計フレームワークに押し込むのではなく、研究者は、データと一致する統計的アプローチを使用する必要があります。一般化線形混合モデル(GLMM)は、生態学と進化で広く使用されている2つの統計フレームワーク、線形混合モデル(ランダム効果を組み込む)、および一般化線形モデル(リンク関数と指数族を使用して非正規データを処理する正規分布、ポアソン分布または二項分布)。GLMMは、ランダム効果を伴う非正規データを分析するための最適なツールです。原則として、行う必要があるのは、ランダム効果の分布、リンク関数、および構造を指定することだけです。線形混合モデル(ランダム効果を組み込む)および一般化線形モデル(リンク関数および指数族[正規、ポアソン、または二項)分布を使用して非正規データを処理する)GLMMは、ランダム効果を伴う非正規データを分析するための最適なツールです。原則として、行う必要があるのは、ランダム効果の分布、リンク関数、および構造を指定することだけです。線形混合モデル(ランダム効果を組み込む)および一般化線形モデル(リンク関数および指数族[正規、ポアソン、または二項)分布を使用して非正規データを処理する)GLMMは、ランダム効果を伴う非正規データを分析するための最適なツールです。原則として、行う必要があるのは、ランダム効果の分布、リンク関数、および構造を指定することだけです。

ページ129、ボックス1:

残差は、過分散を示しました、我々は準ポアソンモデルとデータを改装して、。大規模な推定スケールパラメーター(10.8)にもかかわらず、探索的グラフでは、個人、遺伝子型、または集団のレベルで異常値の証拠は見つかりませんでした。ランダム効果[49]、ランダム効果、固定効果モデルの選択に1自由度を使用して、準AIC(QAIC)を使用しました。

ページ133、ボックス4:

ここでは、GLMM分析の最初のステップである、完全な(最も複雑な)モデルを構築するための一般的なフレームワークの概要を説明します。このプロセスの後、メインテキストと図1で説明されているように、パラメーターを評価し、サブモデルを比較できます。

  1. 固定(治療または共変量)およびランダム効果(実験的、空間的または時間的ブロック、個人など)を指定します。重要な相互作用のみを含めます。経験則(ランダム効果ごとに5〜6のランダム効果レベル、治療レベルまたは実験単位ごとに10〜20を超えるサンプル)および適切なサンプルサイズの知識に基づいて、モデルを事前に複雑な実行可能なレベルに制限します。以前の研究[64,65]。

  2. エラー分布とリンク関数を選択します(例:カウントデータのポアソン分布とログリンク、割合データの二項分布とロジットリンク)。

  3. グラフィカルなチェック:データの分散(リンク関数によって変換された)はカテゴリ全体で均一ですか?変換されたデータの応答は、連続予測子に対して線形ですか?外れ値の個人またはグループはありますか?グループ内の分布は想定される分布と一致していますか?

  4. 固定効果GLMを、完全な(プールされた)データセットとランダムファクターの各レベル内の両方に適合させます[28,50]。推定パラメーターは、グループ全体にほぼ正規分布する必要があります(グループレベルのパラメーターは、特にサンプルサイズが小さいグループの場合、大きな不確実性を持つ可能性があります)。必要に応じてモデルを調整します(リンク関数の変更、共変量の追加など)。

  5. 完全なGLMMを取り付けます。コンピューターのメモリが不足しているか、遅すぎる:モデルの複雑さを軽減します。データのサブセットで推定が成功した場合、より効率的な推定アルゴリズムを試してください(適切な場合はPQLなど)。収束の失敗(警告またはエラー):モデルの複雑さを軽減するか、最適化設定を変更します(結果の答えが意味をなすことを確認してください)。他の推定アルゴリズムを試してください。ゼロ分散コンポーネントまたは特異点(警告またはエラー):モデルが適切に定義され、識別可能であることを確認します(つまり、すべてのコンポーネントを理論的に推定できます)。モデルの複雑さを軽減します。モデルに情報を追加する(追加の共変量、または変量効果の新しいグループ化)と、平均を減算することで連続共変量を中央揃えにする[50]ように、問題を軽減できます。必要に応じて、完全なモデルからランダム効果を除去し、(i)固有の生物学的関心が低い用語、(ii)推定された分散が非常に小さい、および/または不確実性が大きい用語、または(iii)相互作用用語を削除する。(収束エラーまたはゼロ分散は、データが不十分であることを示す可能性があります。)

  6. χ2

残差プロットを使用して過分散を評価し、変換された分散はカテゴリ全体で均一でなければなりません。この記事のどこにも、残差が正規分布しているとは言及されていません。

対照的な声明がある理由は、GLMM(127-128ページ)を反映していると思います...

...統計学者でさえ使用するのは驚くほど困難です。いくつかのソフトウェアパッケージがGLMMを処理できますが(表1)、生態学者や進化生物学者の多くは、さまざまなオプションや潜在的な落とし穴を認識しています。Google Scholarによって発見された2005年以降の生態学と進化に関する論文のレビューで、537のGLMM分析のうち311(58%)が何らかの方法でこれらのツールを不適切に使用しました(オンライン補足資料を参照)。

そしてここ診断を含むGLMMsを使用して、いくつかの完全な加工された例があります。

この答えはコメントに似ているため、そのように扱われるべきだと思います。しかし、コメントセクションでは、このような長いコメントを追加することはできません。また、この論文はこの議論にとって価値があると信じているので(残念ながら有料の壁の背後にある)、ここで重要な文章を引用するのが役立つと思いました。

引用論文:

[15]-GP Quinn、MJ Keough(2002):生物学者のための実験計画とデータ分析、ケンブリッジ大学出版局。

[16]-MJ Crawley(2002):統計計算:S-PLUS、John Wiley&Sonsを使用したデータ分析の紹介。

[28]-JC Pinheiro、DM Bates(2000):SおよびS-PLUSの混合効果モデル、Springer。

[49]-F.ヴァイダ、S。ブランチャード(2005):混合効果モデルの条件付き赤池情報。Biometrika、92、pp。351–370。

[50]-A.ゲルマン、J。ヒル(2006):回帰およびマルチレベル/階層モデルを使用したデータ分析、ケンブリッジ大学出版局。

[64]-NJ Gotelli、AM Ellison(2004):生態統計学入門、Sinauer Associates。

[65]-FJハレル(2001):回帰モデリング戦略、スプリンガー。

[66]-JK Lindsey(1997):一般化線形モデルの適用、スプリンガー。

[67]-W.ヴェナブルズ、BDリプリー(2002):Sの現代応用統計、スプリンガー。


おかげで、それは実際に役に立ちます。私はボルカーのコーディング例については知っていましたが、実際の紙についてはどういうわけか知りませんでした。それでも私が疑問に思うのは、何千ものグループを持つ非常に大規模なデータにグラフィカルチェックがどのように適用されるかということです。モデルを適切にチェックする方法に関するガイドラインを提供しようとするいくつかの論文(そのようなもの)はすべて、非常に小規模なデータにのみ適用されます。次に、グループを選択して、何かを視覚化する方がはるかに簡単です。将来、誰かがより複雑な例を経験すれば、良い科学的貢献ができると本当に思います。
fsociety

1
これが便利だったことをうれしく思います!提示された例はすでにかなり複雑であると思います(少なくとも私にとって)。テキストで述べられているように、より大きな問題は、より大きなデータセットとより複雑なモデルが計算的に実行不可能になる可能性があることだと思います。この計算は、せいぜい遅く、最悪の場合(たとえば、多数のランダム効果の場合)、計算上実行不可能です。」私が驚くべきこと、そして心に留めておくべきことは、私たちが活発に研究されているツールを使用しているということです!
ステファン

9

これは古い質問ですが、OPによって提案されたオプション4がDHARMa Rパッケージで利用可能になったことを追加すると便利だと思いました(CRANから入手可能、こちらを参照))で。

このパッケージにより、受け入れられた回答によって提案された視覚的な残留チェックがはるかに信頼性が高く/簡単になります。

パッケージの説明から:

DHARMaパッケージは、シミュレーションベースのアプローチを使用して、近似一般化線形混合モデルから容易に解釈可能なスケーリング残差を作成します。現在サポートされているのは、「lme4」の「merMod」クラス(「lmerMod」、「glmerMod」)、「glm」(「MASS」の「negbin」を含むが、準分布を除く)、および「lm」モデルクラスです。あるいは、外部で作成されたシミュレーション、たとえば「JAGS」、「STAN」、「BUGS」などのベイジアンソフトウェアからの事後予測シミュレーションも処理できます。結果の残差は0〜1の値に標準化され、線形回帰からの残差として直感的に解釈できます。このパッケージには、典型的なモデルの仕様不備の問題に対する多くのプロットおよびテスト関数も用意されています。


1
このスレッドに非常に良い追加!
ステファン
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.