glmモデルの残差診断プロットを解釈しますか?


33

glmモデルの残差プロットの解釈方法に関するガイドラインを探しています。特にポアソン、負の二項、二項モデル。モデルが「正しい」場合、これらのプロットから何を期待できますか?(たとえば、ポアソンモデルを扱う場合、予測値が増加すると分散が大きくなると予想されます)

答えはモデルに依存することを知っています。参考文献(または考慮すべき一般的なポイント)があれば参考になります。

回答:


16

これは、回帰分析を行うときに最も難しい部分の1つだと思います。また、私はほとんどの解釈と格闘しています(特に二項診断はおかしいです!)。

私はこの記事につまずい http://www.r-bloggers.com/model-validation-interpreting-residual-plots/ もリンクされ http://statmaster.sdu.dk/courses/st111/module04/index.html #SECTION00020000000000000000

私に最も役立つのは、残差対モデルに含まれるおよび含まれないすべての予測パラメーターをプロットすることです。これは、多重共直線性の理由で事前にドロップされたものも意味します。この箱ひげ図では、条件付き散布図と通常の散布図が優れています。これは、起こりうるエラーを見つけるのに役立ちます

「Forest Analytics with R」(UseRシリーズ)には、混合効果モデル(およびglms)の残差を解釈する方法についての適切な説明があります。よく読んでください!http://www.springer.com/statistics/life+sciences,+medicine+%26+health/book/978-1-4419-7761-8

いつか前に、ユーザーが「大丈夫」と「大丈夫でない」と投票できる残留パターンを収集できるウェブサイトについて考えました。しかし、私はそのウェブサイトを見つけたことがありません;)


8

次の方法をお勧めします。

 Buja, A., Cook, D. Hofmann, H., Lawrence, M. Lee, E.-K., Swayne,
 D.F and Wickham, H. (2009) Statistical Inference for exploratory
 data analysis and model diagnostics Phil. Trans. R. Soc. A 2009
 367, 4361-4383 doi: 10.1098/rsta.2009.0120

いくつかの異なるアイデアがありますが、それらは主に、真の関係が何であり、その関係が実際のデータの分析に基づいていることを知っているデータのシミュレーションに帰着します。次に、実際のデータの診断と、シミュレートされたデータセットの診断を比較します。vis.testRのTeachingDemosパッケージの関数は、論文の提案の1つのバリエーションを実装します。理解を深めるために、論文全体を読んでください(私の短い要約だけではありません)。


これは、散布図やその他のプロットでランダムから逸脱するパターンを見るための良い提案ですが、残差を表示するときの目標はそれだけではありません。多くの場合、ランダムからの特定の偏差に興味があります(例:異分散性、モデルの非線形性の指定ミス、変数の省略、外れ値、高レバレッジ値など)。ランダムに生成されたデータとの比較は、残差がランダムでもレメディでもない理由を特定するのに実際には役立ちません。
アンディW

@AndyW、私たちは元の質問を異なって解釈していると思います。私の答えは、調査する必要があるものがあるかどうか、または残差プロットが妥当かどうかを研究者に知らせることから始めます。それが合理的に見えない場合の対処方法は、次のステップであり、私の答えを超えています(ただし、新しいシミュレーションセットを使用していくつかの追加の仮定を比較できます)。
グレッグスノー

5

この質問は非常に古いものですが、最近ではDHARMa Rパッケージを使用して、任意のGL(M)Mの残差を標準化された空間に変換できるため、追加すると便利だと思いました。これが完了すると、通常の方法で、分布からの偏差、予測子への残留依存性、不均一分散または自己相関などの残留問題を視覚的に評価/テストできます。作業例については、パッケージビネットを参照してください。また、CVに関するその他の質問はこちらこちらをご覧ください

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.