一般化線形モデルの仮定


14

単一の応答変数(連続/正規分布)と4つの説明変数(3つは因子で、4つ目は整数)を使用して、一般化線形モデルを作成しました。アイデンティティリンク関数でガウス誤差分布を使用しました。現在、モデルが一般化線形モデルの仮定を満たしていることを確認しています:

  1. Yの独立
  2. 正しいリンク機能
  3. 説明変数の正しい尺度
  4. 影響のある観測はありません

私の質問は、モデルがこれらの仮定を満たしていることをどのように確認できますか?最良の出発点は、各説明変数に対して応答変数をプロットすることです。ただし、説明変数のうち3つはカテゴリ(1〜4レベル)であるため、プロットで何を探す必要がありますか?

また、説明変数間の多重共線性と相互作用をチェックする必要がありますか?はいの場合、カテゴリー説明変数を使用してこれを行うにはどうすればよいですか?

回答:


20

これを一般化された線形モデルと考えようとするのはやり過ぎだと思います。あなたが持っているのは、単純な古い回帰モデルです。より具体的には、カテゴリカルな説明変数と連続EVがありますが、それらの間には相互作用がないため、これは古典的なANCOVAと呼ばれることもあります。

ここでは、#3は実際にあなたが心配する必要があるという仮定ではないと言うでしょう。また、その問題については、#2について本当に心配する必要はありません。代わりに、私はこれらを2つの異なる仮定で置き換えます。

2 '。分散の均一性
3 '。残差の正規性

さらに、#4はチェックする重要なことですが、私はそれをそれ自体が仮定であると本当に考えていません。仮定を確認する方法について考えてみましょう。

独立性は、多くの場合、最初にデータが何を表し、どのように収集されたのかを考えることによって「チェック」されます。さらに、runs testDurbin-Watson test、または自己相関のパターンの検査などを使用して確認できます- 部分的な自己相関を調べることもできます。(これらは連続共変量に関連してのみ評価できることに注意してください。)

主にカテゴリ別の説明変数を使用すると、因子の各レベルで分散を計算することにより、分散の均一性を確認できます。これらを計算すると、それらがほぼ同じかどうかを確認するために使用されるいくつかのテスト、主にLeveneのテスト、およびBrown-Forsythテストがあります。もハートレイのテストと呼ばれるテストは、されていないお勧めします。それについてもう少し情報が必要な場合は、ここで説明しますFmaバツ。(これらのテストは、上記とは異なり、カテゴリ共変量に適用できることに注意してください。)連続EVの場合、連続共変量に対して残差をプロットし、それらを視覚的に調べて、どちらに広がるかを確認します。

残差正規性は、Shapiro-WilkKolmogorov-Smirnov検定などのいくつかの検定で評価できますが、多くの場合、qq-plotで視覚的に最適に評価されます。(この仮定は一般的にセットの中で最も重要ではないことに注意してください;もしそれが満たされない場合、ベータ推定値は不偏になりますが、p値は不正確になります。)

個々の観測の影響を評価するには、いくつかの方法があります。これにインデックスを付ける数値を取得することは可能ですが、私のお気に入りの方法は、できれば、データをジャックナイフすることです。つまり、各データポイントを順番に削除し、モデルを再適合します。次に、その観測がデータセットの一部ではなかった場合、ベータがどの程度跳ね返るかを調べることができます。このメジャーはdfbetaと呼ばれます。これには少しプログラミングが必要ですが、ソフトウェアが自動的に計算できる標準的な方法があります。これらには、てこ比クックの距離が含まれます。

最初に述べた質問に関して、リンク関数と一般化線形モデルについてもっと知りたい場合は、ここでかなり広範囲に議論しまし。基本的に、適切なリンク関数を選択するために考慮すべき最も重要なことは、応答分布の性質です。はガウス分布であると考えるため、IDリンクは適切であり、回帰モデルに関する標準的なアイデアを使用してこの状況を考えることができます。 Y

「説明変数の正確な測定尺度」については、スティーブンの測定レベル(つまり、カテゴリー、序数、間隔、比率)を参照するようにしてください。最初に実現することは、回帰メソッド(GLiMを含む)は説明変数について仮定を行わ、代わりにモデルで説明変数を使用する方法がそれらについての信念を反映することです。さらに、私はスティーブンのレベルが過大評価されていると思う傾向があります。そのトピックのより理論的な取り扱いについては、こちらをご覧ください


1
Opにはリンク関数が含まれていたため、彼は本当にリンク関数がYに適用される一般化線形モデルを意味していたと思います。また、Yの独立性を前提として呼び出します。モデル内のエラー成分は独立しているというのがより適切だと思います。Gungが書いた残りの部分は正しいと思います。
マイケルR.チャーニック

@MichaelChernick、私はあなたに同意します。これらの問題に対処するため、回答を少し編集しました。さらに作業が必要だと思われる場合はお知らせください。
GUNG -復活モニカ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.