これを一般化された線形モデルと考えようとするのはやり過ぎだと思います。あなたが持っているのは、単純な古い回帰モデルです。より具体的には、カテゴリカルな説明変数と連続EVがありますが、それらの間には相互作用がないため、これは古典的なANCOVAと呼ばれることもあります。
ここでは、#3は実際にあなたが心配する必要があるという仮定ではないと言うでしょう。また、その問題については、#2について本当に心配する必要はありません。代わりに、私はこれらを2つの異なる仮定で置き換えます。
2 '。分散の均一性
3 '。残差の正規性
さらに、#4はチェックする重要なことですが、私はそれをそれ自体が仮定であると本当に考えていません。仮定を確認する方法について考えてみましょう。
独立性は、多くの場合、最初にデータが何を表し、どのように収集されたのかを考えることによって「チェック」されます。さらに、runs test、Durbin-Watson test、または自己相関のパターンの検査などを使用して確認できます- 部分的な自己相関を調べることもできます。(これらは連続共変量に関連してのみ評価できることに注意してください。)
主にカテゴリ別の説明変数を使用すると、因子の各レベルで分散を計算することにより、分散の均一性を確認できます。これらを計算すると、それらがほぼ同じかどうかを確認するために使用されるいくつかのテスト、主にLeveneのテスト、およびBrown-Forsythテストがあります。もハートレイのテストと呼ばれるテストは、されていないお勧めします。それについてもう少し情報が必要な場合は、ここで説明しますFmは、Xが。(これらのテストは、上記とは異なり、カテゴリ共変量に適用できることに注意してください。)連続EVの場合、連続共変量に対して残差をプロットし、それらを視覚的に調べて、どちらに広がるかを確認します。
残差の正規性は、Shapiro-WilkやKolmogorov-Smirnov検定などのいくつかの検定で評価できますが、多くの場合、qq-plotで視覚的に最適に評価されます。(この仮定は一般的にセットの中で最も重要ではないことに注意してください;もしそれが満たされない場合、ベータ推定値は不偏になりますが、p値は不正確になります。)
個々の観測の影響を評価するには、いくつかの方法があります。これにインデックスを付ける数値を取得することは可能ですが、私のお気に入りの方法は、できれば、データをジャックナイフすることです。つまり、各データポイントを順番に削除し、モデルを再適合します。次に、その観測がデータセットの一部ではなかった場合、ベータがどの程度跳ね返るかを調べることができます。このメジャーはdfbetaと呼ばれます。これには少しプログラミングが必要ですが、ソフトウェアが自動的に計算できる標準的な方法があります。これらには、てこ比とクックの距離が含まれます。
最初に述べた質問に関して、リンク関数と一般化線形モデルについてもっと知りたい場合は、ここでかなり広範囲に議論しました。基本的に、適切なリンク関数を選択するために考慮すべき最も重要なことは、応答分布の性質です。はガウス分布であると考えるため、IDリンクは適切であり、回帰モデルに関する標準的なアイデアを使用してこの状況を考えることができます。 Y
「説明変数の正確な測定尺度」については、スティーブンの測定レベル(つまり、カテゴリー、序数、間隔、比率)を参照するようにしてください。最初に実現することは、回帰メソッド(GLiMを含む)は説明変数について仮定を行わず、代わりにモデルで説明変数を使用する方法がそれらについての信念を反映することです。さらに、私はスティーブンのレベルが過大評価されていると思う傾向があります。そのトピックのより理論的な取り扱いについては、こちらをご覧ください。