線形モデルに対して一般化線形モデルをいつ使用するのですか?
一般化線形モデルでは、たとえば、エラーが通常以外の何らかの分布をもつことができることを知っていますが、なぜエラーの分布に関心があるのですか?なぜさまざまなエラー分布が役立つのですか?
線形モデルに対して一般化線形モデルをいつ使用するのですか?
一般化線形モデルでは、たとえば、エラーが通常以外の何らかの分布をもつことができることを知っていますが、なぜエラーの分布に関心があるのですか?なぜさまざまなエラー分布が役立つのですか?
回答:
GLMは、線形モデルのより一般的なバージョンです。線形モデルは、アイデンティティリンクを持つガウスGLMの特殊なケースです。それで問題はそれです:なぜ他のリンク関数または他の平均分散関係を使用するのですか?GLM は、私たちが興味を持っている特定の質問に答えるため、私たちはGLMに適しています。
たとえば、これらの変数間の関連付けに関心がある場合、線形回帰モデルにバイナリ応答を当てはめることには本質的に問題はありません。実際に、露出の低い50パーセンタイルで否定的な結果の割合が高く、上位50パーセンタイルで肯定的な結果の割合が高い場合、これにより、これらの間の正の関連を正確に表す正の傾斜線が生成されます。 2つの変数。
あるいは、S字型の曲線を使用して前述の関連付けをモデル化することに関心があるかもしれません。このような曲線の傾きと切片は、極端なリスクが0/1の確率に向かう傾向を示しています。また、ロジット曲線の傾きは、対数オッズ比として解釈されます。これは、ロジットリンク関数の使用を動機付けます。同様に、1または0に非常に近い近似確率は、研究デザインの複製の下では変動が少ない傾向があるため、と言う二項平均分散関係によって説明できます。これはロジスティック回帰を動機づけます。これらの線に沿って、この問題へのより現代的なアプローチは、対数リンクを利用する相対リスクモデルを当てはめることを提案します。これにより、指数トレンドラインの勾配は対数相対リスクとして解釈され、対数よりも実用的な値になります。オッズ比。
まあ、別のエラー分布を選択する理由はたくさんあります。しかし、そもそもなぜ変数の分布があるのか、あなたは気付いていないと思います。これが明らかな場合は、私の答えは役に立たないと思います。
見てください。分布があると、モデルを確率論的に考えることができます。つまり、モデルに関する不確実性を定量化できます。統計101で、標本の標本分布が平均(漸近的に)であることを知ると、確率論的枠組みで、仮説の検定、信頼区間の構築など、その推定に関する多くのもの。
線形モデルフレームワークでは、エラー項の分布がわかっていれば、基本的に同じことができます。どうして?これは確率変数の線形結合の結果です(この回答を参照してください)。しかし、重要なのは、この確率論的構造がモデルに存在する場合、私たちは再び一種のことを行うことができるということです。最も注目に値するのは、仮説のテストとCIの構築に加えて、定量化された不確実性、モデルの選択、適合度の検定、およびその他の要素を使用して予測を作成することです。
では、なぜGLMが特に必要なのでしょうか。まず、線形モデルの確率論的フレームワークは、カウントやバイナリデータなどのさまざまなタイプのデータを処理できません。これらのタイプのデータは本質的に通常の連続データとは異なります。つまり、高さが1.83メートルになる可能性がありますが、4.5の電灯が機能しないのは意味がありません。
したがって、GLMの動機は、主にリンク関数を使用することによって、または目的のモデルを線形の既知の「フレームワーク」に巧妙に操作することによって、さまざまなタイプのデータを処理することから始まります。これらのニーズとアイデアは、使用されている「フレームワーク」によってエラーがどのようにモデル化されるかに直接関連しています。
注意すべき点が2つあります。
1がなければねじ2ですが、1がある場合は、できれば2を取得します。
OLSを実行すると、エラー分布に関する非常に一般的な仮定の下で一貫性があります(外因性が必要なだけです)。ただし、GLSの方が効率的です。これは、サンプルが少ない場合に特に便利です。