GLMのファミリーは、応答変数または残差の分布を表しますか?


13

私はこれについていくつかの研究室のメンバーと議論してきました、そして私たちはいくつかの情報源に行きましたが、まだ答えがありません:

GLMにポアソンのファミリーがあると言うとき、残差の分布または応答変数について話していますか?

競合のポイント

  1. この記事を読むと、GLMの仮定は、観測の統計的独立性、リンクと分散関数の正しい仕様(応答変数ではなく残差について考えるようになる)、応答変数の正しい測定スケールであると述べています。単一ポイントの過度の影響の欠如

  2. この質問には、それぞれ2つのポイントを持つ2つの答えがあります。最初に表示されるのは残差について、2番目は応答変数についてです。

  3. このブログ投稿では、仮定について話しているときに、「残差の分布は他のもの、たとえば二項分布である可能性がある」と述べています。

  4. この章の冒頭で彼らはエラーの構造はポアソンでなければならないが、残差は確かに正と負の値を持っていると言います。どうしてポアソンになりますか?

  5. この質問は、複製するためにこのような質問でよく引用されますが、受け入れられた答えはありません

  6. この質問の答えは、残差ではなく応答について語っています

  7. 、この Pensilvaniaの大学からのコースの説明彼らは仮定ではなく、残差に応答変数について話します

回答:


18

glmモデルのファミリー引数は、応答の条件付き分布の分布ファミリーを決定します。残差(モデルを除く)ではありません。

この方法を見てみましょう。通常の線形回帰のために、我々は、モデルを書くことができる

YiNormal(β0+xiTβ,σ2).
これは、応答Yiが正規分布(一定の分散)を持っているが、期待はiごとに異なることを意味します。したがって、応答の条件付き分布は正規分布です(ただし、iごとに異なる分布です)。このモデルを書き込む別の方法は、
Yi=β0+xiTβ+ϵi
、各場合ϵi分配されるNormal(0,σ2)

したがって、正規分布ファミリの場合、両方の説明は正しい(正しく解釈された場合)。通常の線形モデルのために、我々はモデルで明確に分離有するからであるシステマティックパートβ0+xiTβ)と外乱部ϵi単に追加されます)。しかし、他の家族機能については、この分離は不可能です!残差が何を意味するのかという明確な定義すらありません(そのため、「残差」の多くの異なる定義)。

したがって、他のすべてのファミリでは、上記の最初に表示された方程式のスタイルの定義を使用します。つまり、応答の条件付き分布です。したがって、いいえ、ポアソン回帰の残差(定義されたものは何でも)にはポアソン分布がありません。


13

Kjetilの優れた答えに加えて、条件付き分布の意味を明確にするのに役立つ特定の例をいくつか追加したいと考えました。

湖から100匹の魚を無作為に採取し、魚の年齢がいくつかの結果変数にどのように影響するかを見てみたいとしましょう。

  1. 魚の体重(体重);
  2. 魚が30cmより長いかどうか。
  3. 魚の鱗の数。

最初の結果変数は連続的で、2番目はバイナリ(0 =魚は30 cmより長くない、1 =魚は30 cmより長い)、3番目はカウント変数です。

単純線形回帰

年齢は体重にどのように影響しますか?次の形式の単純な線形回帰モデルを作成します。

Weight=β0+β1Age+ϵ

ϵσβ0+β1Age

単純なバイナリロジスティック回帰

年齢は、魚が30cmを超えるかどうかにどのように影響しますか?次の形式の単純なバイナリロジスティック回帰モデルを作成します。

log(p1p)=β0+β1Age

pβ0+β1Agepp(1p)

単純ポアソン回帰

年齢は魚の鱗の数にどのように影響しますか?次の形式の単純なポアソン回帰モデルを作成します。

log(μ)=β0+β1Age

μβ0+β1Age

要約すると、条件付き分布は、モデルに含まれる予測変数の特定の値の結果値の分布を表します。上に示した各タイプの回帰モデルは、Ageを指定した結果変数の条件付き分布に特定の分布仮定を課します。これらの分布の仮定に基づいて、モデルは(1)条件付き分布の平均が年齢の関数として変化する(単純な線形回帰)、(2)ロジット変換された条件付き分布の平均が年齢(単純な二項ロジスティック回帰)または(3)条件付き分布の対数変換平均は年齢の関数として変化します。

モデルのタイプごとに、モデルチェックの目的で対応する残差を定義できます。特に、ピアソンおよび逸脱残差は、ロジスティックおよびポアソン回帰モデルに対して定義できます。


2
優れた答え。お二人に感謝します。「実際の」残差が正規分布の場合のように一般的なGLMフレームワークで実際に明示的であることは決してありませんでした。
mlofton

1
@mlofton:優しい言葉をありがとう。優れた質問が優れた答えを招きました。私たちは皆、この知識の交換から利益を得ています。
イザベラギーメント

4
私はGLMを長い間(10年前のように1年か2年の間)使用していましたが、それは常に私の混乱でしたが、それがとても明確に尋ねられ、とても明確に説明されるまで、それが私の混乱であるとは知りませんでした。そのため、混乱は正しい質問をすることさえできないことを意味する場合があります。再度、感謝します。
mlofton

1
あなたは、絶対に正しい!混乱は学習の一部です。しばらくの間、何かに苦労すると、突然明確な説明を見つけたときに、それをよりよく理解できるようになります。
イザベラゲーメント

1
@IsabellaGhement-
パトリック
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.