GLMの残差はどこにありますか?


8

私は今、標準モデルに続いてGLMに移行しています。

標準モデルでは、

y = Xb + epsilon

また、イプシロンは正規分布であると想定されます。つまり、

y - Xb = epsilon

次に、正規性の仮定を前提として、適切なノルムを使用してlhsを最小化できます。

GLMでは、これらの残差はどこにも見られないので、残差の仮定は何ですか?つまり、GLMを当てはめ、残差を決定するとき、分布の仮定をどのようにチェックしますか?qqplot?何に対して?通常の分位?または、選択した分布の分位点ですか?

私が理解しているGLM:

mu = Xb, mu = Ey, y follows some non-Gaussian distribution.


1
(+1)GLM偏差残差を対象としたサイト検索のヒットの一部は 有益です。
whuber

私は、正規化された分位残差について何か読みました。これは、モデルの仮定を前提として、常に正規分布する必要があります。標準の残差ではなく、通常のqqプロットで使用できますか?
待機

回答:


7

特定の残差は、使用される分布と従属変数の特性によって異なります。これらは非常に有益ではない場合もあれば、簡単に計算できない場合もあります。

残差の有用性は、モデルの動作の評価においても大きく異なります。バイナリ変数のロジスティック回帰が良い例です。すべての残差を計算できますが、キャリブレーションやHosmer-Lemeshowテストなどの要約がないと、それらを理解することは困難です。他のカテゴリ変数など、他の種類の要約も役立ちます。2つの異なるモデルから推定された確率を比較することから学ぶことができます。

  • 複数のカテゴリを持つ順序または名目ロジスティック回帰の場合、各観測値の確率のセットを計算できます。これらは便利な場合がありますが、簡単なグラフィカルな方法や要約統計では解釈が困難です。

  • 打ち切り生存データの残差は一意に定義されていません。推定生存時間は、検閲の時間よりも長い場合も短い場合もあります。

  • 指数関数、負の2項、ポアソンなどの高度に歪んだ従属変数の残差は、モデルが歪度を低減または削除しないため、グラフィック表示で誤解を招く可能性があります。彼らはあなたに多くの大きな外れ値の印象を残します。場合によっては、ログなどの変換されたスケールでこれらを検査する方が良いでしょう。

したがって、質問に対する一般的な回答はありません。残差の使用はモデルによって異なります。

ガウス残差の場合、話は簡単です。残念ながら、線形モデルには単純化されたアルゴリズム的な方法では解決できない問題があることがよくあります。


5

@DavidSmithの回答に加えて、より正式な用語がいくつか続きます。

一般化線形モデルは、リンク関数の結果として平均分散関係を呼び出します。分散は単に平均の関数であるため、GLMには残差はありません。したがって、GLMを作成するときの形式は次のとおりです。

g(E[Y|X])=βX

どこ g リンク関数、用語 βX 線形予測子です ν そして変換された値 g1(βX)は適合値です。一般的に、ケースはE[Y]=g1(βX) 意味する var(Y)=βg1(βX)。たとえば、ロジスティック回帰では、逆ロジットリンクg1(x)=log(X1X) 持っている g1バツ=ログ11バツ=g1バツ1g1バツ 2番目の式は二項分散として簡単に認識されます。

二項、ポアソン、指数などの一般的な確率モデルの推定方程式を作成すると、情報(または分散)が平均に依存し、他には何も依存しないことが実際にわかります。これらの1つのパラメーターモデルは、名前が示すように、1つのパラメーター(対数オッズまたは対数相対レートなど)のみを使用して、予測結果と予測子および対応するリンク関数の線形結合に関連付けます。リンクの影響関数(勾配または導関数)は、平均を分散に関連付けます。

ガウス確率モデルは、2項(ロジスティック)モデルとは異なり、分散項(シグマまたは残差分散)を含む2つのパラメーターモデルです。ガウスモデルは、残差分散をモデル内の個別の項として記述できるため、他の2つのパラメーターモデル(負の二項またはガンマなど)とも異なります。

基本的に、通常の独立したエラーを伴う通常の最小二乗は、実際にどこに書き込むことができるかを知っている唯一のケースです。 y=βバツ+ε 意味のある。

予想される結果を観察された結果にどのように関連付けるかというより大きな問題は複雑です。通常のモデルでは、これは、期待値と観測値の単純な違いであり、残差を取得します。GLMでは、平均は次の関数として変化するため、分散は不均一です。バツ、ピアソン化された残差を取得するために期待される標準誤差で割ることにより、各残差を標準化できます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.