GLM:配布およびリンク機能の選択の検証


14

ガウス分布と対数リンク関数を採用した一般化線形モデルがあります。モデルをフィッティングした後、残差をチェックします:QQプロット、残差対予測値、残差のヒストグラム(十分な注意が必要であることを認める)。すべてがよさそうだ。これは、(私にとって)ガウス分布の選択が非常に合理的だったことを示唆しているようです。または、少なくとも、残差がモデルで使用した分布と一致していること。

Q1:配布の選択を検証することを述べるのは遠すぎますか?

応答変数は常に正であるため、ログリンク関数を選択しましたが、それが適切な選択であることを何らかの確認が必要です。

Q2:リンク関数の選択をサポートできる、分布の選択の残差をチェックするようなテストはありますか?(リンク関数を選択することは、私には少しarbitrary意的であると思われます。私が見つけることができる唯一のガイドラインは、おそらく正当な理由のために、非常に曖昧で手ぶれです。)


2
Q1。他のディストリビューションを試して、パフォーマンスが向上するかどうかを確認できます。Q2。ポジティブな予測を保証するためにログリンクを選択することは、私にとってarbitrary意的ではないようです。それは理論的根拠です。ただし、IDリンクで否定的な予測を取得するかどうか、およびデータを順番に確認することができます。結論:他のモデルは、試してみるまで改善されないことを明確にすることはできません。
ニックコックス

1
YexpηR2

2
R2

回答:


13
  1. これは、帰無仮説を主張できるかどうかに関してよく寄せられる質問の変形です。あなたの場合、nullは残差がガウス分布であり、プロット(qqプロット、ヒストグラムなど)の視覚的検査が「テスト」を構成します。(nullをアサートする問題の一般的な概要については、ここで私の答えを読むと役立つ場合があります:統計学者は、null仮説を受け入れるのではなく、「nullを拒否できない」という意味の非有意な結果を言うのはなぜですか?)特定のケースでは、プロットは残差が正規性の仮定と一致することを示していると言えますが、それらは仮定を「検証」しません。

  2. 異なるリンク関数を使用してモデルを適合させて比較することはできますが、単独のリンク関数のテストはありません(これは明らかに間違っています。@ Glen_bの回答を参照してください)。ロジットモデルとプロビットモデルの違い(これはまったく同じではありませんが、読む価値があるかもしれません)に対する私の答えでは、リンク関数は次の要素に基づいて選択する必要があると主張しています。

    1. 応答分布の知識、
    2. 理論的考察、および
    3. データへの経験的適合。

    YYネガティブになることから、曲線の関係に特定の形状を誘導します。残差対適合値の標準プロット(おそらく、黄土適合をオーバーレイ)は、データの固有の曲率が、ログリンクによって課せられた特定の曲率に合理的に一致するかどうかを識別するのに役立ちます。先ほど述べたように、理論的な基準を満たす他の変換を試して、2つの近似を直接比較することもできます。


16

配布の選択を検証することを述べるのは遠すぎますか?

「検証」の意味に依存しますが、「はい、それは行き過ぎです」と言うのと同じように、「nullが真であることが示されている」とは言えません(特にポイントヌルを使用しますが、少なくとも何らかの意味でより一般的です)。「まあ、それが間違っているという強力な証拠はない」としか言えません。しかし、いずれにしても、モデルが完璧であるとは考えていません。モデルです。重要なのは、Box&Draperが言ったように、「役に立たないためにはどれだけ間違っている必要があるのか​​?

次の2つの前文のいずれか:

これは、(私にとって)ガウス分布の選択が非常に合理的だったことを示唆しているようです。または、少なくとも、残差がモデルで使用した分布と一致していること。

ログリンクのあるガウスモデルが正しいことではなく、診断が示すものをはるかに正確に記述しますが、それは合理的であるか、データと一貫性があります。

応答変数は常に正であるため、ログリンク関数を選択しましたが、それが適切な選択であることを何らかの確認が必要です。

あなたはそれが正でなければならないことを知っているなら、その平均は正でなければなりません。少なくとも一貫性のあるモデルを選択するのが賢明です。それが良い選択かどうかはわかりませんが(もっと良い選択があるかもしれません)、それは合理的なことです。それが私の出発点かもしれません。[しかし、変数自体が必然的に正である場合、私の最初の考えは、ガウスではなく、対数リンクのガンマになりがちです。「必然的に正」は、平均とともに変化する歪度と分散の両方を示唆しています。

Q2:リンク機能の選択をサポートできる、分布の選択の残差をチェックするようなテストはありますか?

「正式な仮説検定」のように「テスト」を意味するのではなく、「診断チェック」を意味するようです。

どちらの場合でも、答えは「はい」です。

1つの正式な仮説検定は、Pregibonのリンクの適合度検定です [1]。

これは、Box-Coxパラメーターの仮説検定を行うために、Box-Coxファミリーにリンク関数を埋め込むことに基づいています。

Breslow(1996)[2]のPregibonのテストの簡単な説明も参照してください(p 14を参照)。

η=gμバツ

rW=yμ^ημ

(私はこの評価に傾いています)、またはおそらく各予測子に1つのプロットを使用して、部分残差の線形性からの逸脱を見ます(たとえば、Hardin and Hilbe、一般化線形モデルと拡張、第2版​​4.5を参照) .4 p54、定義について)、

rkT=yμ^ημ+バツkβ^k

=rW+バツkβ^k

データがリンク関数による変換を許可する場合、線形回帰の場合と同じ方法で線形性を探すことができます(ただし、歪度や不均一分散性が残っている可能性があります)。

カテゴリー予測子の場合、リンク関数の選択は、利便性または解釈可能性の問題であるため、適合度は同じである必要があります(したがって、それらを評価する必要はありません)。

また、Pregibonのアプローチに基づいて診断を行うこともできます。

これらは完全なリストを形成しません。議論されている他の診断を見つけることができます。

[そうは言っても、リンク関数の選択は、最初は理論的な考慮事項などの可能性に基づいて最初に行うべきであるというgungの評価に同意します。]

この投稿のいくつかの議論も参照してください。これは少なくとも部分的に関連しています。

[1]:Pregibon、D.(1980)、
「一般化線形モデルのリンクテストの良さ」、
Journal of the Royal Statistical Society。シリーズC(応用統計)
Vol。29、No。1、15〜23ページ。

[2]:Breslow NE(1996)、
"モデルの線形一般化:チェック仮定と結論強化、"
にStatistica Applicata 8、23-41。
pdf

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.