GLMの特定のファミリの使用を検証できる診断はどれですか?


19

これはとても初歩的なように思えますが、私はこの時点で常に行き詰まります…

私が扱うデータのほとんどは非正常であり、ほとんどの分析はGLM構造に基づいています。現在の分析では、「歩行速度」(メートル/分)の応答変数があります。OLSを使用できないことは簡単にわかりますが、どの家族(ガンマ、ワイブルなど)が適切かを判断するのは非常に不確実です!

Stataを使用して、残差と不均一分散、残差と適合値などの診断を調べます。

カウントデータはレート(例:発生率)の形式を取り、ガンマ(過剰分散離散負二項モデルのアナログ)を使用できることを認識していますが、「喫煙銃」で「はい、正しい」と言いたいだけです。家族。これを行うには、標準化された残差と適合値を比較するのが唯一の最善の方法ですか?混合モデルを使用してデータの階層を説明したいのですが、最初に、どの変数が私の応答変数を最もよく説明しているかを整理する必要があります。

任意の助けに感謝します。Stata言語は特に高く評価されています!


4
私は「喫煙銃」に「はい、あなたには正しい家族がいます」と言ってほしいです-これは何もわかりません。期待できる最善のものは、明らかに間違っていない家族です。分布族を選択する方法は多数ありますが、一般的には、先験的または理論的な考慮事項とデータ自体からの指示の組み合わせが関係する傾向があります。
Glen_b

回答:


14

私はいくつかのヒントがあります:

(1)残差を近似と比較する方法は必ずしも明白ではないため、特定のモデルの診断に精通していることが望ましいです。たとえば、ロジスティック回帰モデルでは、適合度を評価するためにHosmer-Lemeshow統計が使用されます。推定オッズが非常に大きい、非常に小さい、またはほぼ偶数の場合、レバレッジ値は小さくなる傾向があります。など。

(2)モデルのあるファミリは別のファミリの特別なケースと見なされることがあるため、パラメータの仮説検定を使用して選択することができます。たとえば、指数関数対ワイブル。

(3)赤池の情報量基準は、異なるモデルを選択する際に役立ちます。これには、異なるファミリ間の選択が含まれます。

(4)モデリング対象に関する理論的/経験的知識は、もっともらしいモデルの分野を狭めます。

しかし、「正しい」家族を自動的に見つける方法はありません。現実のデータは、必要に応じて複雑な分布から取得することができます。また、データの量が増えると、適合しようとする価値のあるモデルの複雑さが増します。これはBoxの原則の一部であり、モデルは真実ではないが、一部のモデルは有用であるというものです。

Re @gungのコメント:一般的に使用されるHosmer-Lemeshow検定は、(a)ビンの選択に驚くほど敏感であり、(b)一般に、いくつかの関連する対立仮説クラスに対する他の検定よりも強力ではないようです。これはポイント(1)を損なうものではありません。最新であることも良いことです。


ありがとう!あなたの提案は簡潔で正確です。応答変数の構造(正、連続、非常にゆがんだ)があるため、使用できるファミリが限られています。指数関数ファミリーの中で、ガンマが本当に唯一のオプションであるようです。それまでの間、Stata Jounal 5(2)にあるNJ Coxの便利なツールをいくつか見つけました。多くのディストリビューションで行われ、最高の家族を私のデータに一致させることができます)。他の提案もありがとう!
RLang

1
Hosmer-Lemeshow GoFテストは、使用されるビニングに依存する/信頼できないことが示されていることに注意してください。
GUNG -復活モニカ

@Gung、それは明らかに使用されるビニングに依存します-理想的ではありませんが、ビニングをいじり始めて希望する結果を試さない限り、それは大きな問題ではありません。どのように信頼性が低く、他のどのテストが優れていますか?
Scortchi -復活モニカ

1
これらの問題の説明については、フランクハレルの回答:段階的モデル選択、Hosmer-Lemeshow統計、およびRのネストされたロジスティック回帰のモデルの予測成功を参照してください。
gung-モニカの回復

1
「無効」が強すぎるのは正しいことです。私は「信頼できない」とだけ言ったが、ハレルは「時代遅れ」を使用している。
グン-モニカの復職

8

ビネットを読むと面白いかもしれませんRパッケージ(入門マニュアル)fitdistrplus。Stataでの作業を好むことは承知していますが、ビネットは十分に自明であり、データから分布ファミリーを推測するプロセスについての洞察を得ることができると思います。おそらく、独自のコードを介してStataのアイデアのいくつかを実装できるでしょう。特に、Cullen and Freyグラフは、Stataで実装されている場合、または実装できる場合、役立つと思います。


私はこの問題を再訪し、Rに切り替えて、ZuurとIenoをガイダンスとして使用しています。まだ多くの問題がありますが、一般的に、varIdentを使用すると、モデル診断は「わずかな不均一性」を持っているように見えます。近似に対する残差のプロットは良さそうですが、各共変量に対する残差は、モデル変数の1つ(標高)のファンキーな結果を提供します-主に高標高でのサンプルサイズが小さい関数です。fitdistrplusについてのコメントをありがとう。RとRstudioを使用しているので、これは便利です!
RLang

1
リンクが壊れています。これはあなたが話していたイントロマニュアルですか?cran.r-project.org/doc/contrib/Ricci-distributions-en.pdf:またはにそれがこの1だったcran.r-project.org/web/packages/fitdistrplus/vignettes/...
emschorsch

後者のリンクは、私が言及していたビネットの異なるバージョンのようです。
GUNG -復活モニカ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.