ポアソン回帰でロバストな標準誤差を使用するのはいつですか?


10

カウントデータにポアソン回帰モデルを使用していて、パラメーター推定にロバストな標準誤差を使用しない理由があるかどうか疑問に思っていますか?ロバストなしの推定値の一部は有意ではない(たとえばp = 0.13)が、ロバストありの場合は有意(p <0.01)であるため、私は特に心配しています。

SASでは、これはproc genmod(例repeated subject=patid;)の繰り返しステートメントを使用して利用できます。私が使用してきたhttp://www.ats.ucla.edu/stat/sas/dae/poissonreg.htmを堅牢な標準誤差を使用しての支援でキャメロンとTrivediの(2009)の論文を引用例として。

回答:


6

一般に、エラーが不均一であるという疑いがある場合は、堅牢な標準エラーを使用する必要があります。ロバストなSEを使用しない場合に推定値が重要でなくなるという事実は、ロバストなSEの必要性を示唆しています(しかし証明しません)。これらのSEは、一般化線形モデルで不均一分散が引き起こす可能性のあるバイアスに対して「ロバスト」です。

この状況は少し異なりますが、ポアソン回帰の上に重ねます。

ポアソンには、データがそれをサポートしているかどうかにかかわらず、分散が平均と等しくなるように強制するというよく知られた特性があります。堅牢な標準誤差を検討する前に、この問題に悩まされない負の二項回帰を試してみます。標準エラーの結果として生じる変化が重要かどうかを判断するのに役立つテスト(コメントを参照)があります。

あなたが見ている変化(堅牢なSEに移動するとCIが狭くなる)が分散不足を意味するかどうかは確かではありませんが、それは可能性が高いようです。適切なモデルを見て(私は負の二項式だと思いますが、すばやくグーグルすると、分散不足の疑似ポアソンも示唆されますか?)、その設定で何が得られるかを確認してください。


いい答え!通常、OLSでは、不均一性が原因でパラメーターが不偏になることはありません(単に非効率的です)。これは当てはまりませんが、一般化線形モデルの場合は、参考のために、Dave Gilesによるこの投稿を参照てください。私はVuongテストがこれを推奨するのを見たことはないと思います(ネストされていないゼロインフレートモデルの比較のために、私はそれを提案しました)。ポアソンはネグ内にネストされています。二項モデル。分散パラメーターの尤度比検定を使用できます。
アンディW

回答ありがとうございます。私は負の二項回帰を試みましたが、「相対ヘッセ行列収束基準0.0046138565は0.0001の限界よりも大きいです。収束には疑問があります」という警告に遭遇しました。私の応答変数は0から4の範囲の値を持つカウントであることに注意してください。収束に役立つ従属変数または独立変数の変換はありますか?または、この場合何をしますか?
kara

また、非ロバストなSEが小さいことに関連して-私の分析では、小さいのはロバストなSEであり、これが重要な点です(非ロバストな結果ではない)。これが、堅牢な結果を報告するかどうかに注意したい理由です。重要なp値のために、この方法を選択したくありません。再度、感謝します!
kara

@AndyW私はメモを確認しましたが、VuongはZI vs Poissonにぴったりです。投稿を更新しました。カラ逆転を逃した。データが分散しすぎている可能性があります。その場合、NBDも解決策となる可能性があります:-)
Ari B. Friedman

@karaコメントで非収束問題を診断するのは難しい。その上で、できるだけ多くの情報を提供して、新しい質問を試してみます。
Ari B. Friedman

1

後者を「GEE」と呼び、実際には交換可能な定義であることから、モデルベースのエラーと堅牢な標準エラーを使用した分析を区別します。Scortchiの素晴らしい説明に加えて:

GEEは、10-50の被験者などの小さなサンプルで「バイアス」される可能性があります(Lipsitz、Laird、およびHarrington、1990; EmrichおよびPiedmonte、1992; SharplesおよびBreslow、1992; Lipsitz et al。、1994、Qu、Piedmonte、およびWilliams、1994; Gunsolley、Getchell、and Chinchilli、1995; Sherman and le Cessie、1997)。GEEが偏っていると言うと、セルカウントが小さいかゼロであるため、標準誤差の推定値は保守的または反保守的である可能性があります。 、どのフィッティング値がこの動作を示すか、および回帰モデルの全体的な傾向とどの程度一致するかに応じて。

一般に、パラメトリックモデルが正しく指定されている場合でも、モデルベースのCIから正しい標準誤差の推定値を取得できますが、GEEを使用することの全体のポイントは、その非常に大きな「if」に対応することです。GEEを使用すると、統計担当者はデータの稼働確率モデルを指定するだけでよく、パラメーターは(厳密なパラメトリックフレームワークで解釈されるのではなく)基礎となる未知のデータ生成に関係なく再現可能な値を生成できる「ふるい」の一種と見なされます機構。これは、GEEの例であるセミパラメトリック分析の核心です。

GEEは、独立した相関行列を指定した場合でも、データ内の共変動の測定されていないソースも処理します。これは、モデルベースの共分散行列ではなく、経験的行列を使用しているためです。たとえば、ポアソンモデリングでは、さまざまなストリームからサンプリングされたサケの受精率に関心があるかもしれません。雌の魚から収穫された卵子は、基礎となるポアソン分布を持っている可能性がありますが、共有遺伝性と特定の小川で利用可能なリソースで構成される遺伝的変異は、他の小川と比べてそれらの小川内の魚をより類似させるかもしれません。GEEは、サンプリングレートが人口比率と一致している(または他の方法で層別化されている)限り、正しい人口標準誤差の推定値を提供します。


1

等分散のヌルのテストを行います。これは、単純な補助的なOLS回帰です。CameronとTrivediの670ページに説明があります。過分散が大きい場合、標準誤差は大幅に低下するため、過分散が発生したときに非堅牢なVCEに依存する結果には非常に注意が必要です。分散が不十分な場合は、その逆になります。これは、現在のシナリオのように聞こえます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.