ポアソン回帰の過分散に対処する方法：準尤度、負の二項GLM、または被験者レベルのランダム効果？

ポアソン応答変数の過分散とすべての固定効果開始モデルに対処するための3つの提案に出会いました。

準モデルを使用します。
負の二項GLMを使用します。
被験者レベルのランダム効果を持つ混合モデルを使用します。

しかし、実際に選択するのはなぜですか？これらの間に実際の基準はありますか？

— ブライアン
ソース

準モデルは、スケール/分散パラメーターを迷惑パラメーターとして扱い、その不均一性によって拡大されるIRRにSEを提供しますが、負の二項IRRはスケールパラメーターに依存します。混合モデルは異なる効果をモデル化します。負の二項および準ポアソンモデルは限界モデルですが、個々のレベルまたは条件付き効果です。したがって、彼らは同じことを推定していません。

— AdamO

さて、実際にどれを選択するのか、そしてその決定をするための基準は何ですか？

— ブライアン

（データとは無関係に）ポアソンモデルが関心のある傾向を推定していることがわかっているが、設計またはデータ分析が分散の仮定を正確に満たしていない場合、準ポアソンを選択すると思います。確率モデルが実際に負の二項分布であると考える十分な理由があり、トレンドを推測するのではなく、実際に不均一分散性を予測する必要がある場合は、負の二項モデルを使用します。最後に、母集団ではなく個人に対する暴露の影響を知りたい場合は、混合モデルを使用します（つまり、毒物学では使用しないでください）。

— AdamO

@AdamO wrt "mixed model ...曝露が集団ではなく個人に及ぼす影響"に同意しません。私の理解では、混合モデルは被験者レベルの効果を定量化し、それらを統合します。基本的に、これはパラメーター推定からの疑似複製（同じ主題に関する複数の測定）を考慮し、母集団（個人ではなく）の不偏パラメーター推定に戻します。私はこの理由で常に混合モデルを使用しています...だから私はこれについて間違っていないことを願っています！

— RTbecard

ポアソン回帰は単なるGLMです。

人々は、ポアソン回帰を適用するためのパラメトリックな根拠についてしばしば話します。実際、ポアソン回帰は単なるGLMです。つまり、1つの平均結果のログが予測変数の線形結合であり、2）2つの仮定が満たされている場合、あらゆるタイプのデータ（カウント、評価、試験のスコア、バイナリイベントなど）に対してポアソン回帰が正当化されます結果の分散は平均に等しい。これらの2つの条件は、それぞれ平均モデルおよび平均分散関係と呼ばれます。

平均モデルの仮定は、予測子の調整の複雑なセットを使用することにより、ある程度緩和できます。リンク関数はパラメーターの解釈に影響するため、これは便利です。解釈の微妙さは、科学的な質問に答えることと、統計分析の消費者を完全に排除することとの違いを生み出します。別のSEの投稿で、解釈のための対数変換の有用性について説明します。

ただし、2番目の仮定（平均と分散の関係）には推論に強い影響があることがわかります。平均分散関係が真でない場合、パラメーター推定値はバイアスされません。ただし、標準誤差、信頼区間、p値、および予測はすべて不正確です。つまり、タイプIエラーを制御することはできず、次善の力を持っている可能性があります。

分散が平均に単純に比例するように平均分散を緩和できたらどうでしょうか？負の二項回帰と準ポアソン回帰がこれを行います。

準ポアソンモデル

準ポアソンモデルは尤度ベースではありません。それらは、比例定数までのポアソン尤度である「準尤度」を最大化します。その比例定数はたまたま分散です。分散は迷惑パラメータ。最大化ルーチンは迷惑パラメーターの推定値を算出しますが、その推定値は母集団に一般化される値ではなく、データの単なるアーティファクトです。分散は、分散が平均より比例的に小さいか大きいかによって、回帰パラメーターのSEを「縮小」または「拡大」するのに役立ちます。分散は迷惑パラメーターとして扱われるため、準ポアソンモデルは多くの堅牢な特性を享受します。データは実際には異分散であり（比例平均分散の仮定を満たさない）、小さな依存関係のソースさえ示すことができ、平均モデルは必要ありません正確に正しいが、回帰パラメーターの95％CIは漸近的に正しい。データ分析の目的が、一連の回帰パラメーターと結果の間の関連性を測定することである場合、通常は準ポアソンモデルを使用します。これらのモデルの制限は、予測区間が得られないこと、ピアソン残差が平均モデルの正確さについて詳しく説明できないこと、およびAICやBICなどの情報基準がこれらのモデルを他のタイプのモデルと効果的に比較できないことです。

負の二項モデル

負の二項回帰を2パラメーターポアソン回帰として理解することが最も役立ちます。平均モデルは、結果の対数が予測子の線形結合であるポアソンおよび準ポアソンモデルと同じです。さらに、「スケール」パラメータは、分散が以前のように平均に比例するだけの平均分散関係をモデル化します。ただし、準ポアソンモデルとは異なり、このタイプのモデルは正確な尤度ベースの手順です。。この場合、分散は母集団に対するある程度の一般化可能性を持つ実際のパラメーターです。これにより、準ポアソンに比べていくつかの利点がもたらされますが、私の意見では、より多くの（テスト不可能な）仮定を課しています。準ポアソンモデルとは異なり、データは独立している必要があり、平均モデルは正しい必要があり、スケールパラメーターは、正しい推論を得るために近似値の範囲全体で等分散でなければなりません。ただし、これらはPearson残差を調べることである程度評価でき、モデルは実行可能な予測と予測間隔を生成し、情報基準との比較に適しています。

負の二項確率モデルは、ポアソン-ガンマ混合から生じます。つまり、ポアソンレートパラメーターに「供給」される未知の変動ガンマランダム変数があります。NB GLMフィッティングは尤度ベースであるため、通常、データ生成メカニズムに関する事前の信念を述べ、手元のモデルの確率論的根拠にそれらを結び付けることが役立ちます。たとえば、24時間耐久レースを引退するレーサーの数をテストしている場合、環境条件はすべて測定しなかったストレッサーであり、タイヤに影響を与える湿気や寒さなどのDNFのリスクに寄与すると考えるかもしれませんトラクション、ひいてはスピンアウトとレックのリスク。

依存データのモデル：GLMMとGEE

ポアソンデータの一般化線形混合モデル（GLMM）は、上記のアプローチとは比較されません。GLMMは異なる質問に答え、異なるデータ構造で使用されます。ここでは、データ間の依存関係のソースが明示的に測定されます。GLMMは、ランダムな切片とランダムな勾配を使用して、個々のレベルの不均一性を考慮します。これにより、推定値が変更されます。ランダム効果は、上記で説明した分散だけでなく、モデル化された平均と分散を変更します。

依存データで測定できる2つの関連レベルがあります：人口レベル（限界）と個人レベル（条件）。GLMMは、個々のレベル（条件付き）の関連性を測定すると主張します。つまり、結果に対する個々のレベルの貢献者のホスト全体を考えると、予測子の組み合わせの相対的な効果は何ですか。例として、試験準備コースは、模範的な学校に通う子どもたちにはほとんど効果がないかもしれませんが、都心の子どもたちは非常に恩恵を受けるかもしれません。この状況では、個人レベルの効果は実質的に高くなります。これは、恵まれた子供たちがポジティブな被ばくに関して曲線をはるかに上回っているためです。

準ポアソンモデルまたは負の二項モデルを依存データに単純に適用すると、NBモデルは間違ってしまい、準ポアソンモデルは非効率になります。ただし、GEEは準ポアソンモデルを拡張してGLMMなどの依存構造を明示的にモデル化しますが、GEEは限界（人口レベル）の傾向を測定し、正しい重み、標準誤差、および推論を取得します。

データ分析の例：

この投稿はすでに長すぎます:) このチュートリアルの最初の2つのモデルの素敵なイラストと、興味があるならもっと読むための参考資料があります。問題のデータには、カブトガニの営巣習性が含まれています。雌は巣に座っており、雄（サテライト）は彼女に付着しています。調査員は、女性の特性の関数として、女性に付いている男性の数を測定したかった。混合モデルが比較できない理由を強調したいと思います：依存データがある場合、それらの依存データが答えようとしている質問に対して正しいモデルを使用する必要があります（GLMまたはGEE）。

参照：

[1] Agresti、カテゴリデータ分析第2版

[2] Diggle、Heagerty、Liang、Zeger、縦断的データの分析第2版。

— AdamO
ソース