オフセットを伴うポアソンランダム効果モデルの過剰分散とモデリングの代替


12

被験者内実験を使用した実験研究からのカウントデータをモデル化する際に、多くの実際的な質問に遭遇しました。実験、データ、およびこれまでに行ったことを簡単に説明した後、質問をします。

回答者のサンプルに対して、4つの異なる映画が順番に表示されました。各映画の後にインタビューが行われ、RQ(予測カウント変数)に関係する特定のステートメントの出現回数をカウントしました。また、発生する可能性のある最大数(コーディング単位、オフセット変数)も記録しました。さらに、映画のいくつかの特徴が連続的な尺度で測定され、そのうちの1つは、映画の特徴がステートメントの数に与える影響の因果仮説があり、他は制御(予測)です。

これまでに採用されたモデリング戦略は次のとおりです。

因果変数を共変量として使用し、他の変数を制御共変量として使用するランダム効果ポアソンモデルを推定します。このモデルには、 'log(units)'(コーディング単位)に等しいオフセットがあります。ランダム効果は被験者全体で取得されます(映画固有のカウントは被験者にネストされます)。因果仮説が確認されました(因果変数の係数)。推定では、Rのlme4パッケージ、特に関数glmerを使用しました。

今、私は次の質問をしています。ポアソン回帰の一般的な問題は、過剰分散です。これは、負の二項回帰を使用し、その分散パラメーターが単純なポアソンモデルのモデルフィットを改善するかどうかを評価することでテストできることを知っています。ただし、ランダム効果のコンテキストでこれを行う方法はわかりません。

  • 自分の状況で過分散をテストするにはどうすればよいですか?適合方法を知っている単純なポアソン/負の二項回帰(ランダム効果なし)で過分散をテストしました。テストでは、過剰分散の存在が示唆されています。ただし、これらのモデルではクラスタリングが考慮されていないため、このテストは正しくないと思われます。また、過分散のテストに対するオフセットの役割についてもわかりません。
  • 負の二項ランダム効果回帰モデルのようなものがあり、それをRにどのように適合させる必要がありますか?
  • データを試してみるべき代替モデルの提案がありますか?つまり、反復測定構造、カウント変数、および露出(コーディング単位)を考慮に入れていますか?

1
手始めのために、中に「過分散」セクションをチェックアウトglmm.wikidot.com/faq
ベンBolker

1
ありがとう、とても助かりました!誰かがこの情報やその他の情報から答えをまとめたいと思うかもしれません。
トムカ

回答:


1

[0

有用な答えにつながる保証がない過分散をチェックするのではなく、分散のインデックスを調べて分散を定量化することはできますが、フィット品質検索の離散分布オプションを使用して最適な分布を検索することをお勧めしますプログラム、例えばMathematicaのFindDistributionルーチン。このタイプの検索は、既知の分布が過分散を緩和するだけでなく、他の多くのデータ特性をより有効にモデル化するのに最適なものを推測するかなり徹底的な仕事をします。違う方法。

さらに私の候補分布を調べるために、私は考えアドホック投稿調べる残差を等分散性を確認するために、および/または分散型、およびまた、候補分布は、データの物理的な説明に対応して和解することができるかどうか検討してください。この手順の危険性は、展開されたデータセットの最適なモデリングと矛盾する分布を識別することです。事後手順を行わないことの危険性は、適切にテストせずに任意に選択した分布をアプリオリに割り当てることです(ガベージインガベージアウト)。ポストホックの優位性アプローチは、フィッティングのエラーを制限することであり、それはその弱点でもあります。つまり、多くの分布フィッティングが試行されるため、純粋なチャンスを通じてモデリングエラーを過小評価する可能性があります。それが、残差を調べ、物理性を考慮する理由です。トップダウンまたは演繹的なアプローチの申し出がないように事後合理性のチェック。つまり、モデリングの物理性をさまざまな分布と比較する唯一の方法は、それらを事後比較することです。したがって、物理理論の性質が生じるため、多くの実験でデータの仮説的な説明をテストしてから、それらを使い尽くした代替説明として受け入れます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.