カウントデータの適切なモデルを決定するための戦略


16

カウントデータで使用するモデルを決定するための適切な戦略は何ですか?マルチレベルモデルとしてモデル化する必要があるデータを数えていますが、これを行うための最良の方法はバグまたはMCMCglmmを使用することを(このサイトで)推奨されました。しかし、私はまだベイジアン統計について学ぼうとしています。最初にデータを一般化線形モデルとして適合させ、データのネスト構造を無視することを試みるべきだと思いました(期待することについて漠然としたアイデアを得ることができるように)。

データの約70%は0であり、平均に対する分散の比率は33です。そのため、データは非常に分散しています。

いくつかの異なるオプション(ポアソン、負の二項、クアッシ、ゼロ膨張モデルを含む)を試した後、結果に一貫性がほとんど見られません(すべてから変化することは重要であり、何も意味がない)。

インフレと過剰分散に基づいて、どのタイプのモデルを選択するかについて、情報に基づいた決定を下すにはどうすればよいですか?たとえば、どのようにクアッシポアソンが負の二項(またはその逆)よりも適切であると推測できますか?また、どちらを使用しても超過ゼロが適切に処理された(または処理されなかった)ことをどのように確認できますか?同様に、ゼロ膨張モデルが使用された場合、これ以上の過分散がないことをどのように評価しますか?または、ゼロ膨張ポアソンとゼロ膨張負の二項式の間でどのように決定する必要がありますか?

回答:


9

予測を確認することで、カウントモデルをいつでも比較できます(好ましくは、ホールドアウトセットで)。J.スコットロングはこれについてグラフィカルに説明しています(予測値を実績値に対してプロット)。ここで彼の教科書は詳細に説明しますが、この文書の6.4も見ることができます

AICまたはBICを使用してモデルを比較できます。また、Voungテストと呼ばれるテストもありますが、これはあまり詳しくありませんが、ゼロインフレートと非ネストモデルを比較できます。10ページに簡単に説明するSasの論文があります。R 投稿にも実装されます


アドバイスをありがとう。モデルを決定する前に、私は間違いなく予測を調べようとします
ジョージ・

5

B_Minerが言ったことに追加するいくつかのこと:

1)モデルは「重要なものすべて」から「重要なものなし」までさまざまであると書きましたが、これはモデルを比較する良い方法ではありません。代わりに、予測値(B_minerが提案したとおり)と効果サイズを見てください。

2)データの70%が0である場合、0インフレのないモデルが適切であるとは想像できません。

3)ベイジアンになりたくない場合でも、SAS(PROC GLIMMIXまたはNLMIXED)およびR(さまざまなパッケージ)でGLMMを使用できます。ネストされた性質を無視すると、すべてが混乱する可能性があります。

4)一般に、どのモデルが最適であるかを決定することは、科学ではなく芸術です。使用する統計がありますが、それらは判断のガイドです。あなたが書いたものを見ると、ZINBモデル​​は正しく見えると思います


意図は、最終的にベイジアンを使用してこれをモデル化しようとすることですが、モデルをフィッティングする前にどのように決定を下すことができるかを理解しようとしていました。データのネストされた性質を無視する可能性がある場合は、それらを混乱させ、それらを最初にGLMMで試します。マルチレベルZINBを実行できるRの唯一のパッケージはglmmADMBです。他のパッケージをお勧めしますか?
ジョージ・ミカエリデス

4

私の理解では、特定のアイテムが他のカウントに対してゼロのカウントを生成する理由がある場合は、ゼロ膨張分布を使用する必要があります。言い換えれば、ゼロが他のカウントを生成するプロセスとは別のプロセスによって生成される場合、ゼロ膨張分布を使用する必要があります。サンプルに過剰分散があるため、この理由がない場合は、ゼロの豊富さを正確に表し、このパラメーターを自由に推定することで観測されていない不均一性を表すため、負の二項分布を使用することをお勧めします。前述のように、Scott Longの本は素晴らしい参考資料です。


ご回答有難うございます。実際、さまざまなアイテムが他のカウントに対して0を生成できるかどうかについて考え始めましたが、実際には0と他のカウントを説明するだけの変数がいくつかあると思います。したがって、おそらく最初にZINBを試して、これらの変数が期待どおりに機能するかどうかを確認する必要があります。
ジョージ

3

マットが言ったことに完全に同意しました。まず、データの背景について考えなければなりません。母集団にゼロを生成するトリガーがない場合、ZIモデルを適合させることは意味がありません。NBモデル​​の利点は、ガンマ分布ランダム変数で観測されていない不均一性を表示できることです。技術的に:過剰分散の主な理由は、異質性とインフレーションが見られないことです。私はあなたのフィット感が悪いとは思わない。フィットの良さを得るために、モデルの自由度と偏差を常に比較する必要があります。偏差Dがn-(p + 1)(これはdf)よりも高い場合、より良いモデルを検索する必要があります。過分散を取り除くためのZINBより優れたモデルはほとんどありませんが。

RにZINBを合わせたい場合は、パッケージpsclを取得してコマンドを使用してみてくださいzeroinfl(<model>, dist=negative)。詳細について?zeroinflは、必要なパッケージをロードした後を参照してください!

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.