保険環境で請求件数データをモデル化する際に、私はポアソンから始めましたが、その後、過剰分散に気付きました。準ポアソンは、基本的なポアソンよりも大きい平均分散関係をよりよくモデル化しましたが、係数はポアソンモデルと準ポアソンモデルの両方で同一であることに気付きました。
これがエラーでない場合、なぜこれが起こっているのですか?ポアソンよりも準ポアソンを使用する利点は何ですか?
注意事項:
- 根本的な損失は過剰ベースであり、それが(私は)Tweedieの動作を妨げました-しかし、それは私が試した最初の分布でした。また、NB、ZIP、ZINB、およびハードルモデルを調べましたが、それでもQuasi-Poissonが最適であることがわかりました。
- AERパッケージのdispersiontestを使用して過分散をテストしました。私の分散パラメーターは約8.4で、p値は10 ^ -16の大きさでした。
- family = poissonまたはquasipoissonでglm()を使用し、コードのログリンクを使用しています。
- ポアソンコードを実行すると、「In dpois(y、mu、log = TRUE):non-integer x = ...」という警告が表示されます。
Benのガイダンスによる有用なSEスレッド:
Tweedieディストリビューションはより良いアイデアではないでしょうか?
—
-duffymo
最初からTweedieを試してみましたが、損失データはゼロからではなく、過剰に基づいています。カウントの分散に対処するために、負の二項モデル、ZIP、およびハードルモデルも試しました。
—
フランクH.
データの非整数値がどこから来たのかについてもう少し説明できますか?
—
ベンボルカー
の比率を計算して頻度/レートをモデル化しないでください
—
ベンボルカー
counts/exposure
。むしろ、offset(log(exposure))
モデルにオフセット()項を追加する必要があります。
これは実用的ですが、ポアソン(準ポアソンではない)モデリングを行うときに最も重要です。すぐに参照できる良いものは知りません。CrossValidatedで関連する回答がここに見つからない場合は、フォローアップの質問になります。
—
ベンボルカー