私は博士の統計学の学生です。カウントデータのデータセットを使用しています。n方向のリアルタイムチャット会話に関与しているユーザーの数です。ユーザー数は1〜6人で、セットには約300個のデータがあります。
私の最初の動機は、データがポアソン分布に適合するかどうかを理解することでした。良い適合が見つかった場合、この結果をさらに推論するために使用できると考えていました。
長い話を短くするために、データを適合させようとしたところ、0.05の有意水準で適合できませんでした。したがって、私の仮説を拒否できます(ポアソン分布を使用してデータセットを近似できる)。
密度プロットを見ると、このように適合度が低いのは、「2人のユーザーに対して記録された値が多すぎるためです。ポアソン分布は、このビンの値が少ないほどよく適合します。しかし、私自身のデータ私は外れ値があると信じる理由はありません(つまり、上位または下位のビンに割り当てられる2人のユーザーとの会話)
users <- c(1, 2, 2, 1, 1, 1, 1, 2, 2, 3, 2, 2, 2, 1, 1, 1, 2, 2, 1, 1, 4, 3, 3, 3, 1,
2, 1, 1, 2, 4, 3, 2, 2, 1, 2, 3, 2, 2, 1, 1, 1, 2, 2, 1, 1, 1, 2, 2, 1, 3,
2, 1, 2, 3, 2, 1, 2, 1, 2, 1, 1, 3, 1, 1, 1, 2, 2, 2, 3, 1, 2, 1, 2, 4, 4,
3, 2, 2, 3, 4, 3, 3, 3, 1, 2, 4, 2, 3, 3, 2, 4, 3, 1, 2, 4, 1, 2, 2, 2, 1,
1, 1, 2, 3, 2, 4, 5, 2, 2, 4, 2, 2, 3, 3, 3, 2, 2, 3, 1, 3, 1, 1, 1, 2, 3,
6, 3, 3, 4, 2, 2, 2, 3, 1, 1, 1, 2, 2, 3, 2, 2, 2, 1, 1, 1, 1, 2, 2, 2, 2,
3, 3, 3, 1, 1, 2, 1, 2, 2, 2, 2, 2, 2, 4, 3, 3, 2, 1, 2, 4, 1, 2, 1, 2, 2,
2, 3, 2, 2, 2, 2, 2, 3, 2, 2, 1, 1, 3, 1, 2, 1, 2, 3, 4, 2, 4, 3, 2, 2, 1,
4, 2, 2, 1, 1, 2, 2, 2, 1, 1, 1, 2, 2, 3, 3, 1, 1, 2, 1, 2, 1, 3, 3, 3, 3,
4, 6, 6, 5, 5, 2, 2, 3, 3, 3, 2, 3, 3, 4, 2, 3, 1, 3, 3, 1, 3, 2, 1, 3, 3,
2, 1, 3, 1, 3, 2, 1, 1, 1, 1, 3, 1, 3, 4, 1, 4, 1, 3, 2, 3, 6, 2, 2, 3, 2,
1, 2, 2, 2, 2, 2, 1, 2, 3, 2, 2, 4, 2, 2, 2, 3, 2, 2, 5, 3, 2, 2, 3, 2, 2,
2, 5, 2, 1, 4, 1, 2, 2, 6, 1, 3, 2)
tu.fit <- goodfit(users,type="poisson", method = "MinChisq")
summary(tu.fit)
Goodness-of-fit test for poisson distribution
X^2 df P(> X^2)
Pearson 69.37891 5 1.379945e-13
学部レベルの統計では、カウントデータはポアソン分布でモデル化できると教えられましたが、カウントデータが適合しない場合の対処法は教えられませんでした。
私のカウントデータがポアソン(またはその問題の他の分布)に適合する必要があるという前提に縛られていません。ただし、データセットを変換して別の離散分布に適合させるか、代わりに他のアプローチ(KDE)を試すかどうかの有効性を調査したいと思いました。それとも、私のデータがポアソン(または他の分布)に適していないと単純に結論付けて、そのままにしておくべきでしょうか?
users-1
は、適合した場合、ポアソン分布(ハードルの一種)に適しているとコメントしています。分散が不十分なデータを扱うときは常識的なアプローチを適用する必要があると思います。
users-1