ポアソンでない場合、これはどの分布ですか?


11

7日間に個人が実行したアクションの数を含むデータセットがあります。特定のアクションは、この質問には関係ありません。:ここでは、データ・セットのためのいくつかの記述統計ある

Range0772Mean18.2Variance2791Number of observations696

これはデータのヒストグラムです: アクションヒストグラム

データのソースから判断すると、ポアソン分布に適合すると考えました。ただし、平均≠分散、およびヒストグラムは左側に大きく重み付けされています。さらに、私はgoodfitRでテストを実行し、得ました:

> gf <- goodfit(actions,type="poisson", method = "MinChisq") <br>
> summary(gf) <br>
Goodness-of-fit test for poisson distribution <br>
X^2                   df         P(> X^2) <br>
Pearson 2.937599e+248 771        0  

最尤法でもp値= 0が得られました。帰無仮説を仮定すると、データはポアソン分布に一致し(ドキュメントではこれが指定されていません)、goodfitテストは帰無仮説を棄却する必要があることを示しているため、データはポアソン分布と一致します。

その分析は正しいですか?もしそうなら、どの分布がこのデータに合うと思いますか?

χ2


あなたはすでに負の二項式を試しましたか?これは役に立ちましたか?
Ric

@リチャード、私は負の二項式を試しました、そしてそれは適合しませんでした。しかし提案をありがとう。これがどのような分布であるかわからなかったため、分布を無視して、ノンパラメトリック検定であるマンホイットニーU検定を使用することにしました。
Dcook 2013

mean/variance=1pp

私の場合、ベルヌーイ裁判の概念が当てはまるとは思いません。成功または失敗の概念はありません。対象は、目的のアクションを実行するか、実行しません。彼らは失敗しない。したがって、成功の確率という考えは意味をなさない。裁判が時間の単位でない限り。しかし、その期間にサブジェクトが複数のアクションを実行するのを妨げるものは何もありません。
Dcook 2013

lmabda

回答:


8

分散が平均よりも大きい場合、これは過剰分散と呼ばれます。これの自然なモデルは、負の二項分布です。これは、パラメーターラムダがガンマ分布に従うポアソン分布と見なすこともできます。最初の簡単なステップは、負の二項分布を当てはめることです。


5

生のカウントデータがポアソン分布のように見えない場合は、何かが不足しています。おそらく、アクションの数は温度に依存しているため、暑い日には人々が行うことは少なくなります。次に、調査期間中の温度変化が分布に影響を与え、ポアソンにならないようにします。

ただし、毎日のアクション数はポアソンであり、平均は気温に依存します。毎日気温がある場合は、気温に応じて、アクションの数をポアソン変数として回帰するGLMを実行できます。それがうまく収まれば、仕事は完了です。

可能性のある説明変数がない場合は、「何か他のことが起こっています-アクションの数は独立したポアソンサンプルからではありません」-つまり、帰無仮説を拒否します。

ランキングなどを使用してペアの観測を比較できる、分布のない検定があります。通常、それらは多数の順列を行い、検定統計量を計算します...


4

もう1つ:カウントデータの外れ値も調査する必要があります。あなたは400-ishで1カウントを持っています、そして800-ishまで何もありません。これは、一般的なモデルのいずれにも適合しない可能性があります。


1

あなたはゼロイベントの数を数えているようです-そうであれば、ZIPモデル(またはハードル)を検討するかもしれません- 概要については、ZeileisらによるRのカウントデータの回帰モデルを参照してください。

おおまかに要約すると、これらのメソッドは、他のカウントとは別にゼロカウントをモデル化します。

psclパッケージとzeroinfl()hurdle()関数を参照してください。


1

私はあなたのヒストグラムが不正にビニングされていると思います。300を少し超える観測値 0から50の範囲全体に均等に広がっていて、約320が50から100の範囲全体に均等に広がっていて、50以上が100を超えている場合、平均は18.2より大幅に大きいはずです。

0から50の範囲のデータが均等に分散されておらず、0の近くに集中している場合、0から50の範囲よりも50から100の範囲で多く見られるのは驚くべきことです。

おそらく、あなたは分布の混合を持っているでしょう。誰もが実際の696の観察なしに、特にコンテキストについての詳細を知らなくても、これで多くのことができるとは思えません。696の観察のそれぞれは個人であり、応答は各個人が行ったアクションの数ですか?もしそうなら、データにはさまざまな種類の個人がいますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.