カウントデータがポアソン分布に適合しない場合の対処


7

私は博士の統計学の学生です。カウントデータのデータセットを使用しています。n方向のリアルタイムチャット会話に関与しているユーザーの数です。ユーザー数は1〜6人で、セットには約300個のデータがあります。

私の最初の動機は、データがポアソン分布に適合するかどうかを理解することでした。良い適合が見つかった場合、この結果をさらに推論するために使用できると考えていました。

長い話を短くするために、データを適合させようとしたところ、0.05の有意水準で適合できませんでした。したがって、私の仮説を拒否できます(ポアソン分布を使用してデータセットを近似できる)。

密度プロットを見ると、このように適合度が低いのは、「2人のユーザーに対して記録された値が多すぎるためです。ポアソン分布は、このビンの値が少ないほどよく適合します。しかし、私自身のデータ私は外れ値があると信じる理由はありません(つまり、上位または下位のビンに割り当てられる2人のユーザーとの会話)

users <- c(1, 2, 2, 1, 1, 1, 1, 2, 2, 3, 2, 2, 2, 1, 1, 1, 2, 2, 1, 1, 4, 3, 3, 3, 1,
        2, 1, 1, 2, 4, 3, 2, 2, 1, 2, 3, 2, 2, 1, 1, 1, 2, 2, 1, 1, 1, 2, 2, 1, 3,
        2, 1, 2, 3, 2, 1, 2, 1, 2, 1, 1, 3, 1, 1, 1, 2, 2, 2, 3, 1, 2, 1, 2, 4, 4,
        3, 2, 2, 3, 4, 3, 3, 3, 1, 2, 4, 2, 3, 3, 2, 4, 3, 1, 2, 4, 1, 2, 2, 2, 1,
        1, 1, 2, 3, 2, 4, 5, 2, 2, 4, 2, 2, 3, 3, 3, 2, 2, 3, 1, 3, 1, 1, 1, 2, 3,
        6, 3, 3, 4, 2, 2, 2, 3, 1, 1, 1, 2, 2, 3, 2, 2, 2, 1, 1, 1, 1, 2, 2, 2, 2,
        3, 3, 3, 1, 1, 2, 1, 2, 2, 2, 2, 2, 2, 4, 3, 3, 2, 1, 2, 4, 1, 2, 1, 2, 2,
        2, 3, 2, 2, 2, 2, 2, 3, 2, 2, 1, 1, 3, 1, 2, 1, 2, 3, 4, 2, 4, 3, 2, 2, 1,
        4, 2, 2, 1, 1, 2, 2, 2, 1, 1, 1, 2, 2, 3, 3, 1, 1, 2, 1, 2, 1, 3, 3, 3, 3,
        4, 6, 6, 5, 5, 2, 2, 3, 3, 3, 2, 3, 3, 4, 2, 3, 1, 3, 3, 1, 3, 2, 1, 3, 3,
        2, 1, 3, 1, 3, 2, 1, 1, 1, 1, 3, 1, 3, 4, 1, 4, 1, 3, 2, 3, 6, 2, 2, 3, 2,
        1, 2, 2, 2, 2, 2, 1, 2, 3, 2, 2, 4, 2, 2, 2, 3, 2, 2, 5, 3, 2, 2, 3, 2, 2,
        2, 5, 2, 1, 4, 1, 2, 2, 6, 1, 3, 2)


tu.fit <- goodfit(users,type="poisson", method = "MinChisq")
summary(tu.fit)
 Goodness-of-fit test for poisson distribution

             X^2 df     P(> X^2)
Pearson 69.37891  5 1.379945e-13

学部レベルの統計では、カウントデータはポアソン分布でモデル化できると教えられましたが、カウントデータが適合しない場合の対処法は教えられませんでした。

私のカウントデータがポアソン(またはその問題の他の分布)に適合する必要があるという前提に縛られていません。ただし、データセットを変換して別の離散分布に適合させるか、代わりに他のアプローチ(KDE)を試すかどうかの有効性を調査したいと思いました。それとも、私のデータがポアソン(または他の分布)に適していないと単純に結論付けて、そのままにしておくべきでしょうか?


(1)値としてのゼロは、アプリオリに不可能と思われるため、ポアソンをモデルとして除外します。しかし、なぜが可能な値なのでしょうか。たった一人の人が一方通行の「会話」に参加するというのはどういう意味ですか?(2)この一変量データセットに分布を当てはめることによって何を達成したいですか?それは「将来の推論」にどのように役立ちますか?正確には何についての推論?(3)ポアソン分布一致することに気づきましたか?1users-1
whuber

1
(1)次の場合に考えられる値です:ユーザーは(理由の如何を問わず)1行のメッセージを送信します誰もメッセージに応答しないか、さらに議論します。その場合、これはシングルユーザーの「グループチャット」です(2)ポアソンが当てはまる場合、可能な場合、次のチャットに正確な2,3,4,5ユーザーなどが含まれる確率について質問できます。(3 )users-1がポアソン分布と一致していたことを確認しなかったことを認めます。これはおもしろそうです、私はこれをさらに熟考する必要があります
Jonathan Dunne


そこで、AERパッケージの分散テスト関数を使用して計算した分散率と0.36の値を確認しました。これを分散性の低いデータセットの観点から見ると、セクション67385の一部のコメントで、特定のビンを高頻度で削除することが説明されています。他のコメントは、何らかのハードルの改善を示唆しています。whubers users-1は、適合した場合、ポアソン分布(ハードルの一種)に適しているとコメントしています。分散が不十分なデータを扱うときは常識的なアプローチを適用する必要があると思います。
ジョナサンダン2017年

1
@whuber私はこの質問への回答としてあなたのコメントを受け入れさせていただきます。
ジョナサンダン

回答:


8

やや単純化して、会話の自然史について考えてみましょう。

  1. 一人は、エーテルにメッセージを送信することで会話を開始します。

  2. 人々は応答します。新しい(一意の)回答者ごとに1がカウントに追加されます。

  3. メッセージへの応答はランダムです。個人が応答するかどうかは、

    • 彼らはメッセージを知っています
    • 現在対応する機会があります
    • 返信に興味があります。
  4. メッセージを受信できる人の数と比較すると、開始されるメッセージの数は比較的少ないです。したがって

    • ほとんどすべての個人が、1つまたは少数の管理可能な数のメッセージにいつでも応答します。

特性(3)および(4)は、ポアソン分布がいつでもメッセージに応答する人の数(つまり、カウントから1を引いた数)の良いモデルになることを示唆ています。私たちが知らないこと、およびすべてのメッセージがほぼ同じポアソンパラメーターを持っているかどうか、またはそれらのパラメーターがかなり変化するかどうかを想定しても安全ではないかもしれません。

したがって、良い出発点は、カウントから1引いたものがポアソン分布に適合するかどうかをテストすることです。 あるいは、ポアソンの混合からなるいくつかの過剰分散分布に適合する可能性があります。

ポアソンパラメーターの最尤推定値は、カウントの平均(マイナス1)であり、に等しくなります。(この計算には、「MinChisq」の推定値ではなく、MLの推定値を使用することが重要です。https://stats.stackexchange.com/a/17148/919を参照してください。)ポアソン確率とユーザーの総数の乗算予想されるユーザー数を示します。ここでは、実際の数と比較されます。λ1.20vcd::goodfit

          0   1  2  3 4 5
Expected 94 113 68 27 8 2
Actual   85 127 68 22 5 5

フィット感が似ています。カイ2乗統計量で測定できます。

χ2=(8594)294+(127113)2113++(52)22=9.61.

この合計の6つの項は、個々のカウントの不一致を測定します。彼らです

     0    1    2    3    4    5 
  0.88 1.79 0.00 0.93 1.18 4.82  

近い値は、良好な一致を示します。最後の値であるのみが大きいです。これは、カウント期待値小さいためです。通常、期待値が未満の場合、従来のテストでは信頼性が低下すると考えられています。ここでは、予想される6方向の数が少ないため、統計を少し大きくする必要があります。会話。 14.82255χ2χ2

それにもかかわらず、この統計はそれほど高くありません。仮定された変化しないポアソン分布の下では、この統計はおおよそ分布に従います。この分布は、この高値が時間のほぼ9%で発生する値を示しています。 一定のポアソン分布からの逸脱の証拠はほとんどないと結論付けます。χ2χ2(5)

ちなみに、データのプロットは、与えられた順序で、カウントの変動を示唆しています。このプロットのLowessの滑らかさが示唆するように、平均値は最初から最後まで少し増加します。

プロット

したがって、ポアソン分布のカイ2乗検定は最後の言葉ではなく、より詳細な分析の始まりと見なす必要があります。


以下は、R計算を実行して図を作成するために使用されるコードです。

counts <- table(users-1)
mu <- mean(users-1)
expected <- dpois(as.numeric(names(counts)), mu) * length(users)
x <- (counts - expected)^2 / expected
print(round(x, 2)) # Terms in the chi-squared statistic
print(rbind(Expected = round(expected, 0), Actual=counts)) # Compare expected to actual

library(ggplot2)
X <- data.frame(Index=1:length(users), Count=users)
g <- ggplot(X, aes(Index, Count)) + geom_smooth(size=2) + geom_point(size=2, alpha=1/2)
print(g)

user-1「トリック」をどう思いましたか?
Antoni Parellada 2017年

@Antoni推論の流れは、質問に対する私の最初のコメントに反映されています。そのコメントの(1)と(2)の間に、この回答で概説されているようなモデルが思い浮かんだので、データに対してカイ2乗検定をすばやく実行し、コメントの(3)を含めました。
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.