回答:
まず私のアドバイスは、データと同じようにポアソン分布を試してはならないということです。ポアソン分布が特定のデータセットまたは現象に適合する必要がある理由について、まず理論を作成する必要があることをお勧めします。
これを確立したら、次の問題は、分布が均一かどうかです。これは、データのすべての部分が同じポアソン分布で処理されるか、時間や空間などの何らかの側面に基づいてこれに変化があるかを意味します。これらの側面を理解したら、次の3つのテストを試してください。
これらを検索すると、ネット上で簡単に見つけることができます。
役に立つかもしれないRコマンドのシーケンスを次に示します。間違いを見つけたら、気軽にコメントしたり編集したりしてください。
set.seed(1)
x.poi<-rpois(n=200,lambda=2.5) # a vector of random variables from the Poisson distr.
hist(x.poi,main="Poisson distribution")
lambda.est <- mean(x.poi) ## estimate of parameter lambda
(tab.os<-table(x.poi)) ## table with empirical frequencies
freq.os<-vector()
for(i in 1: length(tab.os)) freq.os[i]<-tab.os[[i]] ## vector of emprical frequencies
freq.ex<-(dpois(0:max(x.poi),lambda=lambda.est)*200) ## vector of fitted (expected) frequencies
acc <- mean(abs(freq.os-trunc(freq.ex))) ## absolute goodness of fit index acc
acc/mean(freq.os)*100 ## relative (percent) goodness of fit index
h <- hist(x.poi ,breaks=length(tab.os))
xhist <- c(min(h$breaks),h$breaks)
yhist <- c(0,h$density,0)
xfit <- min(x.poi):max(x.poi)
yfit <- dpois(xfit,lambda=lambda.est)
plot(xhist,yhist,type="s",ylim=c(0,max(yhist,yfit)), main="Poison density and histogram")
lines(xfit,yfit, col="red")
#Perform the chi-square goodness of fit test
#In case of count data we can use goodfit() included in vcd package
library(vcd) ## loading vcd package
gf <- goodfit(x.poi,type= "poisson",method= "MinChisq")
summary(gf)
plot(gf,main="Count data vs Poisson distribution")
主なポイントは、sidmaestroが提起するものだと思います...実験のセットアップまたはデータ生成メカニズムは、データがポアソン分布から生じる可能性があるという前提をサポートしていますか?
これらのテストは一般的にあまり有用ではないため、私は分布の仮定のテストの大ファンではありません。私にとってより有用と思われるのは、通常推論のために、モデルからの逸脱に対して柔軟で合理的に堅牢な分布またはモデルの仮定を行うことです。私の経験では、mean = varianceを見るのはそれほど一般的ではないため、多くの場合、負の二項モデルがより適切であるように思われ、特別な場合としてポアソンが含まれます。
ディストリビューションテストに行く上で重要なもう1つのポイントは、それがやりたいことである場合、観測されたディストリビューションが他のディストリビューションの混合になるような階層が含まれていないことを確認することです。個々の層固有の分布はポアソンに見えるかもしれませんが、観測された混合はそうではないかもしれません。回帰からの類似の状況は、Y | Xの条件付き分布が正規分布であり、実際にはY自体の分布ではないことを想定しています。
これをテストするさらに別の方法は、変位値変位値プロットを使用することです。Rにはqqplotがあります。これは、平均とsdが類似した正規分布に対して値を直接プロットします