負の二項分布を大量のデータに適合させる


9

約100万のデータポイントがあります。ここにファイルdata.txtへのリンクがあります。それらのそれぞれは0から145までの値を取ることができます。これは離散データセットです。以下は、データセットのヒストグラムです。X軸はカウント(0-145)であり、Y軸は密度です。

データのソース:空間に約20の参照オブジェクトと100万のランダムオブジェクトがあります。これらの100万個のランダムオブジェクトのそれぞれについて、これらの20個の参照オブジェクトに対してマンハッタン距離を計算しました。しかし、私はこれら20の参照オブジェクトの中で最短距離のみを考慮しました。だから私は100万のマンハッタン距離を持っています(あなたはポストで与えられたファイルへのリンクで見つけることができます)

Rを使用して、ポアソン分布と負の2項分布をこのデータセットに適合させようとしました。負の2項分布から生じる適合は妥当であることがわかりました。以下は、フィットした曲線です(青色)。

最終目標:この分布を適切にフィッティングしたら、この分布を距離のランダム分布と見なしたいと思います。次回、任意のオブジェクトからこれらの20個の参照オブジェクトまでの距離(d)を計算すると、(d)が有意であるか、ランダム分布の一部であるかを知ることができます。

ここに画像の説明を入力してください

適合度を評価するために、負の二項適合から得られた観測頻度と確率を使用して、Rを使用してカイ2乗検定を計算しました。青い曲線は分布にうまく適合していますが、カイ2乗検定から戻るP値は非常に低くなっています。

これは私を少し混乱させました。関連する質問が2つあります。

  1. このデータセットの負の二項分布の選択は適切ですか?

  2. カイ2乗検定のP値が非常に低い場合、別の分布を検討する必要がありますか?

以下は私が使用した完全なコードです:

# read the file containing count data
data <- read.csv("data.txt", header=FALSE)

# plot the histogram
hist(data[[1]], prob=TRUE, breaks=145)

# load library
library(fitdistrplus)

# fit the negative binomial distribution
fit <- fitdist(data[[1]], "nbinom")

# get the fitted densities. mu and size from fit.
fitD <- dnbinom(0:145, size=25.05688, mu=31.56127)

# add fitted line (blue) to histogram
lines(fitD, lwd="3", col="blue")

# Goodness of fit with the chi squared test  
# get the frequency table
t <- table(data[[1]])   

# convert to dataframe
df <- as.data.frame(t)

# get frequencies
observed_freq <- df$Freq

# perform the chi-squared test
chisq.test(observed_freq, p=fitD)

質問は2つしかありません。3日ありましたか?データは「0〜145の値を取ることができる」と言います。これは固定された可能な合計(145)の数ですか?
ガン-モニカの回復

外れ値。右側にテールが表示されます(または、ここにはいくつかの値しかないため、おそらく表示されません)。それが理由です。そして実際にあなたは見ることができます-あなたのフィットしたラインは右側のこれらの大きな男のために偏っています。
ドイツ語Demidov

@gung:返信ありがとうございます。入力を間違えました。質問は2つだけです。145:修正可能な合計ではありません。その確率変数が取り得る最大値。
user1275607 2016

変数が取ることができる最大値はなぜですか?
gung-モニカの復活

@gung:まあ、100万回サンプリングした後でそれが見つかりました(それが私が見つけた値です)。
user1275607 2016

回答:


8

最初に、適切な適合度テストまたは特定の分布のテストでは、サンプルサイズが十分に大きい場合、通常は帰無仮説が拒否されます。これは、特定の分布からデータが正確に発生し、関連するすべての要素も考慮に入れる状況にいることがほとんどないためです。 (測定されていない可能性がある)共変量。被験者/単位間のさらなる違いを説明します。ただし、実際には、このような偏差はかなり無関係であり、分布の仮定からの多少の偏差があったとしても、多くのモデルを使用できることはよく知られています(最も有名なのは、通常の誤差項を持つ回帰モデルの残差の正規性に関して)。

次に、負の二項モデルは、カウントデータの比較的論理的なデフォルトの選択です(これは、 0)。ただし、詳細はそれほど多くありませんが、より洗練されたものを示唆するデータの明らかな機能(たとえば、発生方法に関する)がある可能性があります。たとえば、負の二項回帰を使用して主要な共変量を説明することを検討できます。


お返事をありがとうございます。だから私は負の二項分布に固執するつもりです。
user1275607 16
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.