データのサンプルがガンマ分布のファミリーに適合するかどうかをテストする方法は?


13

連続ランダム変数Xから生成されたデータのサンプルがあります。そして、Rを使用して描画したヒストグラムから、Xの分布は特定のガンマ分布に従っていると思います。しかし、私はこのガンマ分布の正確なパラメーターを知りません。

私の質問は、Xの分布がガンマ分布のファミリーに属するかどうかをテストする方法ですか?Kolmogorov-Smirnov検定、Anderson-Darling検定などの適合度検定がいくつか存在しますが、これらの検定を使用する際の制限の1つは、理論分布のパラメーターを事前に知っておく必要があることです。この問題を解決する方法を教えてください。


おそらく私は何かを見逃していますが、分布の適合性をテストするテストを既に知っていて、理論的な分布の値だけを知っている必要がある場合は、ガンマのパラメータの最尤推定量を使用するだけですパラメータの推定値を取得するためのデータの分布。次に、これらの推定値を使用して、テストの理論的分布を定義できます。
デビッド

デビッド、答えてくれてありがとう。答えは私が考えていたものでもありますが、このアイデアをサポートできる理論があるかどうかはわかりませんが、答えてくれませんか?
user8363

Rを使用する場合、この種のことを行う機能を備えたfitdistrplusパッケージを見てみたいと思うかもしれません。
GUNG -復活モニカ

回答:


8

この質問は、ヒストグラムの比較ではなく、正確な統計的テストを求めていると思います。推定パラメーターを使用してKolmogorov-Smirnov検定を使用する場合、推定パラメーターのない場合とは対照的に、nullの下での検定統計量の分布は、テストされた分布に依存します。たとえば、(Rで)を使用して

x <- rnorm(100)
ks.test(x, "pnorm", mean=mean(x), sd=sd(x))

につながる

        One-sample Kolmogorov-Smirnov test

data:  x 
D = 0.0701, p-value = 0.7096
alternative hypothesis: two-sided

私たちが得る間

> ks.test(x, "pnorm")

        One-sample Kolmogorov-Smirnov test

data:  x 
D = 0.1294, p-value = 0.07022
alternative hypothesis: two-sided 

同じサンプルxの場合。したがって、有意水準またはp値はヌルの下でモンテカルロシミュレーションによって決定する必要があり、推定分布の下でシミュレートされたサンプルからコルモゴロフスミルノフ統計の分布を生成します(観測されたサンプルがnullの下であっても、別のディストリビューションから取得されます)。


1
(+1)推定分布の下でサンプルをシミュレートするのが正しい理由がよくわかりません。パラメータの事前準備と、可能なすべての分布からのサンプルが必要だと思います...もう少し説明できますか?
エルビス

1
西安、あなたの答えはまさに私が心配したことです。つまり、「推定パラメーターでコルモゴロフ・スミルノフ検定を使用する場合、nullの下での検定統計量の分布は、検定された分布に依存します」。ただし、Xの分布はわかりません。より正確には、帰無仮説の下でのXの分布のパラメーターはわかりません。したがって、検定統計量の分布はモンテカルロを使用します。P値を得るためにモンテカルロを使用しないことでそれを解決する他の方法がありますか?ありがとう
-user8363

「観測されたサンプルはヌルの下でも別の分布に由来する」という事実を考慮するには、サンプルをブートストラップして、各複製でパラメーターを再推定するのが適切ではないでしょうか?
エルビス

1
@Elvis(1):これは古典的な統計であり、適合度問題のベイジアン解像度ではありません。ロケーションスケールパラメーターを持つ分布の場合、シミュレートされたサンプルのシミュレーションに使用されるパラメーターの選択は重要ではありません。
西安

1
@Elvis(2):生徒と話し合ったばかりのことです!ブートストラップは、ヌルではなく、データの真の分布の下でコルモゴロフ-スミルノフ距離の挙動を評価するのに役立ちます!フィッシャー-ネイマン-ピアソンの原則は、重要なのはヌルの下でのコルモゴロフ-スミルノフ距離の振る舞いであるため、観測された距離がヌルの下でこの分布に対して極端すぎる場合は拒否されます。
西安

4

データのガンマ分布を仮定してパラメーターのMLEを計算し、理論密度をデータのヒストグラムと比較します。2つが非常に異なる場合、ガンマ分布はデータの近似度が低くなります。正式な検定の場合、たとえば、最適なガンマ分布を経験的分布と比較するコルモゴロフ-スミルノフ検定統計量を計算し、有意性を検定できます。


3
+1、これは確かな答えです。ただし、ヒストグラムではなく理論的なガンマに対してqqプロットを調べることをお勧めします。偏差を評価する方が簡単です。
GUNG -復活モニカ

1
問題は、KSテストでは、データから推定されるのではなく、理論的な分布が事前に与えられることを前提としていることです。西安(部分的に)その点に答えた…
エルビス

最初にこのサンプルのデータを使用してMLS推定値を取得し、ガンマ分布でMLS推定値を使用してから、KSテストを使用してデータをガンマ分布(推定パラメーター付き)と比較しますか?
user8363

エルビス、理論的分布のパラメータが不明で推定する必要があるという問題を解決する方法を教えてください。このcasでは、KSテストを使用して仮説の比較的正確な判断を得るにはどうすればよいですか、ありがとうございます!
user8363

1
@Elvis:ガンマ分布の場合、正確な導出は不可能だと思います。cdf自体は、閉じた形式では使用できません。さらに、形状パラメーターがスケールでも位置でもないということは、形状パラメーターの各値に異なる分布があることを意味します...
西安
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.