離散データの適合度:最善のアプローチ


9

データ: この質問/コミュニケーションのために、データがrnbinom(1000,size=0.1,prob=0.01)Rのように見えると想定できます。これにより、負の二項分布から1,000観測のランダムサンプルが生成されます(size=0.1成功の確率ありprob=0.01)。これは、確率変数sizeが成功数の前の失敗数を表すパラメーター化です。尾は長く、1,000の観測値は多くのデータではありません。

問題: データ({1,2、....}の整数)[上記を参照](1,500データポイント)が与えられ、「最適な」分布とパラメーターの推定値を見つけるように求められました。データについて他に何も知りません。これは長い尾を持つデータの非常に大きなサンプルではないことを知っています。データが増える可能性があります。

私がやったこと: 2つの異なる分布をデータに当てはめて尤度比検定を使用することを検討しましたが、2つの分布がネストされていない限り、これは当てはまりません(適切な臨界p値を決定できないため) ...

次に、Kolmogorov-Smirnov検定(離散データ用に調整済み)の使用を検討しましたが、いずれにしても、Rで「tie with data」のp値を計算できないと不満がありました。

このコンテキストでさまざまなディストリビューションの適合性をテスト/決定するための最善の方法は何ですか?ここに私が検討した他のいくつかがあります:

  1. (たくさんの)より多くのデータを求める。しかし、これは役に立ちますか?たとえば、漸近的な結果を使用できますか?
  2. ブートストラップ/リサンプリング/モンテカルロ方式を検討してください。もしそうなら、これを正しく行う方法を学ぶために私が読むことができる/読むべき標準リファレンスはありますか?ありがとう

回答:


6

私があなたの質問を正しく理解していれば、データを分布合わせる必要があります。この場合、最尤推定(MLE)を使用し、二項分布ポアソン分布を含む離散分布をサポートするfitdistrfrom MASSパッケージなどのRパッケージの関数の1つを使用できます。

次に、2番目のステップとして、結果検証するために1つ(または複数)の適合度(GoF)テストを実行する必要がありますコルモゴロフ-スミルノフアンダーソン・ダーリングと(私の知る限り)リリーフォースは、すべてが離散分布には適用されませんテストします。ただし、幸いなことに、カイ二乗GoF検定は連続分布と離散分布の両方に適用でき、Rではstats::chisq.test()関数を呼び出すだけの問題です。

または、データが離散分布を表すので、vcdパッケージとその関数を使用できますgoodfit()。この関数は、標準のGoFテストの代わりとしてchisq.test()、またはさらに優れた完全なワークフロー分布フィッティングおよびGoFテスト)として使用できます。以下のための完全なワークフローオプション、単にデフォルトの設定を使用してパラメータを指定しないpar(あなたが指定することができsize、場合type = "nbinomial")。パラメータは、最尤または最小カイ2乗を使用して推定されます(方法を選択できます)。summary()関数を呼び出すことで結果を得ることができます。


3
離散KSテストは実際に存在します:stat.yale.edu/~jay/EmersonMaterials/DiscreteGOF.pdf
Astrid

@Astridニース!更新と新年あけましておめでとうございます!
Aleksandr Blekh 2018

四年は二度とないよりはましです:D新年もあなたに!
Astrid 2018

1
@Astrid "...遅くなるよりはましだ" - それと議論することはできません。:-) ありがとうございました!
Aleksandr Blekh 2018
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.