データ:
この質問/コミュニケーションのために、データがrnbinom(1000,size=0.1,prob=0.01)
Rのように見えると想定できます。これにより、負の二項分布から1,000観測のランダムサンプルが生成されます(size=0.1
成功の確率ありprob=0.01
)。これは、確率変数size
が成功数の前の失敗数を表すパラメーター化です。尾は長く、1,000の観測値は多くのデータではありません。
問題: データ({1,2、....}の整数)[上記を参照](1,500データポイント)が与えられ、「最適な」分布とパラメーターの推定値を見つけるように求められました。データについて他に何も知りません。これは長い尾を持つデータの非常に大きなサンプルではないことを知っています。データが増える可能性があります。
私がやったこと: 2つの異なる分布をデータに当てはめて尤度比検定を使用することを検討しましたが、2つの分布がネストされていない限り、これは当てはまりません(適切な臨界p値を決定できないため) ...
次に、Kolmogorov-Smirnov検定(離散データ用に調整済み)の使用を検討しましたが、いずれにしても、Rで「tie with data」のp値を計算できないと不満がありました。
このコンテキストでさまざまなディストリビューションの適合性をテスト/決定するための最善の方法は何ですか?ここに私が検討した他のいくつかがあります:
- (たくさんの)より多くのデータを求める。しかし、これは役に立ちますか?たとえば、漸近的な結果を使用できますか?
- ブートストラップ/リサンプリング/モンテカルロ方式を検討してください。もしそうなら、これを正しく行う方法を学ぶために私が読むことができる/読むべき標準リファレンスはありますか?ありがとう