2つの分布を組み合わせるモデルでの適合度の測定


9

モデル化しようとしている二重ピークのあるデータがあり、それらを個別に処理することができないほどピーク間に十分なオーバーラップがあります。データのヒストグラムは次のようになります。

代替テキスト

このために2つのモデルを作成しました。1つは2つのポアソン分布を使用し、もう1つは2つの負の二項分布を使用します(過剰分散を説明するため)。どのモデルがデータに正確に適合するかを判断する適切な方法は何ですか?

私の最初の考えは、コルモゴロフ・スミルノフ検定を使用して各モデルをデータと比較し、次に尤度比検定を行って、1つが非常に優れているかどうかを確認することです。これは理にかなっていますか?もしそうなら、私は尤度比検定を実行する方法を正確に知りません。カイ二乗は適切ですか、そして私にはいくつの自由度がありますか?

それが役立つ場合、モデルの一部の(非常に簡略化された)Rコードは次のようになります。

## inital data points
a <- read.table("data")

#create model data
model.pois = c(rpois(1000000,200),rpois(500000,250))
model.nb = c(rnbinom(1000000,200,0.5),rnbinom(500000,275,0.5)

#Kolmogorov-Smirnov test
#use ks.boot, since it's count data that may contain duplicate values
kpois = ks.boot(model.pois,a)
knb = ks.boot(model.nb,a)

#here's where I'd do some sort of likelihood ratio test
# . . .

編集:これは、データと私がよりよく適合している分布を説明する画像です。2番目のモデル(過剰分散を説明するために負の二項分布を使用)がより適切であることは、視覚化から完全に明らかです。ただし、これを定量的に示したいと思います。 代替テキスト

(赤-データ、緑-モデル)


各ビンの値の確率分布を知っていますか?y軸のラベルは、これがポアソニアンまたは多項式である可能性があると思いますか (モデルが各ビンの平均を与えると仮定)
Andre Holzner

データは基本的に2つのポアソンプロセスから取得されますが、修正できない隠れた変数があり、過剰分散につながります。したがって、負の二項式は間違いなく優れたモデルです。(上記で追加した新しい画像/テキストを参照してください)。私のnbモデルがより定量的に適合することを示す必要があります。
chrisamiller 2010

1
実際の値と予測値の間の平均二乗誤差のようなメトリックはどうですか?

hrmm-私はそのアイデアが好きだ、Srikant。それは私が考えていたものよりもずっと単純ですが、それでも意味があります。以下の回答に回答してください。そうすれば、私がそれを信用して、担当者にあなたの道を送ることができます。私はまだ他の方法を聞くことに興味がありますが、これは今のところうまくいくかもしれません。
chrisamiller

回答:


4

実際の値と予測値の間の平均二乗誤差などのメトリックを使用して、2つのモデルを比較できます。


1
Glen_bの返答は私がさらに学ぶのに役立ちましたが、これは私の特定の状況に対する正しい答えでした。彼のためにもっと賛成票を投じ、スリカントのために受け入れられた答え。誰もが勝つ-すべてに感謝します。
chrisamiller

8

負の二項にはより多くのパラメーターがあるため、これらを直接比較することはできません。実際、ポアソンは限定的なケースであるという意味で負の二項内に「ネスト」されているため、NegBinは常にポアソンよりもよく適合します。ただし、これにより、尤度比検定のようなものを検討することができますが、ポアソンが負の二項式のパラメーター空間の境界にあるという事実は、検定統計量の分布に影響を与える可能性があります。

いずれの場合でも、パラメーターの数の違いが問題ではなかったとしても、パラメーターを推定しているため、KSテストを直接実行することはできません。KSは、すべてのパラメーターが指定されている場合に特化しています。ブートストラップを使用するというあなたの考えはこの問題を扱いますが、最初の問題は扱いません(パラメーターの数の違い)

また、適合度の滑らかなテスト(たとえば、Rayner and Bestの本を参照)も検討します。これにより、たとえば、カイ二乗適合度テストを関心のあるコンポーネントに分割できます(ポアソンモデルからの偏差を測定します)。この場合)-4次または6次と言って、これはNegBin代替の優れたパワーのテストにつながるはずです。

(編集:カイ二乗テストを介してポアソンフィットとネグビンフィットを比較することはできますが、電力は低くなります。スムーズ二乗テストで行われるように、カイ二乗を分割し、最初の4〜6個のコンポーネントだけを見ると、より良い場合があります。 。)


ありがとう。それはたくさんのことを明確にし、私がいくつかの研究をしなければならないであろうたくさんの新しい質問を開きます。私の主な質問は、あなたが言っていることは、二乗平均平方根誤差のような単純なものはこの問題に取り組む有効な方法ではないということですか?おそらくそれほど堅牢ではなく、p値が得られないことを認めますが、これは、あなたが参照している本のコピーを追跡しようとしているときにすばやく実行できることです。どんな考えでもいただければ幸いです。
chrisamiller

2
一連の点(x、y)があり、直線または2次曲線のどちらに当てはまるかを検討していたとします。RMSEを比較した場合、線は1つのパラメーターがゼロに設定された2次であるので、2次は常に直線を打ちます。パラメーターの最小二乗推定が正確にゼロ(連続応答の確率がゼロ)の場合、ネクタイ、そして他のすべてのケースではラインが失われます。それはポアソン対負の二項式と同じです-無料の負の二項式は、少なくとも無料のポアソンと同様に常にフィットできます。
Glen_b-モニカ

素敵な説明-今言っていることがわかります。当てはめるために回帰を行うのではなく、外部情報に基づいて追加のNBパラメーターを基にしているため、私の場合は少し異なると思います(var / mean比はNであると期待しています)。ポアソンはN = 1の特殊なケースであるため、私が実際に比較しているのはNの選択です。私が回帰を行っていた場合、NBは制約が少ないため、常により良い適合を見つけることができることに同意します。私の場合、Nの値を前もって選択しているので、フィットを悪化させるNのクレイジーな値を選択することは確かに可能です。
chrisamiller

私は確かにあなたが提案した適合度のスムーズなテストについて読んでいくつもりです。有益な回答をありがとう。
chrisamiller

データが過剰分散パラメーターの選択に含まれなかったことに気づかなかったことについて申し訳ありません。あなたのやり方でそれを行うことにはいくつかの議論があるかもしれませんが、外部推定が実際に観察するものを反映する可能性が高い場合、NBは依然として状況に応じていくつかの利点があるかもしれません。
Glen_b-モニカを
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.