カイ2乗GOFテストに使用するビンの数をどのように選択しますか?


8

私は放射性崩壊に関する物理学研究室の開発に取り組んでおり、私が取ったサンプルデータを分析する際に、驚いた統計の問題に遭遇しました。

放射線源による単位時間あたりの崩壊数がポアソン分布であることはよく知られています。ラボが機能する方法は、学生が時間枠ごとの崩壊の数を数え、それを何度も繰り返すことです。次に、カウント数でデータをビニングし、χ2推定された1つのパラメーター(平均)を使用した適合度検定。帰無仮説(データは、推定された平均値を持つポアソン分布から得られたもの)が成り立つかどうかを確認します。うまくいけば、彼らは大きなp値を取得し、物理学が実際に機能すると結論付けます(そうです)。

データをビニングした方法がp値に大きな影響を与えることに気付きました。たとえば、非常に小さなビンを多数選択した場合(たとえば、整数ごとに個別のビン:78カウント/分、79カウント/分など)、小さなp値が得られ、帰無仮説を拒否する必要があったでしょう。 。ただし、データをより少ないビンにビニングした場合(たとえば、スタージのルールで指定されたビンの数を使用:)、はるかに大きなp値が得られ、帰無仮説は拒否されませんでした。1+log2(N)

私のデータを見ると、非常にポアソン分布されているように見えます(予想されるカウント/分とほぼ完全に一致しています)。とはいえ、平均値から非常に離れたビンには数カウントがあります。つまり、非常に小さなビンを使用して統計を計算する場合、次のようないくつかの項があります: これにより、統計が高くなり、p値が低くなります。予想通り、予想される値がそれほど低くならないため、ビンの幅が大きくなると問題はなくなります。χ2

(ObservedExpected)2Expected=(10.05)20.05=18.05
χ2

質問:

GOFテストを実行するときにビンサイズを選択するための良い目安はありますか?χ2

この異なるビンサイズの結果の不一致は、私が知っておくべきことでしたか*または、提案されたデータ分析でいくつかのより大きな問題を示していますか?

- ありがとうございました

*(私は学部で統計学のクラスを受講しましたが、それは私の専門分野ではありません。)


感度と特異性の問題のようです。つまり、測定値が具体的すぎるため、タイプIIエラーが発生します。
Jay Schyler Raadt 2017

1
測定が具体的すぎるとタイプIIエラーが発生しますが、感度が高すぎるとタイプIエラーが発生します。たとえば、IQテストの非常に具体的なカットオフでは、IQ 70.1の子供は特別教育の資格がないままになる可能性がありますが、IQ 69.9の子供はそうではありません。これはタイプIIのエラーであり、「この子は適格ではない」という帰無仮説が誤って拒否されません。したがって、より感度の高い測定、より大きなネットが必要ですが、ネットが大きすぎると、帰無仮説が誤って拒否されるタイプIエラーが発生する可能性があります。
Jay Schyler Raadt 2017

2
1.期待値が小さい場合、カイ2乗近似はかなり悪くなる可能性があります-ただし、ビン幅を一定にする必要はありません(観測された値を参照して選択しない限り)。カウント)。2.「うまくいけば、彼らは大きなp値を取得し、その物理学は確かに(イェーイ)を作品結論だろう。」 -私はあなたが既に知っている期待するが、それは明確にする必要があります:ヌルを拒否する失敗はしないことを確認しnullはtrueです。これは、ポアソンからの偏差が確実に検出できるほど大きくなかったことを示唆しています。... ctd
Glen_b-モニカを復活させる

1
よろしくお願いします。@Whuber、他の質問に対するあなたの答えは信じられないほどです。では、最初の質問に対する答えは、基本的には「いいえ」であると言えますか。このレベルでは良い目安はありませんか?
Bunji

1
多くの考慮事項があります。経験則がいくつかあると思います。たとえば、私は通常、カウントの分布がどうなるかを推測し、それぞれが5以上のカウントにほぼ等しいと予想されるビンを作成することで成功しています。しかし、20を超えるビンが必要になることはまれです。分布の裾など、特定の範囲内の不一致を探していることがあります。そのため、詳細な違いを検出するために、より狭いビンを作成する場合があります。
whuber

回答:


1

この異なるビンサイズの結果の不一致は、私が知っておくべきことでしたか*または、提案されたデータ分析でいくつかのより大きな問題を示していますか?

放射性崩壊サンプルセットのビニングは、ここではニシンです。実際の問題は、カイ二乗(他の仮説テストフレームワークと同様に)がサンプルサイズに非常に敏感であるという事実から生じます。カイ二乗の場合、サンプルサイズが大きくなると、絶対差は期待値のますます小さな部分になります。そのため、サンプルサイズが非常に大きい場合、p値が小さく、結果が小さくて興味をそそらないときに統計的有意性が見つかることがあります。逆に、サンプルサイズが小さい場合、かなり強い関連付けはそれほど重要ではない可能性があります。

χ2GOFテストを実行する際にビンサイズを選択するための良い目安はありますか?

答えは、正しいNを見つけることを目指すべきではないようです(それが可能かどうかはわかりませんが、他の誰かが矛盾する場合は素晴らしいでしょう)が、Nが高い場合にのみp値を超えて調べます。これは主題についての良い論文のようです:Too Big to Fail:Large Samples and the p-Value Problem

PS Cramer's VG-Testなどのχ2テストの代替手段があります。ただし、大きなN->小さなp値でも同じ問題が発生します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.