私は放射性崩壊に関する物理学研究室の開発に取り組んでおり、私が取ったサンプルデータを分析する際に、驚いた統計の問題に遭遇しました。
放射線源による単位時間あたりの崩壊数がポアソン分布であることはよく知られています。ラボが機能する方法は、学生が時間枠ごとの崩壊の数を数え、それを何度も繰り返すことです。次に、カウント数でデータをビニングし、推定された1つのパラメーター(平均)を使用した適合度検定。帰無仮説(データは、推定された平均値を持つポアソン分布から得られたもの)が成り立つかどうかを確認します。うまくいけば、彼らは大きなp値を取得し、物理学が実際に機能すると結論付けます(そうです)。
データをビニングした方法がp値に大きな影響を与えることに気付きました。たとえば、非常に小さなビンを多数選択した場合(たとえば、整数ごとに個別のビン:78カウント/分、79カウント/分など)、小さなp値が得られ、帰無仮説を拒否する必要があったでしょう。 。ただし、データをより少ないビンにビニングした場合(たとえば、スタージのルールで指定されたビンの数を使用:)、はるかに大きなp値が得られ、帰無仮説は拒否されませんでした。
私のデータを見ると、非常にポアソン分布されているように見えます(予想されるカウント/分とほぼ完全に一致しています)。とはいえ、平均値から非常に離れたビンには数カウントがあります。つまり、非常に小さなビンを使用して統計を計算する場合、次のようないくつかの項があります: これにより、統計が高くなり、p値が低くなります。予想通り、予想される値がそれほど低くならないため、ビンの幅が大きくなると問題はなくなります。
質問:
GOFテストを実行するときにビンサイズを選択するための良い目安はありますか?
この異なるビンサイズの結果の不一致は、私が知っておくべきことでしたか*または、提案されたデータ分析でいくつかのより大きな問題を示していますか?
- ありがとうございました
*(私は学部で統計学のクラスを受講しましたが、それは私の専門分野ではありません。)