カテゴリデータの非常に大きなサンプル(> 1,000,000)を毎日収集し、データ収集のエラーを検出するために、データが日ごとに「著しく」異なるように見えることを確認したい。
適合度テスト(特にG検定)を使用することは、これに適している(しゃれを意図している)と思いました。予想される分布は、前日の分布によって与えられます。
しかし、私のサンプルサイズは非常に大きいため、テストの出力は非常に高く、多くの誤検出が発生します。つまり、ごくわずかな日ごとの変動でも、p値はほぼゼロになります。
最終的に、テスト統計に定数(0.001)を乗算しました。これは、そのレートでデータをサンプリングするという良い解釈があります。この記事はこのアプローチに同意するようです。彼らは言った:
カイ2乗は、約100〜2500人のサンプルで最も信頼性が高い
これについて、より信頼できるコメントを探しています。または、大規模なデータセットで統計テストを実行する場合の誤検知に対する代替ソリューションの可能性があります。