この種の状況でのカイ二乗の低電力の明らかな問題は別として、データをビニングすることにより、指定されていないパラメーターを使用して密度のカイ二乗検定を行うことを想像してください。
具体的には、平均が不明でサンプルサイズが100の指数分布であるとします。
ビンごとに合理的な数の予想観測値を取得するには、データのアカウントを取得する必要があります(たとえば、平均より下に6ビン、上に4ビンを配置することを選択した場合、データベースのビン境界を使用します) 。
しかし、データの表示に基づいたビンのこの使用は、おそらくヌル下の検定統計量の分布に影響を与えるでしょう。
パラメーターがビン化されたデータから最尤法で推定された場合、推定されたパラメーターごとに1 dfを失うという事実に関する多くの議論を見てきました(フィッシャー対カールピアソンにさかのぼる問題)-しかし、私は覚えていませんデータに基づいてビン境界自体を見つけることについては何でも読んでください。(ビン化されていないデータからそれらを推定する場合、ビンの場合、検定統計量の分布はと間のどこかにあります。)
データに基づいたビンの選択は、有意水準または電力に実質的に影響しますか?他よりも重要なアプローチがありますか?多くの効果がある場合、それは大きなサンプルで消滅するものですか?
実質的な影響がある場合、多くの場合、パラメータが不明な場合、カイ二乗検定を使用するように思われます(多くのテキストでまだ提唱されているにもかかわらず)。 -パラメータの事前推定。
問題または参照へのポインタの議論(できればそれらの結論に言及して)が役に立つでしょう。
編集、ほとんどの主要な質問は別として:
指数関数*の特定の場合(およびユニフォームが考えるようになった場合)には潜在的な解決策があると思いますが、ビン境界を選択する影響のより一般的な問題にまだ興味があります。
*たとえば、指数関数の場合、最小の観測値(たとえばと等しい)を使用して、ビンを配置する場所の非常に大まかな考えを取得できます(最小の観測値は平均指数関数であるため)次に、指数性について残りの差()をテストします。もちろん、それは非常に貧弱な推定値、したがって貧弱なビンの選択をもたらすかもしれませんが、合理的なビンを選択するための最低の2つまたは3つの観測値を取得し、次に指数性に関するこれらの最小次数統計の最大値を超える残りの観測値)μ / N N - 1 X I - M μ