データベースのビン境界がカイ二乗適合度検定に及ぼす影響?


18

この種の状況でのカイ二乗の低電力の明らかな問題は別として、データをビニングすることにより、指定されていないパラメーターを使用して密度のカイ二乗検定を行うことを想像してください。

具体的には、平均が不明でサンプルサイズが100の指数分布であるとします。

ビンごとに合理的な数の予想観測値を取得するには、データのアカウントを取得する必要があります(たとえば、平均より下に6ビン、上に4ビンを配置することを選択した場合、データベースのビン境界を使用します) 。

しかし、データの表示に基づいたビンのこの使用は、おそらくヌル下の検定統計量の分布に影響を与えるでしょう。

パラメーターがビン化されたデータから最尤法で推定された場合、推定されたパラメーターごとに1 dfを失うという事実に関する多くの議論を見てきました(フィッシャー対カールピアソンにさかのぼる問題)-しかし、私は覚えていませんデータに基づいてビン境界自体を見つけることについては何でも読んでください。(ビン化されていないデータからそれらを推定する場合、ビンの場合、検定統計量の分布はと間のどこかにあります。)kχk2χkp2

データに基づいたビンの選択は、有意水準または電力に実質的に影響しますか?他よりも重要なアプローチがありますか?多くの効果がある場合、それは大きなサンプルで消滅するものですか?

実質的な影響がある場合、多くの場合、パラメータが不明な場合、カイ二乗検定を使用するように思われます(多くのテキストでまだ提唱されているにもかかわらず)。 -パラメータの事前推定。

問題または参照へのポインタの議論(できればそれらの結論に言及して)が役に立つでしょう。


編集、ほとんどの主要な質問は別として:

指数関数*の特定の場合(およびユニフォームが考えるようになった場合)には潜在的な解決策があると思いますが、ビン境界を選択する影響のより一般的な問題にまだ興味があります。

*たとえば、指数関数の場合、最小の観測値(たとえばと等しい)を使用して、ビンを配置する場所の非常に大まかな考えを取得できます(最小の観測値は平均指数関数であるため)次に、指数性について残りの差()をテストします。もちろん、それは非常に貧弱な推定値、したがって貧弱なビンの選択をもたらすかもしれませんが、合理的なビンを選択するための最低の2つまたは3つの観測値を取得し、次に指数性に関するこれらの最小次数統計の最大値を超える残りの観測値)μ / N N - 1 X I - M μmμ/nn1バツmμ


1
興味深い質問。答えはわかりませんが、ある程度の自由を失うべきだという考えは理にかなっています。あなたはすでにそれを見ていない場合は、@whuberすることにより、この答えは考えさせられるべきである:どのように理解自由度。少なくともいくつかの特定のケースについては、いくつかのシミュレーション研究により、ここで足掛かりをつかむことができるはずです。
グン-モニカの復職

1
これがどれほど役立つかはわかりませんが、ロバスト推定の分野でも同様の問題があります。具体的には、ロバスト推定の方法(トリミング平均など)では、パラメーター化された入力(トリミングする量を定義するパラメーターなど)が必要になることがよくあります。このパラメーターは、データ駆動型の方法で選択できます(たとえば、トリミングパラメーターを選択する前にテールの太さを確認します)。ただし、トリミングパラメーターの事前選択は、トリミングされた平均の分布に影響します。たとえば、固定パラメータールールに影響します。その文献で扱われる通常の方法は、ブートストラップを介したものです。
コリンTバウアーズ

@ColinTBowers-多少助けになる可能性があります、ありがとう。ブートストラップの可能性については考えませんでした。
Glen_b

1
問題を最も単純なケースに分解することは興味深いかもしれません。お気に入りの分布からわずか5つの観測値のようなものを想像し、データに単一の仕切りを入れて2つのビンのみを形成します。
zkurtz

回答:


15

カイ二乗適合度テストの基本的な結果は、階層的に理解できます

レベル0。固定確率ベクトルに対して多項標本を検定するための古典的なピアソンのカイ2乗検定統計量は、 X 2p = k i = 1X n in p i 2p ここで、 Xは、N iがに結果の数を表し、 Iサイズのサンプルのうち番目のセルに、N。これは、ベクトル Y n = Y n 1Y n kの2乗ノルムとして十分に見ることができますここで、 Y n i = X n in p i/

バツ2p==1kバツnnp2npdχk12
バツnnYn=Y1nYknとして分布の多変量中心極限定理が収束によってれ、 Y N D N0I-Yn=バツnnp/np このことから私たちが見ること X 2 = Y N 2χ 2 のk - 1以来の I -
YndN0ppT
バツ2=Yn2χk12はランクk1のべき等元です。ppTk1

pmp

バツ12==1kバツnnp^2np^dχkm12

λk

mm=1

バツ22==1kバツnnp^2np^dχkm12
p^

Z1ZnFλλχkm12χk12

YnN0pλpλTAλ

λAλ

YnBλ^

YnTBTBYndχk12
k

例は、Rao–Robson– Nikulin 統計およびDzhaparidze–Nikulin統計です。

k1/k^j=μ^+σ^0j0j=[F1j1/kF1j/k

参照資料

  1. A W. van der Vaart(1998)、漸近統計、ケンブリッジ大学出版局。第17章カイ2乗検定

  2. χ2

  3. FC Drost(1989)、クラス数が無限なる傾向がある場合の位置スケールモデルの一般化カイ二乗適合度テストAnn。統計、vol。17、いいえ。3、1285–1300。

  4. MS Nikulin、MS(1973)、シフトおよびスケールパラメーターを使用した連続分布のカイ2乗検定Theory of Probability and its Application、vol。19、いいえ。3、559–568。

  5. KO DzaparidzeおよびMS Nikulin(1973)、Pearsonの標準統計の修正についてTheory of Probability and its Application、vol。19、いいえ。4、851〜853。

  6. KC Rao and DS Robson(1974)、指数ファミリー内の適合度検定のカイ二乗統計Comm。統計学者。、vol 3.、no。12、1139–1153。

  7. N.バラクリシュナン、V。ヴォイノフ、MSニクリン(2013)、カイ二乗適合度テスト、アプリケーション、アカデミックプレス。


5

以下に、私の質問に対する少なくとも部分的な回答を見つけました。(私はまだ誰かにそのボーナスを与えたいので、さらなる情報はありがたいです。)

χkp12p χ12kpχkp2χk2p

参照資料

ムーアDS(1971)、ランダムなセル境界を持つカイ二乗統計アン。数学。統計 、Vol 42、No 1、147–156。

χ2

χ2

χ2

χ2

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.