独立性テストでカイ二乗分布が使用されるのはなぜですか?


12

χ2適合度検定は、次の使用統計

χ02=i=1n(OiEi)2Ei
試験では、条件が満たされていることを許可する、一つは使用χ2-分布を与えていることp値を計算するためにH0真の一つは同じ大きさの代表的な試料中のこのような値を観察することになるです。

しかし、統計のために、χ02従うχ2 -distributionを(とn1:自由度)、事実である必要があり 独立した標準の標準Ziウィキペディア)。テストの条件は次のとおりです(再び、Wikipediaから)。

i=1n(OiEi)2Ei=i=1n1Zi2
Zi
  1. 母集団のサンプル代表
  2. 大きなサンプルサイズ
  3. 予想される細胞数が十分に多い
  4. 各カテゴリー間の独立性

条件(1,2)から、サンプルから母集団への推論の条件を満たすことが明らかです。(3)分母にある離散カウントは各Z iに対してほぼ連続的な分布をもたらさず、十分に大きくなければ修正できるエラーがあるため、必要な仮定のようですイェーツ補正 -これはによってシフトので、連続的なものを『床の』離散分布は基本的であるという事実からであると思われる1 / 2それぞれについてはこれを補正します。EiZi1/2

(4)の必要性は後で役立つように思えますが、どのように見えるかわかりません。

最初は、は、統計が分布と一致するために必要です。疑わしい前提にこのリード私をそのOI-EIN0Zi=OiEiEi、これは実際に間違っていました。実際、等式の2辺のnからn1への次元の縮小から、これが当てはまらないことは明らかです。OiEiN(0,Ei)nn1

whuberの説明のおかげで、は各O iE iに等しい必要はないことが明らかになりました。Zi用語ためχ20=ΣN-1=1Z2I標準正規確率変数(注合計変数の数の減少)をZIである機能的に独立しました。OiEiEiχ02=i=1n1Zi2Zi

私の質問は、それから、できる方法である続くχ 2分布を?各O iE i 2のどのような組み合わせχ02χ2項は、2乗標準法線Z 2 iになりますか?これには、明らかにCLTを使用する必要があります(それは理にかなっていますが)。言い換えれば、各Ziは何と等しい(またはほぼ等しい)のでしょうか?(OiEi)2EiZi2Zi


1
あなたはその誰もがあなたが述べたことを最後のものを想定して読んでいる私は好奇心()。それは必要ではない。χ2統計を有することができ、χ2正規分布を有するこれらの標準化残差のいずれかなしに(少なくとも非常に良好な近似に)分布。あなたが聞きたいように見える問題があるこれらの仮定は言及正当化はどうすればよいχ2に統計をχ2分布?彼ら自身ではありません。何がうまくいかないかについての議論については、stats.stackexchange.com / a / 17148の私の投稿を参照してください。OiEiN(0,Ei)χ2χ2χ2χ2
whuber

1
2つの平方和が等しいことから、平方根は用語ごとに等しいと結論付けることはできません!それは単なる数値の場合であるため、ランダム変数の場合も確かです。
whuber

1
このコンクリートを作るために、仮定れる独立で配布χ分布が自由度を有するν 1ν 2... ν nは、そのν 1 + ν 2 + + ν nは = N - 1が、ν I1のすべてのための(Wi),i=1,,nχν1,ν2,,νnν1+ν2++νn=n1νi1i。その後のどれが、それにもかかわらず、正常でないΣ N iが= 1 W 2 iを有するχ 2N - 1 分布。Wii=1nWi2χ2(n1)
whuber

1
「2乗標準法線」で「独立した2乗標準法線の合計」を意味する場合、それは最初にポーズを取りたいと思った質問です:-)。そして最終的に、状況のほとんどの分析は、中央極限定理を実際に呼び出して、標準化された残差が漸近的に標準正常であることを証明します(しかし、完全に独立ではないため、自由度はではなくn 1です)。n1n
whuber

1
+1は、すぐに非常に良い質問になると予想しています。最初の問題は、独立性テストがクレームされた統計を使用しないことです。開始時に指定される統計は単次元(カテゴリの合計)ですが、独立性のテストには複数の変数が必要です。編集して、テストの名前と統計を対応させてください。n
Glen_b -Reinstateモニカ

回答:


6

それはポアソン分布についてです。場合平均のポアソンあるλ、その後の分散Xはあるλも。この手段は、X - λ 2XλXλz2のようなエンティティです。CLTにより、ポアソンは平均が大きくなるにつれて正規化される傾向があります。これはカイ2乗が入る場所です。はい、漸近検定です。

(Xλ)2λ
z2

自由度は、コクランの定理に基づいています。基本的に、Cochranは、カイ2乗がスコアの線形変換の対象になる方法(または変更されないまま)を説明します。z2

izi2=ZIZ

マトリックス表記で。通常の二乗和を計算する代わりに、行列Qに対してを計算すると、カイ2乗分布の量が得られますが、自由度はQのランクになります。行列Qにはさらに多くの条件がありますが、これがその要点です。

ZQZ
Q

あなたには、いくつかの行列表記で遊んでいる場合、あなたは表現することができ二次形式として。Cochranは、元の正規変量の独立性を前提としているため、カウントテーブルの列も独立している必要があります。

i(ziz¯)2

申し訳ありませんが、あなたは間違いなく「代わりにした場合、あなたは...」で私を失ってしまった
VF1

@ VF1、私は変更を加えたので、それがより明確であることを願っています。コクランの定理は、正規数を含む平方和にカイ二乗分布がある場合の質問に対する答えです。
プラキディア14年

1
OK、これを見てみましょう。ただし、他に誰かが追加する必要がある場合に備えて、質問は開いたままにします。
VF1 14年

1
通常、サンプルサイズは固定されています。つまり、どのエントリもポアソン分布に従うことは不可能です。したがって、ポアソン分布へのアピールは、単なる近似に過ぎないように見えます。
whuber

1

教科書「ランダム化とシミュレーションとの入門統計」によれば、セクション3.3.2(で自由に利用できる教科書OpenIntro)、検定統計量は、予想されるから観察の偏差を蓄積しようとしています。そして、偏差は実際に用語で表されますχ2

Zi=OiEiEi

これは実際にはに由来します

OiEi(StandardErrorOfTheObserved)

(StandardErrorOfTheObserved)EiZi=OiEiEi. The textbook doesn't actually explain why this substitution is acceptable, and I'd also like to find out.

Anyway, you could create a test statistic of the form

Z=|Z1|+|Z2|+|Z3|+...

but it's better to square all the terms, because you get positive values immediately and the higher values stand out more after squaring. So you get the following:

χ2=Z12+Z22+Z32+...

But I don't know either why should this sum follow the χ2 distribution, or what's the connection to the definition of the χ2 distribution (sum of squares of standard normal independent variables).

EDIT: I'm still learning statistics, and I still don't think I understand the χ2 test properly. I hope others can enlighten me too.

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.