ピアソンのカイ二乗統計はカイ二乗分布をどのように近似しますか


10

したがって、ピアソンのカイ二乗統計がテーブルに対して与えられた場合、その形式は次のようになります。1×N

i=1n(OiEi)2Ei

次に、これは、サンプルサイズが大きくなるにつれて、自由度のカイ2乗分布であるに近似します。 N - 1 Nχn12n1N

私が理解していないのは、この漸近近似がどのように機能するかです。分母のは置き換えられるべきだと思います。これにより、が得られます。しかしもちろん、これにはではなくの自由度があるため、明らかに他のことが起こっています。s 2 iEi χ 2 、N =Σを N iが= 1 Z 2 I ZIN01N、N-1si2niχn2=i=1nZi2Zin(0,1)nn1


けれども、これはあなたの質問に答えていない、それはそれにいくつかの光を当てることがあります。
whuber

回答:


11

これを直感的に動機付けて、2項式の通常の近似を受け入れて満足していると仮定して、2つのグループの特殊なケースでそれがどのように発生するかを示します。

うまくいけば、それがなぜ機能するのかを理解するのに十分でしょう。

カイ二乗適合度検定について話しています。グループがあるとしましょう(として持っていますが、私がと呼ぶのが好きな理由があります)。n kknk

この状況に適用されているモデルでは、カウント、は多項式です。 I = 1 2 kOii=1,2,...,k

LET。カウントは合計条件とします(かなりまれな状況を除く)。また、各カテゴリーに事前に指定された確率のセットがいくつかあり、合計はます。 NのP iはiは= 1 2 ... kは1N=i=1kOiNpi,i=1,2,,k1

二項式の場合と同様に、多項式には漸近正規近似があります。実際、特定のセル(「このカテゴリ内」にあるかどうか)のカウントのみを考慮した場合、二項式になります。二項式と同様に、カウントの分散(および多項式におけるそれらの共分散)は、およびの関数です。分散を個別に推定することはありません。pNp

つまり、予想されるカウントが十分に大きい場合、カウントのベクトルは平均ほぼ正常。ただし、カウントはで条件付けられるため、分布は縮退します(カウントのを指定すると残りの1が修正されるため、分布は次元超平面に存在します)。分散共分散行列には、対角要素とオフ対角要素があり、縮退のためにランクです。 N k 1 k 1 N p i1 p iN p i p j k 1Ei=NpiNk1k1Npi(1pi)Npipjk1

その結果、個々のセルではとなり、記述できます。ただし、項は依存している(負の相関がある)ため、これらのの二乗を合計すると、(独立した標準化変数の場合のように)分布にはなりません。代わりに、元のから独立変数のセットを構築することができます。これらは独立しており、ほぼ正常です(漸近的に正常)。それらの(標準化された)正方形を合計すると、ます。このようなセットを作成する方法はいくつかありますz i = O iE iVar(Oi)=Npi(1pi) ZIχ2KK-1、Kχ2K-1K-1zi=OiEiEi(1pi)ziχk2k1kχk12k1 変数を明示的に示しますが、幸いなことに、かなりの労力になることを回避し、問題が発生した場合と同じ結果(同じ統計値)を生成する非常にきちんとしたショートカットがあります。

簡単にするために、2つのカテゴリー(現在は2項)との適合度を考えます。最初のセルにある確率はで、2番目のセルにある確率はです。最初のセルには観測値があり、2番目のセルにはがあります。p 2 = 1 p X = O 1 N X = O 2p1=pp2=1pX=O1NX=O2

観測された最初のセル数は漸近的にです。これをとして標準化できます。その場合、は約(漸近的には)になります。N N p N p 1 p z = X N pXN(Np,Np(1p)) z2=XNp2z=XNpNp(1p)χ 2 1χ 2 1z2=(XNp)2Np(1p)χ12χ12

そのことに注意してください

i=12(OiEi)2Ei=[XNp]2Np+[(NX)(NNp)]2N(1p)=[XNp]2Np+[XNp]2N(1p)=(XNp)2[1Np+1N(1p)]

だが

1Np+1N(1p)=Np+N(1p)Np.N(1p)=1Np(1p)

したがって、ははじめに-これは漸近的に確率変数になります。2つのセル間の依存関係は、ではなくダイビングすることにより、2つのセル間の依存関係を正確に補正し、元のほぼ正常なランダム変数を取得します。i=12(OiEi)2Ei=(XNp)2Np(1p)z2χ12EiEi(1pi)

2つ以上のカテゴリがある場合、同じ種類の合計依存性が同じアプローチで処理されます-代わりに合計することによってすべての項にわたって、依存関係の影響を正確に補正し、独立した法線の合計と同等の合計を取得します。(OiEi)2Ei(OiEi)2Ei(1pi)kk1

統計量がより大きい漸近的に分布を示すことを示すさまざまな方法があります(これは、いくつかの学部統計コースでカバーされており、多くの学部レベルのテキストで見つけることができます)。しかし、私はあなたの質問が示唆するレベルをはるかに超えてあなたを導きたくありません。実際、派生物はインターネット上のメモで簡単に見つけることができます。たとえば、ここの約2ページのスペースに2つの異なる派生物があります。χk12k


ありがとう、これは理にかなっています。これは、期待値で除算するだけでうまく機能する数学的な偶然/事故のようなものですか?または、なぜこれが当てはまるのかという直観的な統計的説明があります。
トート、

人から人へと変化するものに応じて、直感的であるかもしれないし、そうでないかもしれないいくつかの説明があります。たとえば、観測されたカウントが元々独立したポアソン変数である場合、の分散により、実際には除算されます(およびポアソンも漸近的に正常です)。次に、合計に条件を付けると(上記のように)、多項式になります。合計で条件付けするかどうか(つまり、ポアソンまたは多項式として扱うかどうか)は、ML推定量は同じであるため、その推定量の分散は同じです-(ctd)zEi
Glen_b -Reinstate Monica

(ctd)...その結果、で除算すると、分散が正確に表示されます。[ ただし、まだ df しかない。]Eik1
Glen_b -Reinstate Monica

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.