これを直感的に動機付けて、2項式の通常の近似を受け入れて満足していると仮定して、2つのグループの特殊なケースでそれがどのように発生するかを示します。
うまくいけば、それがなぜ機能するのかを理解するのに十分でしょう。
カイ二乗適合度検定について話しています。グループがあるとしましょう(として持っていますが、私がと呼ぶのが好きな理由があります)。n kkんk
この状況に適用されているモデルでは、カウント、は多項式です。 I = 1 、2 、。。。、kOii=1,2,...,k
LET。カウントは合計条件とします(かなりまれな状況を除く)。また、各カテゴリーに事前に指定された確率のセットがいくつかあり、合計はます。 NのP iは、iは= 1 、2 、... 、kは1N=∑ki=1OiNpi,i=1,2,…,k1
二項式の場合と同様に、多項式には漸近正規近似があります。実際、特定のセル(「このカテゴリ内」にあるかどうか)のカウントのみを考慮した場合、二項式になります。二項式と同様に、カウントの分散(および多項式におけるそれらの共分散)は、およびの関数です。分散を個別に推定することはありません。pNp
つまり、予想されるカウントが十分に大きい場合、カウントのベクトルは平均ほぼ正常。ただし、カウントはで条件付けられるため、分布は縮退します(カウントのを指定すると残りの1が修正されるため、分布は次元超平面に存在します)。分散共分散行列には、対角要素とオフ対角要素があり、縮退のためにランクです。 N k − 1 k − 1 N p i(1 − p i)− N p i p j k − 1Ei=NpiNk−1k−1Npi(1−pi)−Npipjk−1
その結果、個々のセルではとなり、記述できます。ただし、項は依存している(負の相関がある)ため、これらのの二乗を合計すると、(独立した標準化変数の場合のように)分布にはなりません。代わりに、元のから独立変数のセットを構築することができます。これらは独立しており、ほぼ正常です(漸近的に正常)。それらの(標準化された)正方形を合計すると、ます。このようなセットを作成する方法はいくつかありますz i = O i − E iVar(Oi)=Npi(1−pi) ZIχ2KK-1、Kχ2K-1K-1zi=Oi−EiEi(1−pi)√ziχ2kk−1kχ2k−1k−1 変数を明示的に示しますが、幸いなことに、かなりの労力になることを回避し、問題が発生した場合と同じ結果(同じ統計値)を生成する非常にきちんとしたショートカットがあります。
簡単にするために、2つのカテゴリー(現在は2項)との適合度を考えます。最初のセルにある確率はで、2番目のセルにある確率はです。最初のセルには観測値があり、2番目のセルにはがあります。p 2 = 1 − p X = O 1 N − X = O 2p1=pp2=1−pX=O1N−X=O2
観測された最初のセル数は漸近的にです。これをとして標準化できます。その場合、は約(漸近的には)になります。N (N p 、N p (1 − p ))z = X − N pXN(Np,Np(1−p)) z2=(X−Np)2z=X−NpNp(1−p)√〜χ 2 1〜χ 2 1z2=(X−Np)2Np(1−p)∼χ21∼χ21
そのことに注意してください
∑2i=1(Oi−Ei)2Ei=[X−Np]2Np+[(N−X)−(N−Np)]2N(1−p)=[X−Np]2Np+[X−Np]2N(1−p)=(X−Np)2[1Np+1N(1−p)]。
だが
1Np+1N(1−p)=Np+N(1−p)Np.N(1−p)=1Np(1−p)。
したがって、ははじめに-これは漸近的に確率変数になります。2つのセル間の依存関係は、ではなくダイビングすることにより、2つのセル間の依存関係を正確に補正し、元のほぼ正常なランダム変数を取得します。∑2i=1(Oi−Ei)2Ei=(X−Np)2Np(1−p)z2χ21EiEi(1−pi)
2つ以上のカテゴリがある場合、同じ種類の合計依存性が同じアプローチで処理されます-代わりに合計することによってすべての項にわたって、依存関係の影響を正確に補正し、独立した法線の合計と同等の合計を取得します。(Oi−Ei)2Ei(Oi−Ei)2Ei(1−pi)kk−1
統計量がより大きい漸近的に分布を示すことを示すさまざまな方法があります(これは、いくつかの学部統計コースでカバーされており、多くの学部レベルのテキストで見つけることができます)。しかし、私はあなたの質問が示唆するレベルをはるかに超えてあなたを導きたくありません。実際、派生物はインターネット上のメモで簡単に見つけることができます。たとえば、ここの約2ページのスペースに2つの異なる派生物があります。χ2k−1k