Excel vs Rでカイ二乗を計算する奇妙な方法


9

計算していると主張しているExcelシートを見ていますが、この方法を認識していないため、何か不足しているのではないかと思っていました。χ2

これが分析しているデータです:

+------------------+----------+----------+
| Total Population | Observed | Expected |
+------------------+----------+----------+
|             2000 |       42 | 32.5     |
|             2000 |       42 | 32.5     |
|             2000 |       25 | 32.5     |
|             2000 |       21 | 32.5     |
+------------------+----------+----------+

そして、これはカイ二乗を計算するために各グループに対して行う合計です:

P = (sum of all observed)/(sum of total population) = 0.01625
A = (Observed - (Population * P)) ^2
B = Total Population * P * (1-P)
ChiSq = A/B

したがって、各グループのは次のとおりです。χ2

2.822793
2.822793
1.759359
4.136448

そして、総カイ広場は次のとおり11.54139です。

ただし、を計算するすべての例は、これとはまったく異なります。私は各グループに対して行います:χ2

chiSq = (Observed-Expected)^2 / Expected

したがって、上記の例の場合、合計カイ二乗値はになり11.3538ます。

私の質問は-なぜExcelシートでをこのように計算しているのですか?これは認められたアプローチですか?χ2

更新

これを知りたいのは、これらの結果をR言語で再現しようとしているためです。私はchisq.test関数を使用していますが、Excelシートと同じ番号で出力されません。したがって、Rでこのアプローチを行う方法を知っている人がいると、非常に役立ちます。

アップデート2

誰かが興味を持っているなら、ここに私がRでそれを計算した方法があります:

res <- matrix(c((2000-42), 42, (2000-42), 42, (2000-25), 25, (2000-21), 21), 2, 4)
chisq.test(res)

2回目の更新でのアプローチにより、正しい統計が得られるはずです。ただし、期待値が観測値の合計に基づいていない場合、p値の条件が原因で問題が発生する可能性があります。ただし、期待値と観測値の合計が同じであること(偶然に発生する可能性は低い)に気付いたので、これはおそらく問題ありません。:あなたは、より簡単に、このようにそれを行うことができx=c(42,42,25,21);chisq.test(cbind(x,2000-x))
Glen_b -Reinstateモニカ

@Glen_b Excelシートでは、総人口*上記で算出した「P」値を実行することで、期待値が算出されたと思います。これは問題になるのでしょうか?また、総人口は異なります-ほとんどの場合、それは2000年ですが、実際には任意の数になる可能性があります。ここで再作成しようとしているExcelシートは実際にはp値を考慮に入れていないため、統計がこれによって影響を受けない場合、問題ではない可能性があります...
user1578653

問題は結局のところ、pがどこから来るのかということです。観測された総数を確認する必要がありますか?
Glen_b

よく私にはそれはPsのように見え、したがって期待値は観測された総数と総母集団の両方に基づいています...ただし、Excelシートで与えられたすべての例では、期待値も一致しているようです総観測数/カウント数。
user1578653 2014

pがそのようにカウントに基づいている場合は、当然のことながら期待値が続きます。その場合、自由度などはRで行った方法で問題ないように見えますが、私の説明のいくつかの単語を変更する必要があるかもしれません。
Glen_b-モニカを

回答:


13

これは非常に簡単です。

これは明らかに二項サンプリングです。それを見るには2つの方法があります。

方法1、スプレッドシートの方法、観測されたカウントをとして処理します。これはとして近似できます。したがって、はほぼ標準の法線であり、は独立しているため、(ほぼ)ます。XiBin(Ni,pi)N(μi=Nipi,σi2=Nipi(1pi))Zi=(Xiμi)/σiZiZi2χ2

(pが観測されたカウントに基づいている場合、は独立ではありませんが、それでも自由度が1つ少ないカイ二乗です。)Z

方法2:形式のカイ二乗を使用することもできますが、「監視」とラベル付けしたカテゴリ内のものだけでなく、そのカテゴリ内にもないものも考慮する必要があります。(OE)2/E

+------------+------+-------+
| Population | In A | Not A |
+------------+------+-------+
|       2000 |   42 |  1958 |
|       2000 |   42 |  1958 |
|       2000 |   25 |  1975 |
|       2000 |   21 |  1979 |
+ -----------+------+-------+

最初の列のどこにあるか、2列目のはENi(1pi)

...次に、両方の列のを合計します。(OE)2/E

2つの形式は代数的に同等です。ことに注意してください 。カイ2乗のi行を考えます。1/p+1/(1p)=1/p(1p)th

(Xiμi)2σi2=(XiNipi)2Nipi(1pi)=(XiNipi)2Nipi+(XiNipi)2Ni(1pi)=(XiNipi)2Nipi+(NiNi+NipiXi)2Ni(1pi)=(XiNipi)2Nipi+(NiXi(NiNipi))2Ni(1pi)=(XiNipi)2Nipi+((NiXi)Ni(1pi))2Ni(1pi)=(Oi(A)Ei(A))2Ei(A)+(Oi(A¯)Ei(A¯))2Ei(A¯)

つまり、丸め誤差まで、両方の方法で同じ答えを得る必要があります。

どれどれ:

             Observed             Expected                 (O-E)^2/E          
  Ni        A     not A          A      not A             A           not A      
 2000     42         1958      32.5     1967.5       2.776923077     0.045870394     
 2000     42         1958      32.5     1967.5       2.776923077     0.045870394     
 2000     25         1975      32.5     1967.5       1.730769231     0.028589581     
 2000     21         1979      32.5     1967.5       4.069230769     0.067217281     

                                            Sum     11.35384615      0.187547649  

カイ二乗= 11.353846 + 0.187548 = 11.54139

彼らの答えと一致します。


1
ご協力いただきありがとうございます!私は数学者/統計学者ではないので、最初は混乱しましたが、あなたの説明は非常に理解しやすいです。
user1578653 2014年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.