背景:安全にスキップ-それは参照のため、そして質問を正当化するためにここにあります。
「カールピアソンの有名なカイ2乗偶発性検定は、正規分布に基づくz統計と呼ばれる別の統計から導出されます。の最も単純なバージョンは、同等のz検定と数学的に同一であることがわかります。すべての意図と目的において、「chi-squared」は「z-squared」と呼ばれます。1自由度の臨界値は、zの対応する臨界値の2乗です。
これはCVで複数回アサートされています(here、here、here、その他)。
そして確かに、はと同等であることを証明できます。
レッツ言うとそのとの密度見つけ使用して方法を:
。問題は、正規分布の密度を密接な形で統合できないことです。しかし、私たちはそれを表現することができます:
通常のpdfの値は対称であるため:
。これを等しくする(現在は通常のであろうに差し込まれるべき正常の一部)。そして中に思い出すことが挙げられる終わりには:
カイ二乗のpdfと比較してください:
ので、のために DF、我々は正確に導出したカイ二乗を。 1つのpdはF
さらに、prop.test()
Rで関数を呼び出すと、を決定する場合と同じテストを呼び出します。chisq.test()
質問:
したがって、これらすべてのポイントを取得できますが、次の2つの理由から、これら2つのテストの実際の実装にそれらがどのように適用されるのかまだわかりません。
Z検定は二乗されません。
実際のテスト統計は完全に異なります。
の検定統計量の値は次のとおりです。
ここで
=ピアソンの累積検定統計量。分布に漸近的に近づきます。 =タイプの観測値の数。 =観測の総数。 = =タイプの予想(理論)頻度。母集団内のタイプの割合はである という帰無仮説によって主張されます。 =テーブル内のセルの数。
一方、検定の検定統計量は次のとおりです。
と、ここでおよびは「成功」の数であり、カテゴリカルの各レベルのサブジェクトの数変数、すなわちおよび。
この式は二項分布に依存しているようです。
統計は明らかに異なっており、これらの二つの試験実際の検定統計量のため、ならびにに対して異なる結果をもたらしたp -値:5.8481
ためとz検定のため(ありがとう、@ mark999)。テストのp値はで、z テストのp値はです。両側と片側で説明される違い:(感謝)。2.4183
0.01559
0.0077
それで、彼らはどのレベルでそれらが同一であると言いますか?
chisq.test()
、使ってみましたcorrect=FALSE
か?