分割表で独立性をテストしています。G検定とピアソンのカイ2乗検定のどちらが良いかわかりません。サンプルサイズは数百ですが、いくつかの低い細胞数があります。ウィキペディアのページで述べたように、カイ二乗分布の近似は、ピアソンのカイ二乗検定よりもG検定の方が優れています。しかし、モンテカルロシミュレーションを使用してp値を計算しているので、これら2つのテストの間に違いはありますか?
分割表で独立性をテストしています。G検定とピアソンのカイ2乗検定のどちらが良いかわかりません。サンプルサイズは数百ですが、いくつかの低い細胞数があります。ウィキペディアのページで述べたように、カイ二乗分布の近似は、ピアソンのカイ二乗検定よりもG検定の方が優れています。しかし、モンテカルロシミュレーションを使用してp値を計算しているので、これら2つのテストの間に違いはありますか?
回答:
それらは漸近的に同じです。それらは、同じアイデアを実現するための異なる方法にすぎません。具体的には、ピアソンのカイ2乗検定はスコア検定であり、G検定は尤度比検定です。これらのアイデアをよりよく理解するには、ここで私の答えを読むと役立ちます。なぜ、ロジスティック回帰の出力、カイ2乗検定、およびORの信頼区間の間でp値が異なるのですか? 直接的な質問に答えるために、モンテカルロシミュレーションによってp値を計算している場合、それは問題ではありません。どちらか使いやすい方を使用できます。注低細胞数に問題がないことを、唯一の(潜在的に)低いと予想細胞数; 細胞数が少なく、期待どおりの細胞数である可能性があります。さらに、シミュレーションによってp値が決定される場合、実際のカウントが低いことも、期待されるカウントが低いことも重要ではありません。
(それが価値あるもののために、私はおそらくピアソンのカイ二乗を使用するでしょう、なぜならRはp値をシミュレートするオプションを含むそれに便利な関数を持っているからです。)
chisq.test
.
Rfastをご覧ください。 https://cran.r-project.org/web/packages/Rfast/index.html 関連するコマンドは、g2Test_univariate(data、dc)です。g2Test_univariate_perm(data、dc、nperm)計算は非常に高速です。そして、カイ二乗はそれに近似するので、一般にG ^ 2検定を好む。
カイ二乗検定とG検定は通常、同様の結果を生成します。しかし、ここで最も重要なことは、言及したテストだけでなく、研究の過程での将来のテストについても、2つのテストのいずれかを選択してそれに固執する必要があるということです。両方のテストを互換的に使用しようとすると、誤検知の可能性が高くなる可能性が高いため、この方法をお勧めします。