カイ2乗検定のp値のモンテカルロシミュレーションを適用するためのルール


9

chisq.test()R の関数でのモンテカルロシミュレーションの使用について理解したいと思います。

128レベル/クラスの質的変数があります。私のサンプルサイズは26です(これ以上「個人」をサンプリングできませんでした)。したがって、明らかに、「個人」が0のレベルがいくつかあります。しかし、実際には、127のクラスのうち、非常に少数のクラスしか表現されていません。カイ二乗検定を適用するには、各レベルに少なくとも5人の個人がいる必要があると聞いたので(その理由は完全にはわかりません)、simulate.p.valueモンテカルロシミュレーションを使用して分布を推定するオプションを使用する必要があると思いましたそしてp値を計算します。モンテカルロシミュレーションなしでは、Rはp値を与えます< 1e-16。モンテカルロシミュレーションでは、でのp値が得られ4e-5ます。

26の1と101の0のベクトルでp値を計算しようとしましたが、モンテカルロシミュレーションでは、1のp値が得られました。

可能なクラスの数と比較してサンプルサイズが小さい場合でも、観測された分布は、すべての可能なクラスが実際の母集団で同じ確率(1/127)で存在する可能性が非常に低いということを示してもよいですか? ?


3
データが本当に26のサンプルから26の異なるクラスを観察したことである場合、127のクラスすべてが等しい確率を持っているという仮説に対して本質的に証拠はありません。これは、多項分布計算で評価できます。
whuber

1
カイ二乗検定を適用するには、各レベルに少なくとも5人の個人がいる必要があると聞きました(その理由は完全には理解していません)」- 完全ではありません。元のアドバイスは、実際の数ではなく、期待される数が少なくとも5である必要があるというものでした。その(現在は古くなっている)ルールの目的は、カイ二乗分布が、テスト統計。過去40年間の多数の論文に対するアドバイスは、「そのルールはやや厳しすぎる」です。
Glen_b-2013

回答:


6

検索すると、モンテカルロシミュレーションのポイントは、テスト条件が満たされない場合にp値を計算するために、テストされたサンプルと同じサイズを持つランダムに生成されたサンプルに基づいて参照分布を作成することです。

これは、JSTORにあるHope A. J Royal Stat Society Series B(1968)で説明されています。

ホープ紙からの引用は次のとおりです。

モンテカルロ有意性検定手順は、観測されたデータと、検定されている仮説に従って生成されたランダムサンプルとの比較で構成されます。...代替統計的仮説を完全に指定できると仮定して、モンテカルロ検定手順の代わりに、効率のよい既知の検定を使用することをお勧めします。ただし、テストを適用するために必要な条件が満たされていない場合や、基になる分布が不明である場合、または適切なテスト基準を決定することが困難な場合があるため、このようなテストを常に使用できるとは限りません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.