2つの経験的な離散分布の差をテスト


14

経験的分布として使用している離散分布からいくつかの大きなサンプルがあるテストデータがあります。分布が実際に異なるかどうか、実際に異なる分布の平均の違いは何かをテストしたいと思っています。

それらは離散分布なので、基礎となる連続分布の仮定により、コルモゴロフ-スミルノフ検定は無効であると理解しています。カイ二乗検定は、分布が実際に異なるかどうかの正しいテストでしょうか?

平均の違いにどのテストを使用しますか?より良いアプローチは、分布からサンプリングして差を取り、次に差の分布に対して分析を実行することですか?


はい、検定は正しいものです。この質問に対する受け入れられた答えはそれについて詳しく説明しています。分布1 = urn 1および分布2 = urn 2。そこでは、ランダム変数の値は色であり、あなたの場合はおそらく別の何か、例えば離散数です。χ2
ジョージ・シュナベル14年

フィードバックありがとうございます。カイ2乗検定で分布が異なることが確認された場合の違いの意味についての検定はありますか?
ウォールフッド14年

より良いアプローチは、分布からサンプリングして差を取り、その差で分析を実行することでしょうか?
ウォールフッド14年

回答:


13

1)Kolmogorov-Smirnovは引き続き使用できますが、表にまとめられた重要な値を使用する場合は控えめになります(これはパワーカーブを押し下げるため、問題になります)。統計の順列分布を取得して、重要度レベルを選択したものにすることをお勧めします。これは、多くの関係がある場合にのみ大きな違いをもたらします。この変更は本当に簡単に実装できます。(ただし、KSテストだけがこのような比較の可能性があるわけではありません。順列分布を計算しているのであれば、他の可能性があります。)

2)離散データのバニラカイ2乗適合度テストは、一般的に、非常に悪い考えです。上記の潜在的な電力損失によりKSテストの使用が停止された場合、カイ2乗の問題は多くの場合さらに悪化します。最も重要な情報、つまりカテゴリ(観測値)間の順序である電力が低下します。順序を考慮しない選択肢に広げることにより、場所や規模のシフトなど、スムーズな選択肢を検出するのが難しくなります)。上記の強い結びつきの悪影響にもかかわらず、多くの場合、KSテストのパワーは依然として優れています(なお、タイプIのエラー率は低下しています)。

カイ二乗は、順序を考慮して修正することもできます(カイ二乗を直交多項式を介して線形、二次、三次などの成分に分割し、低次数項のみを使用します-4から6が一般的な選択です)。RaynerとBest(およびその他)の論文では、Neyman-Bartonのスムーズテストから生じるこのアプローチについて説明しています。これは良いアプローチですが、ソフトウェアを利用できない場合は、少しセットアップが必要になる場合があります。

いずれかの修正されたアプローチでも問題ありませんが、どちらのアプローチも修正しない場合、必ずしもカイ二乗がKSテストよりも優れているとは限りません-状況によってはそれ優れているかもしれません...またはそれ大幅に悪化する可能性があります。

関係がそれほど重くない場合(つまり、データによって取得されるさまざまな値が多数ある場合)、KSをそのまま考慮します。それらが中程度であれば、順列分布を計算します。それらが非常に重い場合(つまり、データがいくつかの異なる値しかとらない場合)、単純なカイ2乗は競合する可能性があります。


警告ありがとうございます。KSテストまたはChi-Squared
Wallhood 14年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.