2つのサンプルが同じ母集団から引き出されているかどうかを判断する統計的テスト?


30

2つのサンプルがあるとします。それらが異なる母集団から引き出されているかどうかを知りたい場合は、t検定を実行できます。しかし、サンプルが同じ母集団からのものであるかどうかをテストしたいとしましょう。これをどのように行うのですか?つまり、これら2つのサンプルが同じ母集団から引き出された統計的確率を計算するにはどうすればよいですか?


1
「可能な限り」という意味を説明してください。「条件」の意味を明確にすることも役立ちます。
whuber

2標本コルモゴロフ-スミルノフのような検定(唯一の可能性ではありません。通常の仮定では、t検定は同じことをテストしていることに注意してください)は、母集団分布が異なるかどうかをテストできますtは実際には同じであることを意味します)。ただし、あまり類似していない2つの分布が、同じ分布を持つ2つの異なる集団ではなく、実際に同じ集団からのものであるかどうかをテストすることはできません。それは仮定または他の調査のいずれかから来なければなりません。... ctd
Glen_b -Reinstate Monica

3
ctd ...同様に、テストでは、分布が些細な違いを持っ​​ている可能性があるため、分布が同一であると言うことすらできません。ここまたはgoogleでかなりのヒット数が得られる「等価性テスト」または「等価性テスト」で検索することをお勧めします。
-Glen_b-モニカーの復活14

回答:


20

分布を比較するテストは、除外テストです。それらは、2つの母集団が同一であるという帰無仮説で始まり、その仮説を棄却しようとします。nullが真であることを証明することはできず、拒否するだけなので、これらのテストを使用して2つのサンプルが同じ母集団(または同一の母集団)からのものであることを示すことはできません。

これは、分布にわずかな違いがある可能性があるためです(同一ではないことを意味します)が、テストが実際に違いを見つけることができないほど小さいためです。

2つの分布を考えます。最初の分布は0から1まで均一であり、2番目の分布は2つの均一の混合物です。したがって、0から0.999の間は1、9.999から10の間は1です。したがって、これらの分布は明らかに異なります(違いが意味があるかどうかは別の質問です)が、それぞれからサンプルサイズ50(合計100)を取得した場合、0から0.999の間の値のみが表示される可能性が90%以上あります本当の違いを見ることはできません。

2つの分布/母集団が同等かどうかを尋ねる同等テストと呼ばれる方法を実行する方法がありますが、同等と見なすものを定義する必要があります。通常、差の測定値は特定の範囲内にあります。つまり、2つの平均の差が2つの平均の5%未満であるか、KS統計が特定のカットオフを下回っています。次に、差統計の信頼区間を計算できます(平均の差は、t信頼区間、ブートストラップ、シミュレーション、または他の方法で他の統計に必要な場合があります)。信頼区間全体が「等価領域」に入る場合、2つの母集団/分布は「等価」であると見なされます。

難しいのは、等価領域がどうあるべきかを理解することです。


2
帰無仮説検定では、帰無仮説の真の証拠を提供することはできません。ただし、ベイジアンまたは「基準」(AIC、BIC)に基づくモデル選択は、ヌルモデル(同一分布)が代替モデル(異なる分布)よりもデータのより良い記述であることを示す可能性があります。もちろん、すべての仮定の下でのすべて。
A.ドンダ

6

http://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test

サンプル値が連続分布に由来すると仮定すると、コルモゴロフ-スミルノフ検定をお勧めします。関連付けられた経験的分布に基づいて、2つのサンプルが異なる分布(これが母集団の使用法を解釈する方法です)から来ているかどうかをテストするために使用できます。

ウィキペディアから直接:

この統計のヌル分布は、サンプルが同じ分布から引き出されるという帰無仮説の下で計算されます(2サンプルの場合)。

Rのks.test関数は、このテストに使用できます。

kstestが均一性をテストしないのは事実ですが、十分な大きさのサンプルサイズ(高出力テスト)で拒否に失敗した場合、その違いは実質的に重要ではないと主張できます。違いが存在する場合、それらは意味がない可能性が高いと推測できます(再び、大きなサンプルサイズを想定)。他の人が正確に述べているのと同じ母集団に由来すると結論付けることはできません。これはすべて言われていますが、通常、2つのサンプルの類似性をグラフィカルに調べます。


6
KS検定を使用して分布の等価性を示すことができるとは思わない。
マイケルM 14年

@MichaelMayerそれはまさに正しい。OPは均質性のテストに興味があります...これには多くの方法論的な問題があります。KS for heterogeneityにも問題があります。実際、すべての面で母集団が実質的に同一であるかどうかに関係なく、大きなサンプルで拒否されます。統計的有意性よりも、テスト、ひいてはp値が、サンプルサイズの尺度としてより適切に考えられていることを示すだけです。
AdamO 14年

@AdamOはい、ただし、大きなサンプルがあり、拒否に失敗した場合、母集団は実質的に同一であると確信しています。私が知る限り、これを裏付ける理論はありませんが、経験から、異質性のKSは大きなサンプルサイズで微小な差を検出できることを知っているので、失敗した大きなサンプルテストを実際の事実上の声明として使用することができます同一の母集団。私の回答は、「これら2つのサンプルが同じ母集団から抽出された統計的確率を計算する」という質問に答えますか?確かにそうではありません。
アンダーマイナー14

ポイントが2次元の場合はどうすればよいですか?つまり、2次元のポイントの2つのサンプルがあり、それらが異なる分布に由来するかどうかを知りたいのです。
-becko

KSテストは、事前に定義された分布に対してのみ機能し、データから推定されたパラメーターを持つ分布からは機能しません。
qwr

2

2つの分布が十分位数で異なるかどうかをチェックする「シフト関数」を使用できます。技術的には、同じ集団ではなく異なる集団からのものであるかどうかのテストですが、分布がいずれの10進数でも異ならない場合、特にグループサイズが大きい場合は、それらが同じ集団からのものであることを合理的に確認できます。

また、2つのグループを視覚化します:それらの分布を重ね合わせて、それらが互いに似ているかどうかを確認します。または、各グループから数千のブートストラップサンプルを描画し、それらをプロットします。特に問題の母集団が変数に対して与えられた正規分布ではない場合は母集団。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.