2つのサンプルがあるとします。それらが異なる母集団から引き出されているかどうかを知りたい場合は、t検定を実行できます。しかし、サンプルが同じ母集団からのものであるかどうかをテストしたいとしましょう。これをどのように行うのですか?つまり、これら2つのサンプルが同じ母集団から引き出された統計的確率を計算するにはどうすればよいですか?
2つのサンプルがあるとします。それらが異なる母集団から引き出されているかどうかを知りたい場合は、t検定を実行できます。しかし、サンプルが同じ母集団からのものであるかどうかをテストしたいとしましょう。これをどのように行うのですか?つまり、これら2つのサンプルが同じ母集団から引き出された統計的確率を計算するにはどうすればよいですか?
回答:
分布を比較するテストは、除外テストです。それらは、2つの母集団が同一であるという帰無仮説で始まり、その仮説を棄却しようとします。nullが真であることを証明することはできず、拒否するだけなので、これらのテストを使用して2つのサンプルが同じ母集団(または同一の母集団)からのものであることを示すことはできません。
これは、分布にわずかな違いがある可能性があるためです(同一ではないことを意味します)が、テストが実際に違いを見つけることができないほど小さいためです。
2つの分布を考えます。最初の分布は0から1まで均一であり、2番目の分布は2つの均一の混合物です。したがって、0から0.999の間は1、9.999から10の間は1です。したがって、これらの分布は明らかに異なります(違いが意味があるかどうかは別の質問です)が、それぞれからサンプルサイズ50(合計100)を取得した場合、0から0.999の間の値のみが表示される可能性が90%以上あります本当の違いを見ることはできません。
2つの分布/母集団が同等かどうかを尋ねる同等テストと呼ばれる方法を実行する方法がありますが、同等と見なすものを定義する必要があります。通常、差の測定値は特定の範囲内にあります。つまり、2つの平均の差が2つの平均の5%未満であるか、KS統計が特定のカットオフを下回っています。次に、差統計の信頼区間を計算できます(平均の差は、t信頼区間、ブートストラップ、シミュレーション、または他の方法で他の統計に必要な場合があります)。信頼区間全体が「等価領域」に入る場合、2つの母集団/分布は「等価」であると見なされます。
難しいのは、等価領域がどうあるべきかを理解することです。
http://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test
サンプル値が連続分布に由来すると仮定すると、コルモゴロフ-スミルノフ検定をお勧めします。関連付けられた経験的分布に基づいて、2つのサンプルが異なる分布(これが母集団の使用法を解釈する方法です)から来ているかどうかをテストするために使用できます。
ウィキペディアから直接:
この統計のヌル分布は、サンプルが同じ分布から引き出されるという帰無仮説の下で計算されます(2サンプルの場合)。
Rのks.test関数は、このテストに使用できます。
kstestが均一性をテストしないのは事実ですが、十分な大きさのサンプルサイズ(高出力テスト)で拒否に失敗した場合、その違いは実質的に重要ではないと主張できます。違いが存在する場合、それらは意味がない可能性が高いと推測できます(再び、大きなサンプルサイズを想定)。他の人が正確に述べているのと同じ母集団に由来すると結論付けることはできません。これはすべて言われていますが、通常、2つのサンプルの類似性をグラフィカルに調べます。