Z、tなどのテストでは、データがランダムサンプリングに基づいていることを前提としています。どうして?
私は実験的な研究を行っていると仮定します。そこでは、外部の妥当性よりも内部の妥当性を重視しています。したがって、母集団全体の仮説を推測しないことを受け入れたので、私のサンプルに少し偏りがあるかもしれません。また、グループ化はランダムに行われます。つまり、サンプルの参加者を便宜上選択しますが、異なるグループにランダムに割り当てます。
なぜこの仮定を無視できないのですか?
Z、tなどのテストでは、データがランダムサンプリングに基づいていることを前提としています。どうして?
私は実験的な研究を行っていると仮定します。そこでは、外部の妥当性よりも内部の妥当性を重視しています。したがって、母集団全体の仮説を推測しないことを受け入れたので、私のサンプルに少し偏りがあるかもしれません。また、グループ化はランダムに行われます。つまり、サンプルの参加者を便宜上選択しますが、異なるグループにランダムに割り当てます。
なぜこの仮定を無視できないのですか?
回答:
実際のサンプルよりも幅広いグループの推論を行っていない場合、そもそも統計的検定の適用はなく、「バイアス」の問題は発生しません。この場合、既知のサンプルの記述統計を計算するだけです。同様に、この場合のモデルの「妥当性」に疑問はありません。変数を観察し、その値、およびそれらの値の側面の説明を記録するだけです。
サンプルを超えて大規模なグループについて推論する場合は、統計が必要になり、サンプリングバイアスなどの問題を考慮する必要があります。このアプリケーションでは、ランダムサンプリングは信頼性を高めるのに役立つプロパティになります関心のあるより広いグループの推論。ランダムサンプリングを行っていない場合(および母集団に基づいた標本の確率がわからない場合)、母集団について信頼できる推論を行うことは困難/不可能になります。
実際の科学研究では、真のランダムサンプリングから得られたデータを持つことは非常にまれです。データはほとんど常に便利なサンプルです。これは、主に一般化できる母集団に影響します。つまり、たとえそれらが便利なサンプルであったとしても、それらはどこかから来たものであり、どこで、そしてそれが意味する制限について明確にする必要があるだけです。あなたのデータが何かを代表していないと本当に信じているなら、あなたの研究はどのレベルでも価値がないだろうが、それはおそらく真実ではない1。したがって、少なくともヘッジされた、または修飾された意味で、どこかから引き出されたサンプルを検討し、これらの標準テストを使用することが合理的です。
ただし、テストには別の哲学があり、これらの仮定とそれらに依存するテストから離れるべきだと主張しています。テューキーはこれを支持していました。代わりに、ほとんどの実験的研究は(内部的に)有効であると見なされます。これは、研究単位(患者など)が無作為にアームに割り当てられたためです。これを考えると、ランダム化が正しく行われたと仮定するだけの置換テストを使用できます。これについて心配しすぎることへの反論は、置換テストは通常、対応する従来のテストと同じことを示し、実行する作業が増えるということです。繰り返しになりますが、標準的なテストでも問題ありません。
1.これらの線に沿って、より多くの場合、ここでの私の答えを読むのに役立つかもしれません:調査における母集団とサンプルの識別。