標準的な統計テストを使用して、非ランダムサンプルを分析できますか?


24

多くの臨床研究は、無作為ではないサンプルに基づいています。ただし、ほとんどの標準テスト(たとえば、t検定、ANOVA、線形回帰、ロジスティック回帰)は、サンプルに「乱数」が含まれているという仮定に基づいています。これらの非ランダムサンプルが標準テストで分析された場合、結果は有効ですか?ありがとうございました。

回答:


20

テストには2つの一般的なモデルがあります。母集団からのランダムサンプリングの仮定に基づいた最初のものは、通常「母集団モデル」と呼ばれます。

たとえば、2つの独立したサンプルのt検定では、比較する2つのグループがそれぞれの母集団からのランダムなサンプルであると仮定します。2つのグループ内のスコアの分布が母集団に正規分布していると仮定すると、検定統計量のサンプリング分布(つまり、t統計量)を分析的に導き出すことができます。このプロセスを繰り返す(各母集団から2つのサンプルを無作為に抽出する)回数を無限に繰り返すと(もちろん、実際には行いません)、検定統計量のこのサンプリング分布を取得します。

テスト用の代替モデルは「ランダム化モデル」です。ここでは、ランダムサンプリングにアピールする必要はありません。代わりに、サンプルの順列によりランダム化分布を取得します。

たとえば、t検定の場合、2つのサンプルがあります(ランダムサンプリングで取得する必要はありません)。これら2つのグループに実際に違いがない場合、特定の人が実際にグループ1またはグループ2に「所属」しているかどうかは任意です。そのため、2つのグループの平均がどれだけ離れているかに注意して、グループの割り当てを何度も変更することができます。このようにして、経験的にサンプリング分布を取得します。次に、元のサンプルで2つの平均がどれだけ離れているかを比較し(グループメンバーシップの変更を開始する前)、その差が「極端な」場合(つまり、経験的に導出されたサンプリング分布の裾に収まる場合)、結論を出します。そのグループメンバーシップはarbitrary意的ではなく、実際には2つのグループに違いがあります。

多くの場合、2つのアプローチは実際には同じ結論につながります。ある意味では、母集団モデルに基づくアプローチは、ランダム化テストの近似と見なすことができます。興味深いことに、フィッシャーはランダム化モデルを提案し、それが我々の推論の基礎であるべきだと提案した人でした(ほとんどのサンプルはランダムサンプリングを介して取得されないため)。

2つのアプローチの違いを説明する素晴らしい記事は次のとおりです。

エルンスト、MD(2004)。順列法:正確な推論の基礎。統計科学、19(4)、676-685 (リンク)

素敵な要約を提供し、ランダム化アプローチが推論の基礎となることを示唆する別の記事:

Ludbrook、J。、およびDudley、H。(1998)。生物医学研究において順列検定がtおよびF検定よりも優れている理由。American Statistician、52(2)、127-132 (リンク)

編集:また、母集団モデルと同じようにランダム化アプローチを使用する場合、同じ検定統計量を計算するのが一般的であることを付け加えるべきです。したがって、たとえば、2つのグループ間の平均の差をテストするには、グループメンバーシップのすべての可能な順列の通常のt統計を計算し(帰無仮説の下で経験的に導出されたサンプリング分布を生成)、次に極端な方法をチェックします元のグループメンバーシップのt統計はその分布の下にあります。


8

あなたの質問はとても良いのですが、簡単な答えはありません。

ランダムサンプルはサンプリングされた母集団を代表する可能性が高いため、言及したようなテストのほとんどは、サンプルがランダムサンプルであるという仮定に基づいています。仮定が無効である場合、結果の解釈ではそれを考慮に入れる必要があります。サンプルが母集団を非常に代表していない場合、結果は誤解を招く可能性があります。サンプルが非ランダムであるにもかかわらず代表的なものである場合、結果は完全に問題ありません。

質問の次のレベルは、特定のケースで非ランダム性が重要かどうかをどのように判断できるかを尋ねることです。答えられません;-)


5

あなたは非常に一般的な質問をするので、答えがすべての場合に適しているわけではありません。ただし、明確にすることができます。統計的検定は一般に、観測された分布と仮想的な分布(いわゆるヌル分布または帰無仮説、または場合によっては代替分布)に関係しています。サンプルはランダムではないかもしれませんが、管理されているテストはサンプルから得られた値に適用されます。その変数がいくつかの確率的特性を持つことができる場合、その分布はいくつかの代替分布と比較されます。その場合、重要なのは、サンプルの検定統計量が関心のある他の母集団に対して保持されるかどうか、および代替分布またはヌル分布に関する仮定が関心のある他の母集団に関連するかどうかです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.