サンプルの分布が正規性から外れている場合、t検定は「合理的に堅牢」であると読みました。もちろん、重要なのは差異のサンプリング分布です。2つのグループのデータがあります。グループの1つは、従属変数に大きく偏っています。サンプルサイズは両方のグループで非常に小さくなっています(一方のグループではn = 33、もう一方のグループでは45)。これらの条件下で、t検定は正規性の仮定の違反に対してロバストになると仮定する必要がありますか?
サンプルの分布が正規性から外れている場合、t検定は「合理的に堅牢」であると読みました。もちろん、重要なのは差異のサンプリング分布です。2つのグループのデータがあります。グループの1つは、従属変数に大きく偏っています。サンプルサイズは両方のグループで非常に小さくなっています(一方のグループではn = 33、もう一方のグループでは45)。これらの条件下で、t検定は正規性の仮定の違反に対してロバストになると仮定する必要がありますか?
回答:
堅牢性に関する質問に答えるのは非常に困難です。なぜなら、仮定は非常に多くの方法で、そしてそれぞれの方法で異なる程度に違反する可能性があるからです。シミュレーション作業では、可能な違反のごく一部のみをサンプリングできます。
コンピューティングの状態を考えると、私はそれが頻繁に実行するための時間の価値があると思うの両方の両方が使用可能な場合、パラメトリックとノンパラメトリック検定を。その後、結果を比較できます。
あなたが本当に野心的であれば、順列テストを行うことさえできます。
ロナルド・フィッシャーが彼の仕事をする前にアラン・チューリングが仕事をしていたとしたらどうでしょう?:-)。
@PeterFlomは最初の文で釘を打ちました。
私が見た研究の大まかな要約を提供しようとします(リンクが必要な場合はしばらくするかもしれません):
全体として、2つのサンプルのt検定は、対称非正規性に対して適度にパワーロバストです(真のタイプIのエラー率は尖度の影響を受け、パワーはほとんど影響を受けます)。
2つのサンプルが同じ方向にわずかに歪んでいる場合、片側t検定は不偏ではなくなります。t統計量は分布とは逆に歪んでおり、テストが他の方向にある場合よりも一方向にある場合のほうがはるかに強力です。それらが反対方向に歪んでいる場合、タイプIのエラー率は大きく影響を受ける可能性があります。
重度の歪度はより大きな影響を与える可能性がありますが、一般的に言えば、テストを本質的に一方の方向にもう一方の方向に多くのパワーを割り当てることを気にしないのであれば、両側テストでの適度な歪度はそれほど悪くはありません。
要するに、両側の2標本t検定は、有意水準への影響と軽度のバイアスに耐えることができれば、これらの種類の物に対してかなり堅牢です。
しかし、ディストリビューションが非正規になる方法はたくさんありますが、それらはそれらのコメントではカバーされていません。
@PeterFlomはすでに、シミュレーション研究がすべてのシナリオと可能性を網羅することはできないため、明確な答えにつながらないことを述べています。ただし、いくつかのシミュレーションを実行して、このような問題を実際に調査することは依然として有用です(これは、学生にモンテカルロシミュレーション研究のアイデアを紹介するときに使用したいタイプのエクササイズでもあります)。それで、実際にこれを試してみましょう。これにはRを使用します。
コード
n1 <- 33
n2 <- 45
mu1 <- 0
mu2 <- 0
sd1 <- 1
sd2 <- 1
iters <- 100000
p1 <- p2 <- p3 <- p4 <- p5 <- rep(NA, iters)
for (i in 1:iters) {
### normal distributions
x1 <- rnorm(n1, mu1, sd1)
x2 <- rnorm(n2, mu2, sd2)
p1[i] <- t.test(x1, x2)$p.value
### both variables skewed to the right
x1 <- (rchisq(n1, df=1) - 1)/sqrt(2) * sd1 + mu1
x2 <- (rchisq(n2, df=1) - 1)/sqrt(2) * sd2 + mu2
p2[i] <- t.test(x1, x2)$p.value
### both variables skewed to the left
x1 <- -1 * (rchisq(n1, df=1) - 1)/sqrt(2) * sd1 + mu1
x2 <- -1 * (rchisq(n2, df=1) - 1)/sqrt(2) * sd2 + mu2
p3[i] <- t.test(x1, x2)$p.value
### first skewed to the left, second skewed to the right
x1 <- -1 * (rchisq(n1, df=1) - 1)/sqrt(2) * sd1 + mu1
x2 <- (rchisq(n2, df=1) - 1)/sqrt(2) * sd2 + mu2
p4[i] <- t.test(x1, x2)$p.value
### first skewed to the right, second skewed to the left
x1 <- (rchisq(n1, df=1) - 1)/sqrt(2) * sd1 + mu1
x2 <- -1 * (rchisq(n2, df=1) - 1)/sqrt(2) * sd2 + mu2
p5[i] <- t.test(x1, x2)$p.value
}
print(round((apply(cbind(p1, p2, p3, p4, p5), 2, function(p) mean(p <= .05))), 3))
説明
最初に、グループサイズ(n1
およびn2
)、真のグループ平均(mu1
およびmu2
)、真の標準偏差(sd1
およびsd2
)を設定します。
次に、実行する反復回数を定義し、p値を格納するベクトルを設定します。
次に、5つのシナリオでデータをシミュレートします。
歪んだ分布を生成するためにカイ二乗分布を使用していることに注意してください。1自由度では、それらは大きく歪んだ分布です。1自由度のカイ2乗分布の真の平均と分散はそれぞれ1と2に等しいので(ウィキペディアを参照)、最初に平均0と標準偏差1になるようにそれらの分布を再スケーリングしてから、必要な真の平均と標準偏差(これは1つのステップで実行できますが、この方法で実行する方が明確な場合があります)。
いずれの場合も、t検定(ウェルチのバージョン-もちろん、2つのグループで等しい分散を仮定するスチューデントのバージョンも考えられます)を適用し、p値を以前に設定したベクトルに保存します。
最後に、すべての反復が完了すると、p値が.05以下(つまり、テストが「有意」)になる頻度を各ベクトルについて計算します。これは経験的棄却率です。
いくつかの結果
上記のように正確にシミュレートすると、次の結果が得られます。
p1 p2 p3 p4 p5
0.049 0.048 0.047 0.070 0.070
コードをに変更するとmu1 <- .5
、次のようになります。
p1 p2 p3 p4 p5
0.574 0.610 0.606 0.592 0.602
そのため、両方の分布が正規である場合(テストで想定)に比べて、歪度が同じ方向にある場合、パワーは実際にわずかに高いように見えます!これに驚いた場合、これを数回再実行する必要があるかもしれません(もちろん、毎回わずかに異なる結果が得られます)が、パターンは残ります。
タイプIのエラー率はあまり名目ではないため(極端な場合、データの種類に関係なく常に拒否すると仮定して) show;それから、私は常に最大の出力でテストを行いますが、もちろん、テストにはかなり大きなタイプIエラー率もあります)。
一つは、の値の範囲を模索し始めることができるmu1
(とmu2
-しかし、本当に重要なのは両者の違いである)と、もっと重要なのは、二つのグループ(すなわち、真の標準偏差変え始めるsd1
とsd2
)を、特にそれらが等しくなって。OPで言及されているサンプルサイズにもこだわりましたが、もちろん調整することもできます。そして、歪度はもちろん、1自由度のカイ2乗分布で見られるもの以外の多くの形式をとることができます。この方法で物事にアプローチすることは、明確な答えが得られないという事実にもかかわらず、依然として有用だと思います。
あなたの状況では、t検定はタイプIのエラー率に関してはロバストになりますが、タイプIIのエラー率に関してはそうではありません。おそらく、a)Kruskal-Wallis検定、またはb)t検定の前の正規化変換のいずれかを使用して、より高い出力を達成するでしょう。
この結論は、2つのモンテカルロ研究に基づいています。最初の(Khan&Rayner、2003)では、スキューと尖度がg-and-k分布ファミリーのパラメーターを介して間接的に操作され、結果のパワーが調べられました。重要なことに、クラスカル・ウォリス検定のパワーは、非正規性による損傷が少なく、特にn> = 15でした。
この研究に関するいくつかの警告/資格:パワーはしばしば尖度の高さによって傷つけられましたが、スキューの影響はあまり受けませんでした。一見すると、このパターンは、尖度ではなくスキューの問題に気付いた場合、状況にあまり関係がないように見えるかもしれません。ただし、あなたの場合、過剰な尖度も極端であると確信しています。過剰尖度は少なくともskew ^ 2-2と同じくらい高いことに注意してください(過剰尖度は4番目の標準化モーメントから3を引いたものに等しくなるため、正規分布では過剰尖度= 0になります)。KhanとRayner( 2003)3つのグループでANOVAを調べましたが、それらの結果は2サンプルのt検定に一般化される可能性があります。
2番目の関連研究(Beasley、Erikson、およびAllison、2009)Chi-squared(1)やWeibull(1、.5)など、さまざまな非正規分布でタイプIとタイプIIの両方のエラーを調べました。サンプルサイズが少なくとも25の場合、t検定は、タイプIのエラーレートを公称アルファレベル以下で適切に制御しました。ただし、パワーは、Kruskal-Wallis検定、またはt検定の前にランクベースの逆正規変換(Blomスコア)を適用した場合に最も高くなりました。ビーズリーと同僚は通常、正規化アプローチに反対しましたが、正規化アプローチはn> = 25のタイプI誤り率を制御し、その力がクラスカル・ワリス検定の力をわずかに上回ったことに注意する必要があります。つまり、正規化アプローチはあなたの状況に有望だと思われます。詳細については、記事の表1および4を参照してください。
参照:
カーン、A。、&レイナー、GD(2003)。多くのサンプルの位置の問題に対する一般的なテストの非正規性に対する堅牢性。Journal of Applied Mathematics and Decision Sciences、7、187-206。
Beasley、TM、Erickson、S。、およびAllison、DB(2009)。ランクベースの逆正規変換はますます使用されていますが、メリットがありますか?行動遺伝学、 39、580-595。
まず、2つのサンプルの分布が異なると仮定する場合は、グループ間の不均等な分散を想定するウェルチバージョンのt検定を使用していることを確認してください。これにより、少なくとも配布のために発生する違いの一部を考慮しようとします。
ウェルチのt検定の式を見ると:
我々はそこにある毎回ことがわかりますよ、我々は分散が考慮されている知っています。2つの分散は実際には同じであるが、一方は歪んでおり、異なる分散推定値につながると想像してください。スキューが原因で、この分散の推定値が実際にデータを表していない場合、実際のバイアス効果は、本質的にそのバイアスの平方根を計算に使用されるデータポイントの数で割ったものになります。したがって、分散の悪い推定量の影響は、平方根と高いnによって少し弱まります。そのため、おそらくコンセンサスは、頑健なテストのままであるということです。
歪んだ分布の他の問題は、平均計算も影響を受けるということです。平均が比較的歪に敏感であるため、これはおそらくテスト仮定違反の本当の問題がある場所です。また、テストの堅牢性は、平均値の差を計算することで、中央値の差と比較して(アイデアとして)おおよそ決定できます。おそらく、より堅牢な手段として、t検定の中央値の差で平均値の差を置き換えてみることもできます(誰かがこれについて話し合っていると確信していますが、Googleでリンクするのに十分なものをすばやく見つけることができませんでした)。
実行しているのがt検定だけである場合は、順列検定を実行することもお勧めします。順列検定は、分布の仮定に依存しない正確な検定です。最も重要なことは、パラメトリック検定の仮定が満たされている場合、順列検定とt検定が同一の結果をもたらすことです。したがって、求める堅牢性の尺度は1-順列とt検定のp値の差です。スコア1は完全な堅牢性を意味し、0はまったく堅牢性を意味しません。