サンプルの分布が非正規の場合、独立したサンプルのt検定はどの程度堅牢ですか？

24

サンプルの分布が正規性から外れている場合、t検定は「合理的に堅牢」であると読みました。もちろん、重要なのは差異のサンプリング分布です。2つのグループのデータがあります。グループの1つは、従属変数に大きく偏っています。サンプルサイズは両方のグループで非常に小さくなっています（一方のグループではn = 33、もう一方のグループでは45）。これらの条件下で、t検定は正規性の仮定の違反に対してロバストになると仮定する必要がありますか？

— 始祖鳥
ソース

3

「もちろん、重要な違いのサンプリング分布です」-何の違い？これを将来の読者に誤解を招く恐れがあるので（そして要点に接することなく）、私は質問からこれを編集したいと思いました。私が最初に考えたのは、ペアの t検定への誤った参照であり、ペア間の差は正常であると想定していますが、独立したサンプルテストには当てはまりません。違いのあるペアすらありません！おそらく「手段の違い」が意図されているのでしょうか？Qの残りの部分では、2つのサンプルの正常性が考慮され、違いは考慮されません。

— シルバーフィッシュ14

このような違反に対するt検定の堅牢性の問題は、重要かつ正当なものです。しかし、関連する問題が最初にあなたのデータでの違反をチェックする、とだけされていることを、その後に適用するかどうかを決めるT検定またはいくつかの別のテストを、お勧めしません。このような複数ステップの手順には、動作特性が不明確です。このスレッドを参照してください：t検定またはノンパラメトリックのいずれかを選択するための原則的な方法（例：少量サンプルのウィルコクソン）

— Silverfish 14

信頼できるソースとは何ですか？（私たちは、公式な情報源のようなものはないということで両者が同意すると思います）レベルの堅牢性とパワーのどちらを検討していますか？そして、「パワーも」なら... どのような選択肢があるのでしょうか？

— Glen_b -Reinstateモニカ

@Glen_b申し訳ありませんが、「公式ソース」賞金メッセージはStackOverflowの方が明らかです。いくつかの引用に値するために、このスレッドは実際に重要である（ウィキペディアではかなりトラフィックが多く貧しい）と感じています。Peter Flomの回答が明確に示しているように、「標準的な回答」の賞金テンプレートは不適切です。このトピックに「共通の知識」があると感じます-このQをオフハンドで尋ねられた場合、私のリストはDallalのようになります（尖度を追加しましたが、同じサンプルサイズに挑戦しませんでした）保護対一般的な非正規性）

— シルバーフィッシュ

@Glen_bあなたの答えは同様の脈を採掘しているので、広く知られている/受け入れられているいくつかの基本的なポイントがあるようです。私の学位は仮定をカバーしましたが、違反の結果ではありません：私の知識は、さまざまなソース、ビット、ボブから散らばっています賞金ではなく答えです！優れた教科書でまともな1ページの要約を知っている人がいれば、それで十分です。シミュレーション結果を含む2、3の論文であれば、それでも問題ありません。将来の読者が参照して引用できるものは何でも。

— シルバーフィッシュ

16

堅牢性に関する質問に答えるのは非常に困難です。なぜなら、仮定は非常に多くの方法で、そしてそれぞれの方法で異なる程度に違反する可能性があるからです。シミュレーション作業では、可能な違反のごく一部のみをサンプリングできます。

コンピューティングの状態を考えると、私はそれが頻繁に実行するための時間の価値があると思うの両方の両方が使用可能な場合、パラメトリックとノンパラメトリック検定を。その後、結果を比較できます。

あなたが本当に野心的であれば、順列テストを行うことさえできます。

ロナルド・フィッシャーが彼の仕事をする前にアラン・チューリングが仕事をしていたとしたらどうでしょう？:-)。

— ピーター・フロム-モニカの復職
ソース

1

ピーター、あなたは私に歴史的なフィクションを書いてその質問に正確に答えるように促しました！

— Sycoraxが復活モニカ言う

12

@PeterFlomは最初の文で釘を打ちました。

私が見た研究の大まかな要約を提供しようとします（リンクが必要な場合はしばらくするかもしれません）：

全体として、2つのサンプルのt検定は、対称非正規性に対して適度にパワーロバストです（真のタイプIのエラー率は尖度の影響を受け、パワーはほとんど影響を受けます）。

2つのサンプルが同じ方向にわずかに歪んでいる場合、片側t検定は不偏ではなくなります。t統計量は分布とは逆に歪んでおり、テストが他の方向にある場合よりも一方向にある場合のほうがはるかに強力です。それらが反対方向に歪んでいる場合、タイプIのエラー率は大きく影響を受ける可能性があります。

重度の歪度はより大きな影響を与える可能性がありますが、一般的に言えば、テストを本質的に一方の方向にもう一方の方向に多くのパワーを割り当てることを気にしないのであれば、両側テストでの適度な歪度はそれほど悪くはありません。

要するに、両側の2標本t検定は、有意水準への影響と軽度のバイアスに耐えることができれば、これらの種類の物に対してかなり堅牢です。

しかし、ディストリビューションが非正規になる方法はたくさんありますが、それらはそれらのコメントではカバーされていません。

— Glen_b -Reinstate Monica
ソース

それが合理的にパワーロバストであると言うのが正しいかどうかはわかりません！妥当なレベルでロバストであり、有意水準は大体正しいでしょうが、例えば、ウィルコクソンテストは、正常にかなり近い代替が検出するのが難しい場合、はるかに高い検出力を持つことができます。これは、各グループに同じ数の観測が存在するかどうかなどの要因にも依存します。不均等の場合、堅牢性ははるかに脆弱です。

— kjetil bハルヴォルセン

1

@kjetilbhalvorsen私が見た研究-私が自分で行ったいくつかのシミュレーションを含む（そして、私はしばらくの間見ていません;あなたは私が見たことのないものを見たことがあるかもしれません）、電力への影響の大部分が見えました主にレベルを上下させます（ウィルコクソンには影響しませんでした）。これらの状況でのウィルコクソンの一般的に良好なパワー特性を考えると（特にヘビーテールの場合）、ウィルコクソンがパワーで勝利するのに十分です-レベルを同様に調整すると、どれくらいの頻度で驚いたのですか？した。

— Glen_b-モニカの復活

7

@PeterFlomはすでに、シミュレーション研究がすべてのシナリオと可能性を網羅することはできないため、明確な答えにつながらないことを述べています。ただし、いくつかのシミュレーションを実行して、このような問題を実際に調査することは依然として有用です（これは、学生にモンテカルロシミュレーション研究のアイデアを紹介するときに使用したいタイプのエクササイズでもあります）。それで、実際にこれを試してみましょう。これにはRを使用します。

コード

n1 <- 33
n2 <- 45
mu1 <- 0
mu2 <- 0
sd1 <- 1
sd2 <- 1

iters <- 100000
p1 <- p2 <- p3 <- p4 <- p5 <- rep(NA, iters)

for (i in 1:iters) {

   ### normal distributions
   x1 <- rnorm(n1, mu1, sd1)
   x2 <- rnorm(n2, mu2, sd2)
   p1[i] <- t.test(x1, x2)$p.value

   ### both variables skewed to the right
   x1 <- (rchisq(n1, df=1) - 1)/sqrt(2) * sd1 + mu1
   x2 <- (rchisq(n2, df=1) - 1)/sqrt(2) * sd2 + mu2
   p2[i] <- t.test(x1, x2)$p.value

   ### both variables skewed to the left
   x1 <- -1 * (rchisq(n1, df=1) - 1)/sqrt(2) * sd1 + mu1
   x2 <- -1 * (rchisq(n2, df=1) - 1)/sqrt(2) * sd2 + mu2
   p3[i] <- t.test(x1, x2)$p.value

   ### first skewed to the left, second skewed to the right
   x1 <- -1 * (rchisq(n1, df=1) - 1)/sqrt(2) * sd1 + mu1
   x2 <- (rchisq(n2, df=1) - 1)/sqrt(2)      * sd2 + mu2
   p4[i] <- t.test(x1, x2)$p.value

   ### first skewed to the right, second skewed to the left
   x1 <- (rchisq(n1, df=1) - 1)/sqrt(2)      * sd1 + mu1
   x2 <- -1 * (rchisq(n2, df=1) - 1)/sqrt(2) * sd2 + mu2
   p5[i] <- t.test(x1, x2)$p.value

}

print(round((apply(cbind(p1, p2, p3, p4, p5), 2, function(p) mean(p <= .05))), 3))

説明

最初に、グループサイズ（n1およびn2）、真のグループ平均（mu1およびmu2）、真の標準偏差（sd1およびsd2）を設定します。
次に、実行する反復回数を定義し、p値を格納するベクトルを設定します。
次に、5つのシナリオでデータをシミュレートします。
1. 両方の分布は正常です。
2. 両方の分布は右に傾いています。
3. 両方の分布は左に傾いています。
4. 最初の分布は左に、2番目の分布は右に傾いています。
5. 最初の分布は右に、2番目の分布は左に傾いています。
歪んだ分布を生成するためにカイ二乗分布を使用していることに注意してください。1自由度では、それらは大きく歪んだ分布です。1自由度のカイ2乗分布の真の平均と分散はそれぞれ1と2に等しいので（ウィキペディアを参照）、最初に平均0と標準偏差1になるようにそれらの分布を再スケーリングしてから、必要な真の平均と標準偏差（これは1つのステップで実行できますが、この方法で実行する方が明確な場合があります）。
いずれの場合も、t検定（ウェルチのバージョン-もちろん、2つのグループで等しい分散を仮定するスチューデントのバージョンも考えられます）を適用し、p値を以前に設定したベクトルに保存します。
最後に、すべての反復が完了すると、p値が.05以下（つまり、テストが「有意」）になる頻度を各ベクトルについて計算します。これは経験的棄却率です。

いくつかの結果

上記のように正確にシミュレートすると、次の結果が得られます。
```
   p1    p2    p3    p4    p5 
0.049 0.048 0.047 0.070 0.070
```
$\alpha = .05$
コードをに変更するとmu1 <- .5、次のようになります。
```
   p1    p2    p3    p4    p5 
0.574 0.610 0.606 0.592 0.602
```
そのため、両方の分布が正規である場合（テストで想定）に比べて、歪度が同じ方向にある場合、パワーは実際にわずかに高いように見えます！これに驚いた場合、これを数回再実行する必要があるかもしれません（もちろん、毎回わずかに異なる結果が得られます）が、パターンは残ります。

タイプIのエラー率はあまり名目ではないため（極端な場合、データの種類に関係なく常に拒否すると仮定して） show;それから、私は常に最大の出力でテストを行いますが、もちろん、テストにはかなり大きなタイプIエラー率もあります）。

一つは、の値の範囲を模索し始めることができるmu1（とmu2-しかし、本当に重要なのは両者の違いである）と、もっと重要なのは、二つのグループ（すなわち、真の標準偏差変え始めるsd1とsd2）を、特にそれらが等しくなって。OPで言及されているサンプルサイズにもこだわりましたが、もちろん調整することもできます。そして、歪度はもちろん、1自由度のカイ2乗分布で見られるもの以外の多くの形式をとることができます。この方法で物事にアプローチすることは、明確な答えが得られないという事実にもかかわらず、依然として有用だと思います。

— ヴォルフガング
ソース

2

堅牢なセミパラメトリックメソッドの配列を持っているので、最近ではなぜこの議論が価値があるのでしょうか？

— フランクハレル

（+1）片方のサンプルが歪んだ母集団から抽出され、もう一方のサンプルが抽出されなかったケースを含める価値があったと考えられる。しかし、明示的なコードで答えを見るのは素晴らしいことです。（わずかに一般化すると、読者は実際に、従来のt検定と比較して堅牢な方法がどれほど優れているかを調べることができます。。）

— シルバーフィッシュ

2

あなたの状況では、t検定はタイプIのエラー率に関してはロバストになりますが、タイプIIのエラー率に関してはそうではありません。おそらく、a）Kruskal-Wallis検定、またはb）t検定の前の正規化変換のいずれかを使用して、より高い出力を達成するでしょう。

この結論は、2つのモンテカルロ研究に基づいています。最初の（Khan＆Rayner、2003）では、スキューと尖度がg-and-k分布ファミリーのパラメーターを介して間接的に操作され、結果のパワーが調べられました。重要なことに、クラスカル・ウォリス検定のパワーは、非正規性による損傷が少なく、特にn> = 15でした。

この研究に関するいくつかの警告/資格：パワーはしばしば尖度の高さによって傷つけられましたが、スキューの影響はあまり受けませんでした。一見すると、このパターンは、尖度ではなくスキューの問題に気付いた場合、状況にあまり関係がないように見えるかもしれません。ただし、あなたの場合、過剰な尖度も極端であると確信しています。過剰尖度は少なくともskew ^ 2-2と同じくらい高いことに注意してください（過剰尖度は4番目の標準化モーメントから3を引いたものに等しくなるため、正規分布では過剰尖度= 0になります）。KhanとRayner（ 2003）3つのグループでANOVAを調べましたが、それらの結果は2サンプルのt検定に一般化される可能性があります。

2番目の関連研究（Beasley、Erikson、およびAllison、2009）Chi-squared（1）やWeibull（1、.5）など、さまざまな非正規分布でタイプIとタイプIIの両方のエラーを調べました。サンプルサイズが少なくとも25の場合、t検定は、タイプIのエラーレートを公称アルファレベル以下で適切に制御しました。ただし、パワーは、Kruskal-Wallis検定、またはt検定の前にランクベースの逆正規変換（Blomスコア）を適用した場合に最も高くなりました。ビーズリーと同僚は通常、正規化アプローチに反対しましたが、正規化アプローチはn> = 25のタイプI誤り率を制御し、その力がクラスカル・ワリス検定の力をわずかに上回ったことに注意する必要があります。つまり、正規化アプローチはあなたの状況に有望だと思われます。詳細については、記事の表1および4を参照してください。

参照：

カーン、A。、＆レイナー、GD（2003）。多くのサンプルの位置の問題に対する一般的なテストの非正規性に対する堅牢性。Journal of Applied Mathematics and Decision Sciences、7、187-206。

Beasley、TM、Erickson、S。、およびAllison、DB（2009）。ランクベースの逆正規変換はますます使用されていますが、メリットがありますか？行動遺伝学、 39、580-595。

— アンソニー
ソース

(excess) kurtosis \geq {skew}^{2} - 2

$\text{(excess) kurtosis} \geq \text{skew}^2 -2$

それは、それ自身のスレッドに値する質問のようです。おそらくあなたの懸念は、過剰な尖度が小さなサンプルで下向きにバイアスされることですか？もちろん、それは上記のシミュレーション研究でも当てはまり、尖度はこれらの状況のt検定で依然として低電力を引き起こしました。あなたの質問は、ほとんどのモンテカルロ研究のより一般的な制限を指します：結論は、多くの場合、人口の特性、応用研究者が観察できない特性に基づいています。サンプルのスキュー、尖度などに基づいて相対的なパワーを予測できるとさらに便利になります

— アンソニー

この問題について別の質問を投稿しました：stats.stackexchange.com/questions/133247/…–

— アンソニー

0

まず、2つのサンプルの分布が異なると仮定する場合は、グループ間の不均等な分散を想定するウェルチバージョンのt検定を使用していることを確認してください。これにより、少なくとも配布のために発生する違いの一部を考慮しようとします。

ウェルチのt検定の式を見ると：

t = \frac{{\bar{X}}_{1} - {\bar{X}}_{2}}{s_{{\bar{X}}_{1} - {\bar{X}}_{2}}}

$t = {\overline{X}_1 - \overline{X}_2 \over s_{\overline{X}_1 - \overline{X}_2}}$

$s_{\overline{X}_1 - \overline{X}_2}$

s_{{\bar{X}}_{1} - {\bar{X}}_{2}} = \sqrt{\frac{s_{1}^{2}}{n_{1}} + \frac{s_{2}^{2}}{n_{2}}}

$s_{\overline{X}_1 - \overline{X}_2} = \sqrt{{s_1^2 \over n_1} + {s_2^2 \over n_2}}$

我々はそこにある毎回ことがわかりますよ、我々は分散が考慮されている知っています。2つの分散は実際には同じであるが、一方は歪んでおり、異なる分散推定値につながると想像してください。スキューが原因で、この分散の推定値が実際にデータを表していない場合、実際のバイアス効果は、本質的にそのバイアスの平方根を計算に使用されるデータポイントの数で割ったものになります。したがって、分散の悪い推定量の影響は、平方根と高いnによって少し弱まります。そのため、おそらくコンセンサスは、頑健なテストのままであるということです。

歪んだ分布の他の問題は、平均計算も影響を受けるということです。平均が比較的歪に敏感であるため、これはおそらくテスト仮定違反の本当の問題がある場所です。また、テストの堅牢性は、平均値の差を計算することで、中央値の差と比較して（アイデアとして）おおよそ決定できます。おそらく、より堅牢な手段として、t検定の中央値の差で平均値の差を置き換えてみることもできます（誰かがこれについて話し合っていると確信していますが、Googleでリンクするのに十分なものをすばやく見つけることができませんでした）。

実行しているのがt検定だけである場合は、順列検定を実行することもお勧めします。順列検定は、分布の仮定に依存しない正確な検定です。最も重要なことは、パラメトリック検定の仮定が満たされている場合、順列検定とt検定が同一の結果をもたらすことです。したがって、求める堅牢性の尺度は1-順列とt検定のp値の差です。スコア1は完全な堅牢性を意味し、0はまったく堅牢性を意味しません。

— メンセン
ソース