対応のないt検定の代わりにウィルコクソンのランクサム検定を使用する場合


26

これは、フランク・ハレルがここに書いことのフォローアップの質問です

私の経験では、t分布が正確であるために必要なサンプルサイズは、多くの場合、手元のサンプルサイズよりも大きくなります。ウィルコクソンの符号付きランク検定は、あなたが言ったように非常に効率的であり、堅牢であるため、ほとんどの場合、t検定よりもそれを好む

私がそれを正しく理解している場合-一致しない2つのサンプルの位置を比較する場合、サンプルサイズが小さい場合、対応のないt検定よりもウィルコクソンのランクサム検定を使用することをお勧めします。

2つのグループのサンプルサイズが比較的大きい場合でも、対応のないt検定よりもウィルコクソンのランクサム検定を好む理論的な状況はありますか?

この質問に対する私の動機は、単一サンプルのt検定で、歪んだ分布のそれほど小さくないサンプルにそれを使用すると、誤ったタイプIエラーが生じるという観察から生じています。

n1 <- 100
mean1 <- 50
R <- 100000
P_y1 <- numeric(R)
for(i in seq_len(R))
{
    y1 <- rexp(n1, 1/mean1)
    P_y1[i] <- t.test(y1 , mu = mean1)$p.value
}
sum(P_y1<.05) / R # for n1=n2=100 -> 0.0572  # "wrong" type I error

1
私にとって、0.0572は0.05に十分近いようです。
mark999

こんにちはマーク-帰無仮説を100000回繰り返して実行した場合、このレベルの差が0.05になるとは考えられません。一般に、0.05からの2倍のsqrt(0.05 * 0.95 / 100000)のようなプラスマイナスの差が予想されます
タルガリリ

1
私はそれが間違っていることに同意します。私はそれが実際的な目的のために十分に近いと思われることを意味しました。
mark999

1
関連する質問:t検定またはノンパラメトリック検定の選択方法(例:小さい標本のWilcoxon、ペアテストと非ペアテストの両方、およびBrunner-MunzelなどのWilcoxonの代替案を考慮)。また、フランク・ハレルによる優れた回答もあります。これは、上記の抜粋よりも詳細にアプローチの正当性を感じている理由を説明しています(単調変換におけるランクの不変性の重要性など)。
シルバーフィッシュ

@TalGalili:t検定を行っており、正規性の仮定に違反している(このサンプルは指数関数的に分布していることがわかります)ので、なぜこのレベルの差が得られないのでしょうか?ここでは、初心者の視点から質問しています。私は、私たちが期待していることを理解しようとしているだけで、正規性の仮定に違反している場合に1つのサンプルt検定を行います。タイプIの平均誤差が5%未満、5%より大きい、またはなんらかの理由があるのはなぜですか?私が見ているように、私たちがテストしているのはあり、分布は正常です。H0:μ=50
エロセニン

回答:


23

はいあります。たとえば、無限分散の分布からのサンプリングはt検定を破壊しますが、ウィルコクソンは破壊しません。ノンパラメトリック統計法(Hollander and Wolfe)を参照すると、t検定に対するウィルコクソンの漸近相対効率(ARE)は、一様分布では1.0、ロジスティックでは1.097(つまり、ウィルコクソンが優れています)、1.5二重指数(ラプラス)、および指数の3.0。

ホッジスとレーマンは、他のテストと比較したウィルコクソンの最小AREは0.864であることを示したため、他のテストと比較して約14%を超える効率を失うことはありません。(もちろん、これは漸近的な結果です。)その結果、フランク・ハレルのデフォルトとしてのウィルコクソンの使用は、おそらく私を含むほとんどすべての人に採用されるでしょう。

編集:コメントのフォローアップの質問に答えて、信頼区間を好む人のために、Hodges-Lehmann推定量はWilcoxon検定に「対応する」推定量であり、信頼区間はその周りに構築できます。


1
ウィルコクソン検定を使用する場合、信頼区間を取得する簡単な方法はありますか?パラメトリック手法を使用する場合よりも、p値を重視しすぎることを人々に促しているようです。
mark999

はい、Hodges-Lehmannの推定量は関連する推定量であり、将来の読者がコメントを読む必要がないように、応答の本文を編集しました。
jbowman

ありがとう、jbowman。Hodges-Lehmannの推定量についてはよく知りませんが、それについて知ることができるものを見ていきます。
mark999

3
biostat.mc.vanderbilt.edu/WilcoxonSoftwareは、Rを使用してHodges-Lehmann推定値とその信頼区間を取得する方法を示しています。
フランクハレル

1
(+1)奇抜な反階級の伝統主義者から。ただし、ランクテストの課題は、仮説があいまいであることです。一般に、t検定と同じ仮説ではありません。t検定は常に平均差を検定し、Wilcoxonは加重平均順位差を検定します。ランク平均の差が統計的に有意であれば、平均が同じであっても、分布は異なっていなければならないことがわかります。いずれのテストも、すべてのケースで分布の違いを検出するための機能を備えていません。私が解釈しやすいので、私はそのように言っています。(1/2)
AdamO

24

この質問へのコメントで私たちの議論に戻りましょう。Wilcoxon sum-rank検定はMann-Whitney U検定と同等です(2つ以上のサンプルの直接拡張はKruskal-Wallis検定と呼ばれます)。あなたはで見ることができますウィキペディアなどでこのマン・ホイットニー(またはクラスカル-ウォリス)は、一般的でない手段や中央値を比較するテキスト。値の全体的な普及率を比較します。どのサンプルが「確率的に大きい」かです。テストは配布なしです。T検定は平均を比較します。正規分布を前提としています。そのため、テストはさまざまな仮説を立てます。ほとんどの場合、平均を具体的に比較する予定はありませんが、どのサンプルが値で大きいかを知りたいため、Mann-Whitneyがデフォルトのテストになります。一方、両方の分布が対称である場合、1つのサンプルが他のサンプルよりも「大きい」かどうかをテストするタスクは、2つの平均を比較するタスクに縮退します。更に力強い。


答えをテストされている仮説の意味に結び付けるために+1。
ジョシュヘマン

「どのサンプルが「確率的に大きい」」とは、「どのサンプルが他のサンプルと比べて一般に大きな値を取るか」という意味ですか?そうでない場合は、どういう意味ですか?これについてもう少し詳しく説明していただけますか?
エルドアンセヴァー

1
@エルドガン、はい、あなたが言ったように言うかもしれません。厳密な表現は次のとおりです。各サンプルから1つずつランダムに選択されたオブジェクトのペアでは、「確率的に優勢な」サンプルのオブジェクトは、確率> 0.5で他のサンプルのオブジェクトよりも高くなります。
ttnphns
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.