テストでのマンホイットニーテストの能力


10

したがって、Mann Whitney U検定は、正規性と均一分散のt検定の仮定が満たされている場合、t検定と比較して約95%強力です。これらの仮定が満たされていない場合、Mann Whitney U検定はt検定よりも強力であることも知っています。私の質問は、仮定が満たされていないデータでのマンホイットニー検定は、仮定が満たされているデータでのt検定と同じくらい、またはほとんど強力ですか?

テストで実行するという仮定に基づいて電力計算をしている人をよく目にするので、私は尋ねています。彼らはデータを収集した後、データを探索し、代わりにマンホイットニー検定を使用することを決定します。テストの変更が電力にどのように影響するかを再訪しません。

ありがとう!


これらの仮定が満たされない場合、マンホイットニーU検定はt検定よりも強力であることも知っています。」それは強すぎる発言です。たとえば、データが均一に分散されているとしましょう。あなたは、そのような状況ではUテストがtよりも強力であることを知っていると言いますが、そうではありません。
Glen_b-2013

回答:


9

t検定の仮定が満たされないとき、違反の種類のために、我々はものの1)マン・ホイットニー検定は、t検定よりも強力であることが保証されていない傾向があり、現実の世界で見て、それがあります。+/- 100で切り捨てられた標準正規分布と、0.01の2つのグループの平均値の差を考えます。これは正常ではありませんが、2つの分布の差が非常に小さいため、両方のテストはあたかもそうであるかのように実行されます。

2)t検定は、2つの正規変量の平均値の差についての一様に最も強力な検定であるため、何であろうと、この種のデータについてマンホイットニーによって打ち負かされることはありません。ただし、Mann-Whitneyがt検定と比較して実行できる最悪の条件は、漸近相対効率の点で約0.864です。つまり、同じパワーを(漸近的に)与えるには、1 / 0.864xのデータが必要になります。(HollanderとWolfe、ノンパラメトリック統計手法。)逆の方向に向かう境界はありません。HollanderとWolfeからのいくつかの数値を再現すると、異なる分布に対して、MWのAREが次のt検定で得られます。

  1. ノーマル:0.955
  2. 均一:1.0 <-MWの反例は、非正規分布のtよりも優れている
  3. ロジスティック:1.097
  4. 二重指数:1.5
  5. 指数:3.0

もちろん、t検定の代わりにマンホイットニー検定を使用しても足で自分を撃つことはできませんが、その逆は真実ではありません。


INF

@PeterFlom確かに興味深い!限界値と限界での値の違いは、その頭を後押しします。ピットマンAREは前者であり、後者ではありません。
jbowman 2013

2
@PeterFlom AREは、サンプルサイズが無限大になるときの、ヌルでのパワーカーブの2次導関数(「曲率」)の比率に関連します。パワーカーブの2次導関数がゼロになる可能性があります。実際には、小規模から中程度のサイズのサンプルで、有意水準が名目値より大幅に低くても構わない場合は、2つのサンプルtはコーシーで大丈夫です。
Glen_b-2013

つまり、私が怠惰で、正常性などの仮定を確認したくなかったため、t検定ではなくMW検定を使用することにしたとしましょう。MWテストを使用して、すべての仮定が満たされたテストと同じレベルの電力を達成するには、最悪の場合、1 / 0.864倍のデータが必要になると言うことができます。それは理にかなっていますか?
Jimj 2013

1
@Jimjいいえ、それはそれが意味することではありません。MWテストを使用して、最悪の場合、同じ分布からのデータセットのテストと同じレベルのパワーを達成するには、(0.864は発生しない)1 / 0.864倍のデータが必要であると言うことができますtのすべての仮定が満たされた場合...それらが満たされた場合、AREは0.955です)
Glen_b-モニカ

10

仮定が満たされていないデータのマンホイットニー検定は、仮定が満たされているデータのt検定と同じか、ほとんど強力ですか?

「として強力」のようなフレーズは、実際には一般的なステートメントとして機能しません。

電力は、さまざまな分散モデル間で特に比較できるわけではありません。特定の効果のサイズは、分布の異なる部分で異なる意味を持ちます。かなりピークに達しているが、裾が重い分布があるとします。特定のサイズの偏差は、はるかに「平らな」中心と小さな尾を持つものに似ていると私たちはどのように測定しますか?小さな偏差は簡単に拾いやすいかもしれませんが、大きな偏差は(私たちが電力を比較しようとしている他の分布の可能性に比べて)難しいかもしれません。

2つの正規分布のセットがあり、1つは大きなsdのペアで、もう1つは小さなsdのペアです。「まあ、パワーは標準偏差でスケーリングされます。効果サイズを標準偏差の数で定義すると、2つのパワーカーブを関連付けることができます。

しかし、今は異なる形の分布で、明確なスケールの選択はありません。それらを比較する方法についていくつかの選択を行う必要があります。私たちがどの選択をするかによって、それらがどのように「比較」されるかが決まります。

たとえば、データがコーシーである場合のパワーと、データがスケーリングされたベータ(2,2)である場合のパワーをどのように比較しますか?同等の効果サイズとは何ですか?以下のコーシーは、-1と1の間の分布が多く、-3と3の間の分布が他の分布よりも少なくなっています。たとえば、四分位範囲は異なります。比較の基準は何ですか?

コーシー対スケーリングされたベータ

その難問を解決できる場合は、分布の1つが左に歪んでいて、もう1つが二峰性であるか、または無数の他の可能性があるかを検討します。

特定の一連の仮定の下で電力を計算することはできますが、特定の分布仮定の下での2つのテストではなく、異なる分布仮定にわたる1つのテストの比較は、概念的に非常にトリッキーです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.