仮定が満たされていないデータのマンホイットニー検定は、仮定が満たされているデータのt検定と同じか、ほとんど強力ですか?
「として強力」のようなフレーズは、実際には一般的なステートメントとして機能しません。
電力は、さまざまな分散モデル間で特に比較できるわけではありません。特定の効果のサイズは、分布の異なる部分で異なる意味を持ちます。かなりピークに達しているが、裾が重い分布があるとします。特定のサイズの偏差は、はるかに「平らな」中心と小さな尾を持つものに似ていると私たちはどのように測定しますか?小さな偏差は簡単に拾いやすいかもしれませんが、大きな偏差は(私たちが電力を比較しようとしている他の分布の可能性に比べて)難しいかもしれません。
2つの正規分布のセットがあり、1つは大きなsdのペアで、もう1つは小さなsdのペアです。「まあ、パワーは標準偏差でスケーリングされます。効果サイズを標準偏差の数で定義すると、2つのパワーカーブを関連付けることができます。
しかし、今は異なる形の分布で、明確なスケールの選択はありません。それらを比較する方法についていくつかの選択を行う必要があります。私たちがどの選択をするかによって、それらがどのように「比較」されるかが決まります。
たとえば、データがコーシーである場合のパワーと、データがスケーリングされたベータ(2,2)である場合のパワーをどのように比較しますか?同等の効果サイズとは何ですか?以下のコーシーは、-1と1の間の分布が多く、-3と3の間の分布が他の分布よりも少なくなっています。たとえば、四分位範囲は異なります。比較の基準は何ですか?
その難問を解決できる場合は、分布の1つが左に歪んでいて、もう1つが二峰性であるか、または無数の他の可能性があるかを検討します。
特定の一連の仮定の下で電力を計算することはできますが、特定の分布仮定の下での2つのテストではなく、異なる分布仮定にわたる1つのテストの比較は、概念的に非常にトリッキーです。