順列検定：検定統計量を選択する基準

私は定期的に順列テストを使用しており、その単純さが大好きです。私は、グッドによる本「リサンプリング手法」から最も多くを学びました。著者は、例全体を通してテスト統計の選択において非常に創造的であるようです。また、この投稿は、検定統計量を選択する大きな自由があるという印象を与えます。

テスト統計が従うべき理論的要件があるかどうかはわかりません。それとも、直観的に意味があり、タイプI / IIエラー率が高い限り、任意の統計を使用できますか？

たとえば、非正規母集団のためにt検定の代わりに置換検定が使用される場合、置換検定のp値が依然としてt統計から得られることが何度かありました。必ずしも間違っているわけではありませんが、スチューデントt分布の起源を考えると、奇妙な選択のようです。

hypothesis-testing permutation-test

— lgbi
ソース

t統計量は検定統計量として非常に理にかなっています。多くの人はそれを直感的に理解しています。私が0.5または5.5のt統計を引用すると、それは何かを教えてくれます-平均値から離れた標準誤差の数。

少なくとも中程度の非正規性の場合の難しさは、統計量を使用する場合、nullの下での分布にt分布を使用するほどではありません。統計はかなり賢明です。

もちろん、通常よりもかなり重い裾が予想される場合は、よりロバストな統計の方が適していますが、t統計は正規性からの緩やかな偏差にあまり敏感ではありません（たとえば、分散比統計よりも感度が低くなります）。

統計量の分子だけを使用したい場合、それはすばらしいことです。平均値の違いに興味がある場合は、置換統計量として完全に理にかなっています。より一般的なロケーションシフトに興味がある場合は、他の多くの可能性が開かれます。

統計を選択し、特定の状況に合わせて調整する自由はたくさんあると考えるのは正しいことです。どのような代替案を実行したいか、どのような問題に対して堅牢にしたいのか（汚染、たとえば、衝撃力）。

実際にはほとんど制限はありません-役に立たないテスト統計を含め、ほとんど何でも自由に選択できます。もちろん、テストを選択する際に本当に考慮すべきいくつかの考慮事項がありますが、自由ではありません。

とはいえ、さまざまな状況で適用できるいくつかの基準があります。

たとえば、特定の種類の仮説に特に関心がある場合は、それを反映する統計を利用できます。たとえば、母平均の差を検定したい場合、検定統計を作成することは理にかなっています。サンプル平均の違いに関連しています。

あなたが持っているかもしれない分布の種類について何か知っているなら-重いテール、またはスキュー、または概念的に軽いテールであるがある程度の汚染、または二峰性... ...そのような状況でうまくいくかもしれないテスト統計を考案できます、たとえば、予想される状況では良好に機能するが、汚染に対してある程度の堅牢性がある統計を選択します。

シミュレーションは、さまざまな状況下で電力を調査する1つの方法です。

— Glen_b-モニカの復活
ソース