検定統計量の分布がバイモーダルの場合、p値は何か意味がありますか？

P値は、帰無仮説が真であると仮定して、少なくとも観察されるものと同じくらい極端な検定統計量を取得する確率として定義されます。言い換えると、

しかし、どのような検定統計量は分布の二峰性である場合には？p値はこの文脈で何かを意味しますか？たとえば、Rでいくつかのバイモーダルデータをシミュレートします。

P (X \geq t | H_{0})

$P( X \ge t | H_0 )$

set.seed(0)
# Generate bi-modal distribution
bimodal <- c(rnorm(n=100,mean=25,sd=3),rnorm(n=100,mean=100,sd=5)) 
hist(bimodal, breaks=100)

ここに画像の説明を入力してください

そして、60の検定統計値を観察すると仮定しましょう。そして、ここで、この値が非常にありそうもないことを写真から知っています。理想的には、これを明らかにするために使用する統計手順（たとえば、p値）が必要です。しかし、定義どおりにp値を計算すると、かなり高いp値が得られます

observed <- 60

# Get P-value
sum(bimodal[bimodal >= 60])/sum(bimodal)
[1] 0.7991993

分布を知らなかった場合、私が観察したのは単に偶然によるものであると結論付けます。しかし、これは真実ではないことがわかっています。

私が持っている疑問は、p値を計算するときに、観測された値と少なくとも同じくらいの値の確率を計算するのはなぜでしょうか？そして、上記でシミュレートしたような状況に遭遇した場合、代替ソリューションは何ですか？

— アルビー
ソース

Null Hypothesis Significance Testingの素晴らしい世界へようこそ！真剣に：私は正直に、帰無仮説（私たちがNHSTで気にしているもの）の下で二峰性分布を持つ検定統計量を考えることができません。興味深い質問に+1しますが、具体的な例を念頭に置いていない限り、その実用的な関連性を疑います。

— ステファンKolassa 14年

@StephanKolassaに同意します。確かに二峰性のデータの分布がありますが、どのような検定統計量ですか？

— ピーターフロム-モニカの復職

私は、最初の式で示唆されたp値の特性化に反対します。ネイマン・ピアソン理論の「少なくとも極端な」という正しい意味は、相対的な尤度に関するものであり、実数の通常の順序（式に示されている）ではありません。2つは多くの標準的なテスト状況で同等ですが、サンプリング分布がバイモーダルの場合は大きく異なります。したがって、この区別は問題を十分に解決すると思います。

— whuber

@whuber簡単な例を使って、これについて少し詳しく説明していただけますか？

— ザボルクス14年

G_{θ}

$G_\theta$

(θ, θ)

$(\theta,\theta)$

θ \geq 1

$\theta\ge 1$

F_{θ} (x)

$F_\theta(x)$

G_{θ} (x)

$G_\theta(x)$

G_{θ} (- x)

$G_\theta(-x)$

x \in [- 1, 1]

$x \in [-1,1]$

F_{1}

$F_1$

F_{2}

$F_2$

\pm 1 / 2

$\pm 1/2$

X \sim F_{θ}

$X\sim F_\theta$

H_{0} : X \sim F_{1}

$H_0: X\sim F_1$

H_{A} : X \sim F_{2}

$H_A: X\sim F_2$

\pm 1

$\pm 1$

1 / 2

$1/2$

- 1 / 2

$-1/2$

θ = 2

$\theta=2$

検定統計量を「極度」にするものは、サンプル空間に順序付け（または少なくとも部分的な順序付け）を課す代替手段に依存します-最も一貫性のある（検定統計量によって測定される意味で）ケースを拒否しようとします代替案。

あなたが本当にしていないときに持っているあなたに、あなたは基本的に順序を与える可能性が残っていると、ほとんど一致しているために何かを与える代わりに、ほとんどの場合、フィッシャーの正確確率検定で見られます。そこでは、nullの下での結果の確率（2x2テーブル）が検定統計量を順序付けます（したがって、「極値」は「低確率」です）。

バイモーダルNULL分布の左端（または右端、またはその両方）が、関心のある代替の種類に関連付けられている場合、60の検定統計量を拒否しようとはしません。そのような代替手段がない状況にある場合、60 は異常です-可能性は低いです。60という値はモデルと矛盾しており、拒否することになります。

[これは、フィッシャーの仮説検定とネイマン・ピアソンの仮説検定の中心的な違いの1つとみなされる人もいます。明示的な代替案と尤度の比を導入することにより、nullの下での尤度が低いからといって、Neyman-Pearsonフレームワークで必ずしも拒否されるわけではありません（代替案と比較して比較的良好に機能する限り）実際に代替手段はなく、nullの下の可能性が興味のあるものです。]

ここでは、どちらのアプローチが正しいか間違っているかを示唆しているわけではありません-あなたは先に進んで、どのような選択肢に対して力を求めているか、それが特定のものか、ヌルの下では十分にありそうもないものを自分で考えてください。必要なものがわかれば、残りの部分（少なくとも「極端な」という意味を含む）がそれに続きます。

— Glen_b -Reinstate Monica
ソース