P値は、帰無仮説が真であると仮定して、少なくとも観察されるものと同じくらい極端な検定統計量を取得する確率として定義されます。言い換えると、
しかし、どのような検定統計量は分布の二峰性である場合には?p値はこの文脈で何かを意味しますか?たとえば、Rでいくつかのバイモーダルデータをシミュレートします。
set.seed(0)
# Generate bi-modal distribution
bimodal <- c(rnorm(n=100,mean=25,sd=3),rnorm(n=100,mean=100,sd=5))
hist(bimodal, breaks=100)
そして、60の検定統計値を観察すると仮定しましょう。そして、ここで、この値が非常にありそうもないことを写真から知っています。理想的には、これを明らかにするために使用する統計手順(たとえば、p値)が必要です。しかし、定義どおりにp値を計算すると、かなり高いp値が得られます
observed <- 60
# Get P-value
sum(bimodal[bimodal >= 60])/sum(bimodal)
[1] 0.7991993
分布を知らなかった場合、私が観察したのは単に偶然によるものであると結論付けます。しかし、これは真実ではないことがわかっています。
私が持っている疑問は、p値を計算するときに、観測された値と少なくとも同じくらいの値の確率を計算するのはなぜでしょうか?そして、上記でシミュレートしたような状況に遭遇した場合、代替ソリューションは何ですか?