質問は単純に見えますが、それについてのあなたの考察は、それがそれほど単純ではないことを示しています。
実際、p値は統計理論への比較的遅い追加です。コンピューターなしでp値を計算するのは非常に面倒です。このため、このブログ投稿で説明するように、統計テストを最近まで実行する唯一の方法は統計テストの表を使用することでした。これらのテーブルは固定のレベル(通常は0.05、0.01、0.001)で計算されているため、これらのレベルでのみテストを実行できました。α
コンピューターはこれらのテーブルを役に立たなくしましたが、テストのロジックはまだ同じです。あなたがすべき:
- 帰無仮説を定式化します。
- 対立仮説を策定します。
- 受け入れる準備ができている最大タイプIエラー(帰無仮説を誤って拒否する確率)エラーを決定します。
- 拒否領域を設計します。帰無仮説がレベルある場合、検定統計量が棄却域に入る確率。@MånsTが説明するように、これは許容可能なタイプIエラーより小さくてはならず、多くの場合、漸近近似を使用します。α
- ランダム実験を実行し、検定統計量を計算して、それが棄却域に入るかどうかを確認します。
理論的には、イベント間の厳密な等価性がある「統計は棄却域に落ちる」と「p値未満である」αあなたがp値を報告できると感じている理由である、代わりに。実際には、ステップ3をスキップして、テスト終了後にタイプIエラーを評価できます。
あなたの投稿に戻るために、帰無仮説の記述は間違っています。帰無仮説は、頭をひっくり返す確率が(帰無仮説はランダム実験の結果に関係しません)。1 / 2
閾値p値0.05で実験を何度も繰り返した場合、はい、約 5%の拒否があります。また、p値のカットオフ値を0.06に設定すると、最終的に約6%の拒否率になります。より一般的には、連続テストの場合、p値定義によりp
Pr o b (p < x )= x 、(0 < x < 1 )、
これは、個別のテストにのみほぼ当てはまります。
これを少し明確にしたいRコードをいくつか示します。二項検定は比較的遅いので、私は1000個のコインを投げるランダム実験を10,000回だけ行います。二項検定を実行し、10,000個のp値を収集します。
set.seed(123)
# Generate 10,000 random experiments of each 1000 coin flipping
rexperiments <- rbinom(n=10000, size=1000, prob=0.5)
all_p_values <- rep(NA, 10000)
for (i in 1:10000) {
all_p_values[i] <- binom.test(rexperiments[i], 1000)$p.value
}
# Plot the cumulative density of p-values.
plot(ecdf(all_p_values))
# How many are less than 0.05?
mean(all_p_values < 0.05)
# [1] 0.0425
# How many are less than 0.06?
mean(all_p_values < 0.06)
# 0.0491
サンプルサイズは無限ではなく、テストは離散的であるため、比率は正確ではないことがわかりますが、それでも2つの間で約1%の増加があります。