比較および対比、p値、有意水準およびタイプIエラー

p値、有意水準、タイプIエラーの定義と使用に関して、だれかが簡潔に要約できるかどうか疑問に思っていました。

p値は「少なくとも実際に観測したものと同じくらい極端な検定統計量を取得する確率」として定義され、p値が有意であるかどうかを測定するための有意水準は単なる任意のカットオフ値です。タイプIエラーは、真である帰無仮説を棄却したエラーです。ただし、有意水準とタイプIエラーの違いについては不明ですが、それらは同じ概念ではありませんか？

たとえば、コインを1000回裏返し、「頭」に着弾した回数を数える非常に単純な実験を想定します。私の帰無仮説、H0は、heads = 500（不偏コイン）です。次に、有意水準をalpha = 0.05に設定します。

コインを1000回反転し、p値を計算します。p値が0.05より大きい場合、帰無仮説を棄却できず、p値が0.05未満の場合、帰無仮説を棄却します。

今、この実験を繰り返して、p値を計算し、帰無仮説を拒否または拒否し、拒否した/拒否しなかった回数を数えるたびに、帰無仮説の5％を拒否することになります実際にはどれが本当でしたか、それは正しいですか？これがタイプIエラーの定義です。したがって、フィッシャー有意性検定の有意水準は、繰り返し実験を実行した場合の本質的に、ネイマンピアソン仮説検定からのタイプIエラーです。

p値については、最後の実験から0.06のp値を得て、複数の実験を行い、0から0.06のp値を取得したすべての実験を数えた場合、真の帰無仮説を棄却する確率は6％ですか？

— BYS2
ソース

回答:

質問は単純に見えますが、それについてのあなたの考察は、それがそれほど単純ではないことを示しています。

実際、p値は統計理論への比較的遅い追加です。コンピューターなしでp値を計算するのは非常に面倒です。このため、このブログ投稿で説明するように、統計テストを最近まで実行する唯一の方法は統計テストの表を使用することでした。これらのテーブルは固定のレベル（通常は0.05、0.01、0.001）で計算されているため、これらのレベルでのみテストを実行できました。 $\alpha$

コンピューターはこれらのテーブルを役に立たなくしましたが、テストのロジックはまだ同じです。あなたがすべき：

帰無仮説を定式化します。
対立仮説を策定します。
受け入れる準備ができている最大タイプIエラー（帰無仮説を誤って拒否する確率）エラーを決定します。
拒否領域を設計します。帰無仮説がレベルある場合、検定統計量が棄却域に入る確率。@MånsTが説明するように、これは許容可能なタイプIエラーより小さくてはならず、多くの場合、漸近近似を使用します。 $\alpha$
ランダム実験を実行し、検定統計量を計算して、それが棄却域に入るかどうかを確認します。

理論的には、イベント間の厳密な等価性がある「統計は棄却域に落ちる」と「p値未満である」 $\alpha$ あなたがp値を報告できると感じている理由である、代わりに。実際には、ステップ3をスキップして、テスト終了後にタイプIエラーを評価できます。

あなたの投稿に戻るために、帰無仮説の記述は間違っています。帰無仮説は、頭をひっくり返す確率が（帰無仮説はランダム実験の結果に関係しません）。 $1/2$

閾値p値0.05で実験を何度も繰り返した場合、はい、約 5％の拒否があります。また、p値のカットオフ値を0.06に設定すると、最終的に約6％の拒否率になります。より一般的には、連続テストの場合、p値定義により $p$

P r o b (p < x) = x, (0 < x < 1),

$Prob(p < x) = x, \, (0 < x < 1),$

これは、個別のテストにのみほぼ当てはまります。

これを少し明確にしたいRコードをいくつか示します。二項検定は比較的遅いので、私は1000個のコインを投げるランダム実験を10,000回だけ行います。二項検定を実行し、10,000個のp値を収集します。

set.seed(123)
# Generate 10,000 random experiments of each 1000 coin flipping
rexperiments <- rbinom(n=10000, size=1000, prob=0.5)
all_p_values <- rep(NA, 10000)
for (i in 1:10000) {
    all_p_values[i] <- binom.test(rexperiments[i], 1000)$p.value
}
# Plot the cumulative density of p-values.
plot(ecdf(all_p_values))
# How many are less than 0.05?
mean(all_p_values < 0.05)
# [1] 0.0425
# How many are less than 0.06?
mean(all_p_values < 0.06)
# 0.0491

サンプルサイズは無限ではなく、テストは離散的であるため、比率は正確ではないことがわかりますが、それでも2つの間で約1％の増加があります。

— gui11aume
ソース

@MånsTありがとう！連続テストと個別テストの区別については、+ 1を付けてください（正直に完全に見落としていました）。

— gui11aume

@ gui11aume、入力ありがとうございます！ただし、「p値は統計理論に比較的遅れて追加される」という文は奇妙です。私が読んだことから、フィッシャーのp値による「有意性検定」は1925年頃に始まりました。ネイマン・ピアソンの「仮説検定」は、数年後にフィッシャーの研究の「改善」として生まれました。p値を計算するのが難しいことは事実ですが（そのため、標準レベルの有意性が使用された理由）、彼の研究は記念碑的でした。実際、彼は「統計の父」と呼ばれています。なぜなら、彼は現代の統計の多くの基礎を作ったからです。

— -BYS2

@ BYS2絶対に正しい（+1）。p値の理論は、統計の起源からさかのぼります。最近の普及している使用です。気づいてくれてありがとう;-)

— gui11aume

@guillaumeのおかげで、私は別の簡単な質問があります。私の帰無仮説はH 0 = 500であってはなりませんが、たとえば次のような多くのテキストが使用されているようです。 s .. t。分布は、H0 = 0.5ではなくH0 = 500を使用した場合、本質的にスケーリングします

— -BYS2

@ gui11aume：たぶん私の答えを見てみると面白いかもしれません：stats.stackexchange.com/questions/166323/…–

ここでは、@ MansTと@ gui11aumeから適切な回答を得ています（それぞれに+1）。両方の回答の中で何かをより明確に得ることができるかどうか見てみましょう。

操作する場合の離散データ、そこだけ特定のp値が可能であり、問題が少ない可能性/より小さなデータセットと悪いです。たとえば、コインを回ひっくり返すことを想像してください。特定の数の頭を獲得する確率は、です。コインを10回裏返し、ヘッドの数を記録することにより、コインの公平性をテストします（実際には公平です）。つまり、ここで帰無仮説が当てはまります。私たちの研究者は設定します $n$ $k$

p (k) = \frac{n!}{k! (n - k)!} p^{k} (1 - p)^{n - k}

$p(k)=\frac{n!}{k!(n-k)!}p^k(1-p)^{n-k}$

α = .05

$\alpha=.05$ 、慣例により、それはより大きなコミュニティで受け入れられるために必要だからです。ここで、従来のアルファを少し無視して、この状況で可能な両側テールのp値（タイプIのエラー率）を考えてみましょう。

number of heads:           0    1    2    3    4    5    6    7    8    9   10
individual probability:  .001 .010 .044 .117 .205 .246 .205 .117 .044 .010 .001
type I error rate:       .002 .021 .109 .344 .754   1  .754 .344 .109 .021 .002

これが示すことは、を使用すると、長期的な両側のタイプIエラー率がです。これは明らかにそうであるようあれば、ただし、（上記のいずれかの値に設定された代わりの）を有意水準は、タイプIエラー率に等しくなります。この問題にもかかわらず、この場合、p値はタイプIエラー率と等しくなります。私が使用しているため何の問題は、離散的な推論の統計と連続基準分布との間に不整合とここには存在しないことに注意してください正確に $\alpha=.05$ $.021$ $\alpha\ne\text{type I error}$ $\alpha$ $.05$ 二項確率。さらに、このような状況では、p値と有意水準との間の不一致を最小限に抑えるために、中間p値の開発が促されていることに注意してください。

計算されたp値がない場合があることができないタイプIエラー率が必ずしも有意水準に等しくないという事実に加えて、長期的なタイプIエラー率が等しくなります。次の観測カウントを含む2x2分割表を考えてみましょう。

     col1 col2
row1   2    4   
row2   4    2

ここで、行と列の独立性のp値をどのように計算する必要がありますか？多くのオプションがあります（ここで説明します）。まず、統計を計算し、それを参照分布と比較します。その収率。基準分布かかわらず、連続的であり、そしてどのようにこの特定の（離散）に非常に近似のみ統計量は動作します。フィッシャーの正確検定を使用して、真のタイプIエラー率を判断できます。その後、私はを取得します $\chi^2$ $\chi^2_{1}=1.3, p=.248$ $\chi^2$ $\chi^2$ $p=.5671$ 。この方法でp値を計算すると、タイプIのエラー率と等しくなりますが、可能なp値の1つが正確に5％であるかどうかはまだ疑問です。Yatesの補正を連続性に使用していた場合、私は少しごまかしたことを認めさせていただきますが、真のタイプIエラー率のより良い近似を得たでしょうが、それでもまだ正しくありませんでした（）。 $.5637\ne .5671$

したがって、ここでの問題は、離散データの場合です。

希望する有意水準は、可能なタイプIエラー率の1つではない可能性があります。
連続的な統計に（従来の）近似を使用すると、不正確な計算されたp値が得られます。

これらの問題は、が小さいほど悪化します。私の知る限り、これらの問題は連続データには存在しません。 $N$

（質問はこれらの問題の解決策については尋ねませんが）これらの問題を軽減するものがあります：

大きいほど値が大きくなり、物事がより連続的になり、 $N$
多くの場合、計算値を正しい値に近づける修正（Yatesの連続性の修正など）があります。
正確なテスト（扱いやすい場合、つまりが十分に小さい場合）は、正しいp値を生成します。 $N$
中間のp値により、タイプIのエラー率を選択した信頼レベルに近づけることができます。
存在するタイプIのエラー率のいずれかを明示的に使用できます（または、それが何であるかに注意してください）。

— gung-モニカの復職
ソース

あなたが私たちがサイドに残した詳細に進んだことは素晴らしいことです（+1）。

— gui11aume

@gung-最初のテーブルのタイプIエラー率をどのように取得したかについてコメントしてください。

— stats134711

@ stats134711、それは極端またはより極端な（両側）オプションの個々の確率の合計です。

— GUNG -復活モニカ

概念は実際、互いに密接にリンクされています。

有意水準は、タイプIエラーの確率、またはそのようなイベントの推定確率です。テストは有意水準を有すると言われている古典的テスト理論にので、連続分布で作業する場合、一般的にのみ得ることができるならは、タイプIエラーの確率がによって制限されることを意味します。ただし、ある種または別の近似を使用するテストは、実際にはを持つ傾向がありこの場合、タイプIエラーの確率は公称。 ${\rm P}({\rm type~I~error})= \alpha$ $\alpha$ ${\rm P}({\rm type~I~error})\leq \alpha$ $\alpha$ ${\rm P}({\rm type~I~error})\approx \alpha$ $\alpha$

p値は、帰無仮説が受け入れられる最低の有意水準です。したがって、結果の「重要性」がわかります。

— マンス
ソース