p = 5.0％は有意ですか？

14

今日、p値0.05（正確に）が有意である（アルファ= 5％である）と見なされるかどうかを尋ねられました。私は答えを知りませんでしたが、Googleは両方の答えを出しました。（a）pが5％未満の場合、結果は重要です。（b）pが5％未満または5％の場合、結果は有意です。

もちろん、これらのウェブサイトは誰も引用していません。なぜそうすべきなのか-それは常識であり、5％はとにかくarbitrary意的です。しかし、それは生徒に覚えておくべきことを伝えるのに役立ちません。

それで、ここに仮説のテストに関する私の必死の質問があります：p値が正確にアルファである場合-結果を有意とみなすかどうか？この場合の正式な引用とは何ですか？

どうもありがとうございました

hypothesis-testing statistical-significance p-value

— バーニンレオ
ソース

19

いくつかの実用的な問題（たとえば、がarbitrary意的である程度など）を除いて、有意水準とp値の定義により、この質問に対する答えは明確になります。 $\alpha$

正式には、拒否ルールは、ときに拒否することです $p = \alpha$ 。

離散的な場合にのみ問題になりますが、その状況で、ときに拒否しない場合 $p=\alpha$ 、タイプIエラー率は実際にはになりません $\alpha$ ！

（私に関する限り、「信頼できる」引用はありません。仮説検定へのネイマンピアソンとフィッシャーのアプローチの両方を理解する必要があり、それは時間の経過とともに発展したものです）

仮説検定を正しく説明する優れた統計テキストがいくつもあります。

p値の定義は、関連するWikipediaの記事の最初の文で正しく示されています *：

p値は、帰無仮説が真であると仮定して、少なくとも実際に観測されたものと同じくらい極端な検定統計量を取得する確率です。

*（いいえ、ウィキペディアは権威ではなく、定義が正しいと言っているだけです）

簡単にするために、ポイントヌルに固執しましょう。それは、追加の問題で水域を濁らせることなく、ポイントを獲得するのに役立ちます。

ここで、有意水準であるは、選択されたタイプIエラー率です。これは、真である場合に拒否される帰無仮説を選択する割合です。つまり、nullを拒否する必要がある時間の割合です。唯一の時間-今、離散分布と検定統計量を考慮しの正確 **実際に可能です。（通常、実際のアルファは、5％のように丸みのあるものとは異なる場合もあります。） $\alpha$ $p$ $\alpha$

**私は、議論を純粋に離散的または純粋に連続的な分散テスト統計のみに限定していると思います。混在するケースでは、個別の議論がどのように適用されるかを把握できます（適用される状況で）。

たとえば、両側符号検定を考えます。5％に最も近い達成可能な有意水準は4.904％です。それで、（より正確には、 $n=17$ $\alpha = 4.904\%$ ）。 $\frac{137500}{2^{17}}$

ときに真である私たちは時に拒否した場合、除去率は何？私達は達成できる。4.904％です- 選択したです。 $H_0$ $p=\alpha$ $\alpha$

一方、が真の場合、ときに棄却しない場合の棄却率はいくらですか？私達は達成できる。わずか1.27％です。それはよりずっと小さいです。それは私たちがサインアップしたテストではありません！ $H_0$ $p=\alpha$ $\alpha$

つまり、が棄却領域内にある場合、テスト（明らかに！）に必要な特性があります。 $p=\alpha$

[今、あなたの状況を考えてみましょう。あなたのp値は実際に正確に5％ですか？いくつかの異なる理由で、正確にはそうではないに違いない。ただし、いずれにしても、は拒否であると正式に述べることができます。] $p=\alpha$

前もって拒否ルールを説明し、（仮定が満たされていれば）望ましい有意水準があることを示す場合、おそらく参照の必要はありません。

拒否ルールは、テスト統計のどの値によってが拒否されるかについての単なるステートメントです。これは、拒絶領域を定義することと同等です（Casella and Berger、Statistical Inference、p346、用語拒絶領域を単純な用語で定義するを参照）。 $H_0$

同じ本は、ウィキペディアとは異なる用語でp値（p364）を定義しています（ただし、結果は同じです）。つまり、（所定のデータセットに対して）nullの拒否につながる最小のとして定義しています。 $\alpha$

（別のエディションを使用している場合、ページ番号は変更される可能性がありますが、インデックスが付いているため、用語を検索できます。注意してください、「仮説テスト」またはインデックス内の類似したものの下のリストを調べる必要がある場合があります「拒否地域」）

うーん、すぐに別の本を試してみましょう。ワッカー、Mendenhall＆Scheaffer Mathematical Statistics with Applications、第5版では、p412に拒否領域を定義し、p431にp値（C＆Bと同じdef）を定義しています。

— Glen_b -Reinstate Monica
ソース

ありがとうございました。「統計の実用的なユーザー」という愚かな質問を許可してください：ウィキペディア以外でこの定義や拒否ルールを見つけるのはどこですか？私はいくつかの統計の本を上映しましたが、通路は見つかりませんでした。おそらく間違った単語を検索しています...

— BurninLeo

更新情報を参照してください

— Glen_b -Reinstate Monica

あなたは素晴らしい！確かに、あなたはそれを知っていましたが、とにかく述べる価値がある場合もあります。どうもありがとう！

— BurninLeo

1

（+1）本当にいい答えです。

— chl

2

私が初期の生物統計学のクラスで教授から学んだ興味深い告白は、0.05の有意水準が黄金の真実ではなくコンセンサスによって到達したということです。それ以来、研究の顕著な発見であると「近づく」など、0.05の有意水準で浮気する文献を見てきました。また、0.05の有意水準がすべての研究分野に適用されるわけではないという議論を聞きました。そうは言っても、ポイントの推定値と信頼区間は有意水準よりも有益であることがわかりました。この問題に関する興味深い記事があります（とにかく私には）。

— user2300643
ソース

参照@ user2300643をありがとう。そして、アクセスに対する経済的障壁を回避してくれてありがとう！

— doug.numbers

ここで、5％などの重要度レベルの起源について興味深い議論があります。

— グレン_b-モニカの復活2013

0

pの値は、前述のようにコンセンサス（またはむしろ怠）に設定されます。何か重要だと本当に言えるようにするには、効果のサイズ、サンプルのサイズ、およびデータに対してどの程度厳しいものにするかに対応するpの値を見つける必要があります。これは電力分析と呼ばれます（統計内のサブフィールドです）。多くの人は気づかないか、単純ではないので単純に使用しません。これは、それがそれでいいと言うことではありません。本当に意味のある推論を引き出すために、この種の研究を常に行うべきです。

— レイゴザグ
ソース