p <0.001、p <0.0001、またはさらに低いp値を使用した研究の例?


11

私は社会科学から来ており、p <0.05がほとんどの標準であり、p <0.1およびp <0.01も表示されますが、疑問に思っていました。標準?

回答:


9

私の意見は、それは研究分野に依存しない(そしてすべきでない)ということです。たとえば、歴史的または確立された結果で研究を再現しようとしている場合、より低い有意水準で作業することができます(私が導いたストループ効果に関するいくつかの研究を考えることができます)過去数年間でいくつかの論争に)。これは、仮説を検証するための古典的なネイマン・ピアソンフレームワーク内のより低い「しきい値」を考慮することになります。ただし、統計的および実用的な(または実質的な)重要性は別の問題です。p<0.001

サイドノート。「星系」は70年代には科学的調査を支配していたようですが、J。コーエンによるThe Earth Is Round(p <.05)を参照してください(American Psychologist、1994、49(12)、997-1003)、私がよく知りたいことが私が観察したデータが与えられているという事実にもかかわらず、が真である確率はですか?とにかく、Jerry Dallalによる" Why P = 0.05? " についての素晴らしい議論もあります。H0


私の考えを正してください:いくつかの分野は、たとえば生化学的暴露に焦点を当てている可能性があるため、健康上の危険につながる可能性のあるタイプIのエラーを防ぐために、p <0.001を使用する必要があります。また、Am Psychからのこの記事に沿って、私はSociolAm Jまたは私がフォローしているsoc sciジャーナルの1つでのすばらしい研究も覚えています。もちろん、私のお気に入りはZiliakとMcCloskeyです。
神父

1
ここで説明する内容は逆に聞こえます。タイプIIのエラーについて心配します。生化学的曝露があると、何かがあるとそこにないのです。その場合、アルファを低くするのではなく、高く設定します。
ジョン

私は、テストが「妊娠がHRTに関連しているかどうかを評価しましょう」という仮定の下で作業していました(その場合、タイプIエラーはタイプIIエラーよりも深刻ですが、おそらくこのデザインは非標準です)。
神父

7

たとえば、0.01未満の事前に指定されたアルファレベルを使用することは誰にとっても珍しいかもしれませんが、観測されたP値が0.01は、0.01未満のNeyman-Pearsonアルファと同じです。

フィッシャーのP値は、Neyman-Pearsonのエラー率と同じではありません。は、実験が設計されたときに有意性の臨界レベルとしてを使用することを決定していない限り、意味しません。あなたがかかったでしょう場合は大幅に続いて手段があること偽陽性請求の確率。α = 0.0023 0.0023 、P = 0.05 、P = 0.0023 0.05P=0.0023α=0.00230.0023P=0.05P=0.00230.05

ハバードらを見てください。古典的統計検定における証拠(p)とエラー(α)の測定値の混乱。アメリカ統計学者(2003)vol。57(3)


私はその違いを理解していますが、おそらく日常的に間違いを犯しています。しかし、私の質問は、たとえばどこかでp <.0001の従来の使用法があるかどうかです。または、挑発的に言えば、p <.05カルトは普遍的ですか?
神父

P <0.05の「カルト」はほぼ普遍的である可能性がありますが、明らかな例外はフィッシャーとネイマン・ピアソンの方法の無知のハイブリッド化の結果である可能性が非常に高いため、この点に関する主張について確信を持つことはできません。基本的な薬理研究論文では、ネイマン・ピアソンの誤り率の使用に関する明確な記述はほとんどありません。
Michael Lew

例をありがとう。多くの理由(すべての科学的ではない)のため、私は薬理学的研究にますます感動していません…
Fr.

1
基本的な薬理学研究についての私のコメントをその分野の特定の批評として受け取るべきではありません。それは私自身の特定の分野であり、したがって私が最も経験している分野です。ハイブリダイズされたP値とエラー率に関して、まったく同じ欠点を持つ基礎研究の多くの領域が見つかると私は確信しています。
マイケルルー

心配する必要はありません。この欠点は、調査の分野を超えて行き渡っていることが容易に想像できます。
神父

3

私はこの文献にはあまり詳しくありませんが、一部の物理学者は統計的検定ではるかに低いしきい値を使用していると思いますが、彼らはそれについて少し異なって話します。たとえば、メジャーが理論的予測からの3つの標準偏差である場合、それは「3シグマ」偏差として記述されます。基本的に、これは、対象のパラメーターがα= .01のz検定の予測値と統計的に異なることを意味します。2つのシグマは、α= .05とほぼ同等です(実際には1.96σになります)。私が間違っていない場合、物理学の標準エラーレベルは5シグマで、α= 5 * 10 ^ -7になります。

また、神経科学または疫学では、複数の比較のためにいくつかの修正を定期的に実行することがますます一般的になっているようです。したがって、個々のテストのエラーレベルは、p <.01より低くなる可能性があります。


1
遺伝疫学では、ゲノムワイド関連研究において、実行される検査の正確な数に関係なく、しばしばを日常的に使用しています。α=5×108
ゲスト

1

上記のGaëlLauransが述べたように、多重比較問題にぶつかる統計分析は、より保守的なしきい値を使用する傾向があります。ただし、本質的には0.05を使用していますが、テスト数を掛けています。この手順(Bonferroni補正)がすぐに信じられないほど小さいp値につながる可能性があることは明らかです。これが、過去(神経科学)の人々がp <0.001で止まった理由です。現在、他の多重比較補正方法が使用されています(マルコフ確率場理論を参照)。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.