0.05 <p <0.95の結果が偽陽性と呼ばれるのはなぜですか?


9

編集:私の質問の根拠には欠陥があり、それが意味をなすように作成できるかどうかを判断するために、少し時間を費やす必要があります。

編集2: p値が帰無仮説の確率の直接的な尺度ではないことを認識していますが、p値が1に近いほど、仮説が対応する帰無仮説が真である実験的テストに選択されましたが、p値が0に近いほど、対応する帰無仮説が偽である実験的テストに仮説が選択されている可能性が高くなります。すべての仮説のセット(または実験のために選択されたすべての仮説)が何らかの方法で病理的でない限り、これがどのように間違っているかはわかりません。

編集3:質問に明確な用語を使用していません。宝くじの番号が読み取られ、チケットと1つずつ照合すると、何かが変わります。勝った確率は変わりませんが、ラジオをオフにできる確率は変わります。実験が行われたときにも同様の変化が起こりますが、私が使用している用語「p値は、真の仮説が選択される可能性を変える」というのは正しい用語ではないと感じています。

編集4:私が取り組むべき豊富な情報を含む2つの驚くほど詳細で有益な回答を受け取りました。私は今、両方に投票し、両方の回答から十分に学習して、質問に答えたか無効にしたことを知ったときに、どちらか1つを受け入れます。この質問は、私が予想していたものよりもはるかに大きなワームの缶を開きました。

私が読んだ論文では、検証後に「偽陽性」と呼ばれるp> 0.05の結果を見てきました。ただし、実験データのap <0.50は低いが> 0.05であり、帰無仮説と非仮説の両方ではない場合に、対応する偽の帰無仮説でテストする仮説を選択した可能性が高いのではないでしょうか。研究仮説統計学的に不確実な/の些細な(従来の統計的有意性のカットオフを与えられた)は、p <<0.05の間のどこか0.95のpの逆数<0.05は、非対称性がNickStaunerの@に指摘与えられ、あるものは何でもリンク

その数値をAと呼び、p値として定義します。これは、実験/分析で真の帰無仮説を選択した可能性について同じことを示し、p値0.05は、 veは、実験/分析のために真の非帰無仮説を選びました。0.05 <p <ではない、「サンプルサイズが質問に答えるほど大きくなかったため、より大きなサンプルを取得して統計を得るまで、アプリケーション/現実世界の重要性を判断することができません。意味が整理されましたか?」

言い換えれば、p> Aの場合に限り、(単にサポートされていないのではなく)結果を完全にfalseと呼ぶのが正しいのではないでしょうか?

これは私には簡単に思えますが、そのような広範囲にわたる使用法は、私が間違っている可能性があることを示しています。私は:

a)数学の誤解、
b)無害で正確ではない慣例についての不満、
c)完全に正しい、または
d)その他?

これは意見の募集のように聞こえますが、これは明確な数学的に正解の回答のように(有意性の切り捨てが設定された後)、私または(ほとんど)全員が間違っている問題のようです。


1
こんにちはデビッド。ここに私がそれについて考えさせた論文があります:リンク
アンドリュー・クラセン

2
最初の行に、代わりに "... 最初は結果が検証された後、検証後に結果が..."と書くつもりはありませんか?がしきい値よりも大きい結果は、それ以外の場合は否定結果と呼ばれます。編集後も、の解釈の特徴付けが正しくないため、少し時間を取って、p値の解釈に関するいくつかの投稿を確認し、質問の内容を再検討することをお勧めします。のp 0.05 のp α のpp<0.05p0.05pαp
whuber

1
必要に応じて質問を削除することもできますが、2つの賛成票(まあ、3にしましょう)と賛成票を受け取ったので、「本当に」の回答をもうすぐ受け取るので、そのままにしておいてください。私はあなたが望むように行う権利を尊重しますが、あなたが適切と思うように積極的にそれに取り組んでいます。乾杯!
Nick Stauner 14

1
私は@ Nick、Andrewに同意します。あなたはここでいくつかの考えと注目を集めた説得力のある挑発的な質問を持っているので、投稿し続けて、できれば少し絞って、 p値の解釈方法に関する重要な問題。小説の部分は、私が言えることですが、棄却基準は大きなp値に基づくべきであるという提案です。コメントについて:偽陽性は、検定が有意であるが、帰無仮説が真であることがわかっている場合に発生します。
whuber

1
@whuber:私にとってより説得力のある背景の焦点は、より大きなサンプルサイズでのフォローアップ実験が生産的である可能性が高いことを示唆する結果にあります。これまでの回答を考えると、p値がその質問に関連している可能性があるかどうかを尋ねる必要があるようです。偽陽性の尺度として帰無仮説が真であることを知っていること:状況p>(1-α)の外で帰無仮説が真であると言うのはいつですか?
Andrew Klaassen 14

回答:


15

あなたの質問は誤った前提に基づいています:

p <0.50の場合でも、帰無仮説は誤りではない可能性が高いです

p値は、帰無仮説が真である確率ではありません。たとえば、帰無仮説が真である1000のケースを取った場合、それらの半分はになりますp < .5。それらの半分はすべて nullになります。

確かに、p > .95帰無仮説が「おそらく真実である」ということを意味する考えは、同様に誤解を招くものです。帰無仮説が真の場合、その確率p > .95はの確率とまったく同じですp < .05

ETA:編集により、問題が何であるかが明確になります:上記の問題がまだあります(p値を事後確率として扱いますが、そうでない場合)。これは微妙な哲学的区別ではないことに注意することが重要です(宝くじのチケットについての議論で暗示されていると思います)。これは、p値の解釈に非常に大きな影響を与えます。

しかし、そこにあるあなたが探しているものにあなたを取得するp値に対して実行できる変換は、それは地元の偽発見率と呼ばれています。(この素晴らしい論文で説明されているように、これは「事後エラー確率」に相当する頻度主義者なので、もし望むならそのように考えてください)。

具体的な例を見てみましょう。(正規分布からの)10個の数値のサンプルの平均が0であるかどうかを判定するためにt検定を実行しているとします(1標本の両側t検定)。最初に、短いRシミュレーションで、平均が実際ゼロの場合のp値分布がどのようになるかを見てみましょう。

null.pvals = replicate(10000, t.test(rnorm(10, mean=0, sd=1))$p.value)
hist(null.pvals)

ここに画像の説明を入力してください

ご覧のように、nullのp値は一様に分布しています(0と1の間のすべての点で等しくなる可能性があります)。これは、p値の必要条件です。実際、p値の意味はまさにこれです。(nullがtrueの場合、5%の確率で.05未満、10%の確率で.1未満...)

次に、対立仮説、つまりnullがfalseである場合を考えてみましょう。さて、これはもう少し複雑です:nullがfalseの場合、「どのようにfalse」ですか?サンプルの平均は0ではありませんが、それは0.5ですか?1?10?それはランダムに変化しますか?簡単にするために、常に.5に等しいとしましょう(ただし、複雑さを覚えておいてください。後で重要になります)。

alt.pvals = replicate(10000, t.test(rnorm(10, mean=.5, sd=1))$p.value)
hist(alt.pvals)

ここに画像の説明を入力してください

分布が均一ではなくなっていることに注意してください。0にシフトしています!コメントで、情報を提供する「非対称性」について言及します。これはその非対称性です。

したがって、これらの分布の両方を知っていて、新しい実験で作業しているとします。また、50%の確率でnullであり、50%の確率で代替であるという前例があるとします。あなたは0.7のp値を取得します。それとp値から確率をどのように得ることができますか?

あなたがすべきことは密度を比較することです:

lines(density(alt.pvals, bw=.02))
plot(density(null.pvals, bw=.02))

そして、あなたのp値を見てください:

abline(v=.7, col="red", lty=2)

ここに画像の説明を入力してください

null密度と代替密度の比率を使用して、ローカルの誤検出率を計算できます。nullが代替と比較して高いほど、ローカルFDRが高くなります。これは、仮説がnullである確率です(厳密には、頻度主義の解釈はより厳密ですが、ここでは単純にしておきます)。場合はその値が非常に高いです、そしてあなたは、解釈をすることができ、「帰無仮説は、ほぼ確実に真実です。」実際、ローカルFDRの.05および.95しきい値を作成できます。これには、探しているプロパティがあります。(ローカルFDRはp値とともに単調に増加するため、少なくとも正しく実行している場合、これらはいくつかのしきい値AおよびBに変換され、ここで「

さて、「それでは、なぜp値の代わりにそれを使用しないのですか?」2つの理由:

  1. テストがnullである事前確率を決定する必要があります
  2. 代替案の下での密度を知る必要があります。これは非常にあなたがどのように大規模なあなたの効果の大きさを決定する必要があるため、推測することは困難と分散できること、そしてどのくらいの頻度は、彼らがそうです!

p値テストではどちらも必要ありませんが、p値テストを使用すると、誤検出を回避できます(これが主な目的です)。さて、ありますが、(そのような遺伝子の数千人ごとに1つのテストとして:参照p値の何千も持っている場合、複数の仮説検定におけるそれらの値の両方を推定することが可能で、この論文本論文を例えばを)ではなく、ときに単一のテストを行っています。

最後に、「この論文では、p値が.05を超えるような複製は必ずしも誤検出であると誤解しているのではないでしょうか?」確かに、1つのp値が.04でもう1つのp値が.06であっても、実際には元の結果が間違っていたというわけではありませんが、実際には選択するのに妥当な指標です。しかし、いずれにせよ、他の人がそれについて疑問を持っていることを知って喜んでいるでしょう!あなたが参照する論文は、統計にやや物議です:本稿では、別の方法を使用し、医学研究からp値についての非常に異なる結論に来て、その後、研究が批判されたことを、いくつかの著名なBayesians(とでぐるぐるそれが行きます...)。したがって、あなたの質問はp値に関する誤った推定に基づいていますが、あなたが引用した論文の興味深い仮説を検討していると思います。


こんにちはデビッド。フェアポイント。私はその部分を間違えないように私の質問を言い換え、さらに問題が発生するかどうかを確認することに取り組みます。
Andrew Klaassen 2014

@David_Robinson:ベイジアンルールで偽警報率としてp値を使用して、研究の確率についての結論を導き出したり、そこから帰無仮説を立てたりすることができますか?前を50%に設定し、そこから高速でルーズにプレイしますか?:-)
Andrew Klaassen 2014

1
はい、魅力的です!それを答えに組み込めますか?しかし、nullがtrueであるときとfalseであるときのpの動作には、データから抽出されたp値に基づいてnull仮説がtrueである可能性に関する情報を提供する必要があるという非対称性があります。真の帰無仮説が均一に分布したp値を生成し、真の非帰無仮説が0に向かって歪んでいるp値を生成する場合、ap = 0.01の大理石を引き出す〜を選択する必要がある可能性が高いことを示唆しています-実験を行っても確率が変わらない場合でも、実験のヌル瓶。
Andrew Klaassen 14

1
@AndrewKlaassen:「ローカルな偽発見率」の概念に興味があるかもしれません。これは、ヌルが真であるベイジアン事後確率と同等の頻度主義者です。これには2つのことが必要です。a)nullが真である事前確率(pi0と呼ばれることもあります)、およびb)対立仮説の密度の推定。複数の仮説検定(数千のp値がある場合)では、密度を調べることでこれらの両方を推定できます。もう少し時間があれば、私は私の答えにもっと深い説明を組み込むかもしれません。
David Robinson、

1
@AndrewKlaassen:私の編集を参照してください。ここで、ローカルFDRを詳細に説明します。これは、値「A」を計算する方法です(Aの計算中に.05を変更する必要があるかもしれません)。また、それがほとんど使用されない理由も。とにかく、答えに実際には当てはまらない1つのポイントを明確にするために:宝くじのチケットを使用した例は、私や他の人が行っているポイントを誤解しています。私たちは「新しい情報で確率が変わる」という考えにこだわっていませんでした(ベイジアンと頻度論者の両方がそれを解釈しています):重要なのは、あなたがそれらを正しい方法で変更していないということだけです!
David Robinson、

10

下に表示される(は偽のタグです)の上にマウスを置くと、Wikiの簡単な抜粋が表示されます。行間隔の乱れはご容赦ください。タグの抜粋は、読み手が読みながら専門用語の理解を確認するのに役立つ可能性があるため、価値があると思います。これらの抜粋の一部は編集にも値する可能性があるため、広報担当者のIMHOにも値する。

p < .05 p > .05p>.05通常、拒否してはならないことを意味し。逆に、またはfalse positivesは、他のでは(通常)からランダムにサンプリングされる可能性が低いを生成するエラーまたはその他の異常なインシデントのためにnullを拒否した場合に発生します。nullがtrueである場合。偽陽性と呼ばれる結果は、帰無仮説の誤解を反映しているようですp<.05p>.05ing(NHST)。NHSTは直感に反していることで悪名高いため、発表された研究文献では誤解が少なくありません。これは、侵略の叫びの1つです(私はサポートしますが、まだ従いません...)。私自身も最近までこのような印象を間違えて取り組んできたので、心から共感しています。

@DavidRobinsonは、が NHST でnullがfalseになる確率ではないことを確認するのに適切です。これは(少なくとも)に関するGoodman (2008)の "Dirty Dozen"の誤解 1つですHurlbert&Lombardi、2009も参照。NHSTでは、ある 1の関係や違いを示すであろうと同じ手段で任意の将来の無作為標本を描く(または何であろうとp p p ppp p他の種類の効果サイズが存在する場合、nullに対してテストされています...?)与えられた値に到達するためにテストした同じ母集団からのサンプルと少なくともnull仮説とは異なります、nullがtrueの場合。つまり、は、nullが指定された場合のサンプルと同様のサンプルを取得する確率です。ヌルの確率は反映されません。少なくとも、直接には反映されません。逆に、ベイズ法は、データが与えられた場合の効果の理論の証拠の推定に焦点を当てた、統計分析の定式化に誇りを持っています。これは、より直感的に魅力的なアプローチであると主張していますWagenmakers、2007pp、他の利点の中でも特に、議論の余地のある欠点は除外されています。(公平を期すために、「ベイジアン分析の短所は何ですか?」を参照してくださいまた、いくつかの良い答えを提供するかもしれない記事を引用するためにコメントしました:Moyé、2008; Hurlbert&Lombardi、2009。)

おそらく、文字通り述べられている帰無仮説は、ほとんどの場合、文字通り効果がゼロであるという仮説であるため、間違っていない可能性が高いことがよくあります。(いくつかの便利な反例については、「大規模なデータセットは仮説のテストに不適切ですか?」に対する回答を参照してくださいバタフライ効果などの哲学的問題は、そのような仮説の文字通りのを脅かします。したがって、ヌルは、いくつかの非ゼロ効果の対立仮説の比較の基礎として最も一般的に役立ちます。このような対立仮説は、nullがtrueの場合はありそうもないデータが収集された後も、nullよりももっともらしいままである可​​能性があります。。したがって、研究者は通常、帰無仮説に対する証拠から対立仮説の支持を推測しますが、これは直接定量化するものではありませんWagenmakers、2007

ご想像のとおり、は、効果のサイズと一貫性だけでなく、関数です。(最近の質問へ@ GUNGの回答を参照してください、「平均の差はほとんど0である場合はどうなりますか?どのようにt検定が統計学的に有意であることができます」)私たちはしばしば私たちのデータである尋ねるつもりな質問、「の効果は何であるxのはy? 」さまざまな理由(IMO、誤解されている、または統計に欠けている教育プログラムを含む、特に非統計学者によって教えられているような)のため、文字通り大まかに関連する質問に疑問を投げかけることがしばしばあります。x影響を与えない人口からyこれは、それぞれ効果サイズの推定と有意性テストの本質的な違いです値は後者の質問のみに直接答えますが、いくつかの専門家(@rpierceはおそらく私よりも優れたリストを提供する可能性があります。 !)研究者は、を効果サイズの前の質問に対する答えとして誤解しがちであると主張しましたが、私は同意する必要があります。ppp

の意味に関してより直接的に応答するには、nullがtrueである母集団からランダムにデータをサンプリングする確率が、nullが表すものとは異なる関係または差異を示すということです。文字通り、少なくともデータと同じくらいの幅で一貫したマージンがあります... <吸入> ... 5〜95%です。サンプルサイズを増やすと、小さくて一貫性のない効果サイズを検出し、効果のゼロなどのゼロから、5%を超える信頼度で区別できるようになるため、これはサンプルサイズの結果であると間違いなく主張できます。ただし、小さくて一貫性のない効果サイズは、実用的重要な場合とそうでない場合があります統計的に有意.05<p<.95–別のグッドマン(2008)のダーティーダース); これはデータの意味に大きく依存し、統計的有意性は限られた範囲でのみ関係します。上記に対する私の答えを参照しください。

... p> 0.95の場合、(単にサポートされていないのではなく)結果を完全にfalseと呼ぶのは正しいのではないでしょうか?

データ通常、経験的に事実に基づく観察を表すものであるため、それらが偽であってはなりません。それらについての推論のみが、理想的にはこのリスクに直面すべきです。(測定エラーも当然発生しますが、その問題はこの回答の範囲外なので、ここで言及することは別として、それ以外はそのままにしておきます。)nullの有用性が低いことについて、誤検出の推論を行うというリスクが常に存在します。対立仮説よりも、少なくとも推論者がnullが真であることを知らない限り。帰無仮説が文字通り真であるという知識のかなり理解しにくい状況でのみ、対立仮説を支持する推論は間違いなく間違いです...少なくとも、現時点で私が想像できる限り。

明らかに、広範囲にわたる使用法や慣習は、認識論的または推論的な妥当性に対する最高の権威ではありません。公開されたリソースでさえも誤りです。たとえば、p値の定義の誤りを参照してください。あなたの参照Hurlbert&Lombardi、2009もこの原則の興味深い説明を提供しています(322ページ):

StatSoft(2007)のWebサイトでは、オンラインマニュアルが「百科事典ブリタニカが推奨する統計に関する唯一のインターネットリソース」であることを誇示しています。バンパーステッカーが言っているように、「権限を疑う」ことはそれほど重要ではありませんでした。[コミカルに壊れたURLはハイパーリンクされたテキストに変換されます。]

pp私が持っているようにタグ付けすることで、マイケルをここに呼び込むことができれば幸いです(ただし、編集時にユーザータグが通知を送信するかどうかはわかりません。OPでのタグとは違います)。彼はヌッツォを救うことができる唯一の人かもしれません- 自然そのものさえ!オビ=ワンを助けて!(そして、ここで私の答えが、あなたの仕事の影響を理解できていないことを示している場合は許してください。いずれにせよ、私はそれを確信しています...)ところで、Nuzzoは興味深い自己防衛と反駁も提供していますWagenmaakers' "問題3":Nuzzoの"考えられる原因"の図と支援の引用を参照グッドマン、2001、1992; Gorroochurn、ホッジ、ハイマン、Durner、&グリーンバーグ、2007。これらはあなたの答えを含んでいるだけかもしれません

再:あなたの多肢選択問題、私は選択しますd。あなたはここでいくつかの概念を誤解しているかもしれませんが、そうだとしたらあなたは確かに一人ではありません。あなただけが本当に信じていることを知っているので、私はあなたに判断を任せます。誤解はある程度の確実性を意味しますが、質問をすることはその逆を意味します。不確かなときに疑問を抱くその衝動は非常に称賛に値し、残念ながらユビキタスとはかけ離れています。この人間の性質の問題は、私たちの慣習の不正確さを悲しいことに無害にし、ここで参照されているような苦情に値するに値します。(一部はあなたに感謝します!)しかし、あなたの提案も完全に正しいわけではありません。

pp、私はせいぜい弱い権力者であり、私がここで述べたことに対して他の人が提供する可能性のある修正や詳細を歓迎します。結論として私が言えることは、おそらく数学的に正しい答えがあり、ほとんどの人が間違っているということです。以下の参考文献が示すように、正しい答えは確かに簡単には得られません...

pp

参考文献

-グッドマン、SN(1992)。複製、P値、証拠に関するコメント。医学の統計、11(7)、875–879。
-グッドマン、SN(2001)。Pのささやかな提案: -値とベイズ。疫学、12(3)、295–297。http://swfsc.noaa.gov/uploadedFiles/Divisions/PRD/Programs/ETP_Cetacean_Assessment/Of_P_Values_and_Bayes__A_Modest_Proposal.6.pdfから取得。
-Goodman、S.(2008)。ダーティダース:12個のP値の誤解。血液学のセミナー、45(3)、135–140。http://xa.yimg.com/kq/groups/18751725/636586767/name/twelve+P+value+misconceptions.pdfから取得。
-Gorroochurn、P.、Hodge、SE、Heiman、GA、Durner、M.&Greenberg、DA(2007)。関連研究の非複製:複製する「疑似障害」?Genetics in Medicine、9(6)、325–331。http://www.nature.com/gim/journal/v9/n6/full/gim200755a.htmlから取得。
-Hurlbert、SH、&Lombardi、CM(2009)。ネイマン・ピアソンの意思決定理論的枠組みの最終的な崩壊とネオフィッシャーの台頭。Annales Zoologici Fennici、46(5)、311〜349。http://xa.yimg.com/kq/groups/1542294/508917937/name/HurlbertLombardi2009AZF.pdfから取得。
-ルー、MJ(2013)。Pに、またはPにしない:P値の証拠的性質と科学的推論におけるその位置について。arXiv:1311.0081 [stat.ME]。から取得http://arxiv.org/abs/1311.0081
-Moyé、LA(2008)。臨床試験のベイジアン:スイッチで眠っています。医学統計、27(4)、469–482。
-Nuzzo、R.(2014年2月12日)。科学的方法:統計的エラー。Nature News、506(7487)。http://www.nature.com/news/scientific-method-statistical-errors-1.14700から取得。
-Wagenmakers、EJ(2007)。p値の一般的な問題に対する実用的な解決策。Psychonomic Bulletin&Review、14(5)、779–804。http://www.brainlife.org/reprint/2007/Wagenmakers_EJ071000.pdfから取得。


、:私はまだ(それのためのおかげで)あなたの非常に徹底的答えて働いていますが、「ベイジアン侵略」のあなたの言及は、私は、「スイッチで眠っている臨床試験でBayesians」を考えさせ、ここで、第12章として再版、I」 mもゆっくりと頭を包み込みます。
Andrew Klaassen 14

「表示できないページに到達したか、この本の表示制限に達しました」...?
Nick Stauner 14

1
それは残念です。ジャーナルにアクセスできる場合は、こちらからもアクセスできます。「ベイジアンは現在、臨床試験における従来の障壁を取り払っています」というフレーズを検索すると、そこに到達することもあります。
Andrew Klaassen 14

1
ネイマン-ピアソンの意思決定理論的枠組みの最終的な崩壊とネオフィッシャーの台頭には、研究におけるベイズ分析の使用に対するp値と攻撃の面白い歴史も含まれています。それを評価するには十分理解しているとは言えませんが、少なくとも現在の熱意に対する是正策を意識していることは良いことだと思います。
Andrew Klaassen 14

1
@NickStaunerこのディスカッションが見つかりました。同意しないアカウントのセットがある場合、少なくとも1つのアカウントが間違っている必要はありません。それらは異なるモデルに基づいている場合があります。[ゲームをしているのなら、Bill Thompsonの著書The Nature of Statistical Evidence(2005)を読んでください。]それでも、私のアカウントは間違いなく正しいです;-)(今朝だけでも、ジャーナルによって拒否されました)。不注意で誤解を招く可能性があります。
Michael Lew
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.