p値が有用な良い説得力のある例は何ですか?


64

タイトルの私の質問は自明ですが、コンテキストを与えたいと思います。

ASAは今週、「p値に関するコンテキスト、プロセス、目的」に関する声明を発表し、p値に関するさまざまな一般的な誤解の概要を示し、コンテキストと思考なしに使用しないように注意を促しています統計的な方法、本当に)。

ASAに応えて、Matloff教授は150年後、ASAはp-valuesにノーと言うブログ投稿を書きました。その後、ベンジャミニ教授(および私)は、「p値の誤りではない -最近のASAステートメントに関する考察というタイトルの応答投稿を書きました。それに応えて、マトロフ教授はフォローアップの投稿で尋ねました

私が見たいのは[...は] -p値が有用である、説得力のある良い例です。それは本当に一番下の行でなければなりません。

値の有用性に対する彼の 2つの主要な議論を引用するにはp

  1. サンプル数が多い場合、有意性検定は、帰無仮説からの重要ではないわずかな逸脱に飛びつきます。

  2. 現実世界では帰無仮説がほとんどないので、それらに対して有意性検定を実行するのはばかげて奇妙です。

私は、他の相互検証されたコミュニティのメンバーがこの質問/議論についてどう考えているか、そしてそれに対する良い反応を構成するものに非常に興味があります。


5
このトピックに関連する他の二つのスレッドに注目してください:stats.stackexchange.com/questions/200500/...stats.stackexchange.com/questions/200745/...
ティム

2
ありがとう、ティム。私の質問は、それが独自のスレッドに値するほど十分に異なると思われます(特に、あなたが言及した2つで回答されていないため)。それでも、リンクは非常に興味深いです!
タルガリリ

3
それは価値があり、興味深いです(したがって、私の+1)、ちょうど参考までにリンクを提供しました:)
ティム

3
Matloffがこのトピックについて書いたものを(まだ)読んでいないと言わなければなりませんが、それでも、あなたの質問が自立するために、彼がp-valuesの標準的な例を見つけられない理由を簡単に要約できますか?良かった」たとえば、特定の実験操作によって動物の行動が特定の方向に変化するかどうかを調べたい人がいます。そのため、実験グループと対照グループを測定して比較します。そのような論文の読者として、p値を見ることができてうれしいです(つまり、それらは私にとって有用です)。この例では不十分ですか?
アメーバは、モニカーを復活させる

1
@amoeba-彼はここにそれらをリストします:matloff.wordpress.com/2016/03/07/… -----彼の議論を引用します:1)大きいサンプルで、有意性テストは帰無仮説からの小さな、重要でない出発で急襲します。2)実世界では帰無仮説がほとんどないため、それらに対して有意性検定を実行するのは不合理で奇妙です。-----私はこれらについて独自の見解を持っています(後で正式にしたいと思います)が、他の人がこれに答える洞察に満ちた方法を持っていると確信しています。
タルガリリ

回答:


44

Matloffの両方のポイントを検討します。

  1. サンプル数が多い場合、有意性検定は、帰無仮説からの重要ではないわずかな逸脱に飛びつきます。

    ここでのロジックは、誰かが非常に重要な報告した場合、この数値だけでは、効果が大きくて重要であるか無関係であるか(が大きい発生する可能性が)を判断できないということです。私はこの議論を奇妙に感じ、まったく接続することができません。これは、効果の大きさを報告せずに値を報告する研究を見たことがないからです。私が読んだ研究は、例えば、グループAがそのような平均を持ち、グループBがそのような平均を持ち、それらがそのような値で有意に異なると言う(そして通常図に示す)だろう。AとBの差が大きいか小さいかを自分で判断できます。n p pp=0.0001npp

    (コメントの中で、@RobinEkmanはZiliak&マックロスキー(によって、いくつかの高度に引用した研究に私を指摘1996年2004効果の大きさに多くの注意を払うことなく、経済学の論文の大半は、いくつかの効果の「統計的有意性を」トランペットことを観察した)と、その「実用的な重要性」(Z&MSは、しばしば非常に小さなものになる可能性があると主張します)。これは明らかに悪い習慣です。

  2. 現実世界では帰無仮説がほとんどないので、それらに対して有意性検定を実行するのはばかげて奇妙です。

    この懸念もしばしば表明されますが、ここで再び私はそれに実際に接続することはできません。研究者が ad infinitetumを増加させないことを認識することは重要です。私がよく知っている神経科学の分野では、人々は、ラットなど、またはで実験を行います。効果が見られない場合、結論はその効果が興味を引くほど大きくないということです。ラットを繁殖、訓練、記録、犠牲にし、統計的に有意ではあるが小さな効果があることを示す人は誰もいません。それは一方およびかもしれない本当のことはほとんど本当の効果は正確にゼロ、それがされていないことですn = 20 n = 50 n = 5000n n=20n=50n=5000 確かに、多くの実際の効果は、合理的な研究者が実際に使用している適切なサンプルサイズで検出できるほど小さく、適切な判断を下していることは事実です。

    (サンプルのサイズが十分でないことが多く、多くの研究が不十分であるという有効な懸念があります。したがって、おそらく多くの分野の研究者は、ではなく目指すべきです。 、調査で検出できる効果のサイズに制限を設けています。)n = 20n=100n=20

    さらに、少なくとも実験的ランダム化研究(観測的研究とは対照的)では、帰無仮説がほとんどないことに同意しないと思います。2つの理由:

    • 非常に多くの場合、テストされている予測に方向性があります。研究者は、何らかの効果が正のであることを実証することを目指してい。慣例により、これは通常、ポイントnull想定した両側テストで行われますが、実際には、これはむしろを拒否しようとする片側テストです。(@CliffABの答え、+ 1は関連するポイントです。)そして、これ確かに真実です。H 0δ = 0 H 0δ < 0δ>0H0:δ=0H0:δ<0

    • ポイント "nil" nullについても、それらが決して真実ではない理由はわかりません。一部の事柄は、他の事柄と因果関係がないだけです。過去数年で再現できなかった心理学研究を見てください。人々は未来を感じています。排卵時に赤い服を着た女性; 歩行速度に影響を与える老年関連の言葉による呼び水。など。因果関係がまったくないため、真の効果はまったくゼロです。H0:δ=0

Norm Matloff自身は、値の代わりに信頼区間を使用すること提案しています。なぜなら、それらは効果の大きさを示しているからです。信頼区間は良好ですが、値と比較した場合の信頼区間の1つの欠点に注意してください。信頼区間は、特定のカバレッジ値、たとえばについて報告されます。信頼区間を見ても、信頼区間がどれほど広いかはわかりません。しかし、1つの値をと比較することができ、異なる読者は異なるアルファを念頭に置くことができます。P 95 95 99 %のp個のαpp95%95%99%pα

言い換えれば、信頼区間を使用するのが好きな人にとって、値は有用で意味のある追加の統計情報であると思います。p


私のお気に入りのブロガー、スコット・アレクサンダーの値の実用的な有用性について長い引用をしたいと思います。彼は統計学者ではありません(精神科医)が、心理学/医学文献を読み、その中の統計を精査した経験が豊富です。引用は、私が強くお勧めする偽のチョコレート研究に関する彼のブログ投稿からのものです。強調鉱山。p

[...]しかし、値の実行が許可されていないとします。「ええ、チョコレートがインスリン抵抗性に役立つことを発見した15人の研究がありました」と私に言うだけで、あなたは私の顔に笑います。効果の大きさはそれを助けるはずです。しかし、「チョコレートがインスリン抵抗性に役立つことを発見した15人の研究がありました。効果の大きさはでした」と言ったとします。それがランダムノイズと一致するかどうかについては、まったく直感がありません。あなたは?さて、彼らは我々が信頼区間を報告することになっていると言う。効果のサイズはで、信頼区間はでしたp0.60.695%[0.2,1.0]。はい。したがって、信頼区間の下限をチェックすると、ゼロとは異なることがわかります。しかし、今は値を超越していません。私は自分で一種のクラッディな計算を行うことでp値を使用しています。「信頼区間にはゼロは含まれません」は「値が未満」と同じです。p95%p0.05

(信頼区間にゼロが含まれていないことは知っていますが、信頼区間に含まれているかどうか疑問に思うことを想像してください。95%99%

しかし、値を削除しても「ハッキング」を防ぐことはできませんか?たぶん、しかし、それは単に「d-ハッキング」に取って代わります。20種類の代謝パラメーターをテストして、最も効果の大きいパラメーターのみを報告できるとは思わないでしょうか?唯一の違いは、pハッキングが完全に透過的であるということです(20回のテストを行ってを報告した場合、あなたはばかだとわかります)が、dハッキングは不可解です。20回のテストを行い、そのうちの1つがだったと報告した場合、それは印象的ですか?[...]ppp0.05d=0.6

しかし、値から効果サイズに切り替えても、統計的に有意な小さな効果について人々が大したことをするのを防げないでしょうか?はい。ただし、統計的に有意であるにもかかわらず、小さな影響について多くのことをしたい場合あります。コカ・コーラが新製品の添加剤をテストしており、大規模な疫学研究で年間10万人に1人の余分な死を引き起こすことがわかったとします。これはほぼゼロの効果サイズですが、それでも統計的に有意である可能性があります。世界中で毎年約10億人がコーラを飲んでいるので、それは1万人の死者です。コークが「いや、効果の大きさが小さすぎて、考える価値がない」と言ったら、彼らはほぼ2ミリ人の価値のある人を殺すでしょう。p


値のさまざまな代替案(ベイジアンのものを含む)の詳細については、ASAの回答で値の制限について説明している回答を参照してください-代替案は何ですか?pp


1
私の意見では、2番目の引数に対するあなたの応答は、ポイントを逃しています。実際の研究者がサンプルサイズを無限に増やすことを示唆している人はいません。ポイント(私が見るように)は、研究者がテストに興味を持つ「効果= 0」という形式の帰無仮説は偽になり、帰無仮説が既に存在する場合、仮説テストを実行することにはほとんど価値がないということです。偽であることが知られています。もちろん、これは、サンプルの特性ではなく、関連する母集団パラメーターに本当に関心があることを前提としています。
mark999

1
しかし、「任意の帰無仮説...が間違っている」ことは仮定にすぎないことを認めます。
mark999

1
ここでの私の推論はかなり非公式であり、正式にしようとしたことはないことを認めるべきです。おそらく、この議論をうまく機能させるために、興味深いエフェクトサイズと興味のないエフェクトサイズの間に明確な境界があると言ってはなりません。むしろ、それはゼロから遠ざかるにつれて興味が増す連続体であり、「合理的な」サンプルサイズは、非常に興味のないエフェクトサイズに小さなパワーを与え、非常に興味深いエフェクトサイズに大きなパワーを与えるはずですが、1つのしきい値はありません。ネイマン・ピアソンの線に沿って正確に形式化できるのだろうか。
アメーバは、モニカーを復活させる

6
たぶん「効果サイズを報告せずに値を報告する研究を見たことがありませ」が、ZiliakとMcCloskeyは、たった20年で1つのジャーナルThe American Economic Reviewに300のそのような論文を発表しました。そのような論文は、彼らが見たすべての論文の70%以上を占めていました。p
ロビンエクマン

3
@amoeba:70%の主張の源は、2006年の要約のあいまいな表現かもしれません。「[AER]で1980年代に発表された182のフルレングスの論文のうち、70%は統計的有意性を経済的に区別しませんでした」両方の論文で説明されているように、彼らがこれが意味することは、後者についてのみコメントされることが多く、従属変数に関連する回帰係数の大きさ(専門用語の「経済的重要性」)はそれほど詳しく分析されていないことです。ただし、常に報告されます。それを反映するように回答の更新を編集することをお勧めします:
MatteoS

29

私は次の2つのアイデアに大いに反論します。

  1. サンプル数が多い場合、有意性検定は、帰無仮説からの重要ではないわずかな逸脱に飛びつきます。

  2. 現実世界では帰無仮説がほとんどないので、それらに対して有意性検定を実行するのはばかげて奇妙です。

これは、p値に関するこのようなストローマンの議論です。統計の開発を動機づけた非常に基本的な問題は、トレンドを見ること、そして私たちが見ているものが偶然によるものなのか、体系的なトレンドの代表的なものなのかを知りたいからです。

それを念頭に置いて、統計学者として、帰無仮説が真であると通常信じないことは事実です(つまり、、ここでは2つのグループ間の測定の平均差です)。ただし、両面検定では、どの対立仮説が正しいかわかりません!両面テストでは、データを見る前にことを100%確信していると言ってもよいでしょう。しかし、かかはわかりません。我々は我々の実験を実行して、と結論のであれば、私たちは拒否してきた(Matloffは言うかもしれないと、役に立たないという結論)が、より重要なのは、我々はまた、拒否されていますHo:μd=0μ D0 μ D > 0 μ D < 0 μ D > 0 μ D = 0 μ D < 0μdμd0μd>0μd<0μd>0μd=0μd<0(私が言う;有益な結論)。@amoebaが指摘したように、これは、薬物がプラスの効果を持っているかどうかをテストするなど、両面になる可能性がある片側テストにも適用されます。

これが効果の大きさを教えていないことは事実です。ただし、効果の方向性はわかります。だから、馬の前にカートを置かないでください。効果の大きさについて結論を出す前に、効果の方向が正しいことを確信したいと思います。

同様に、「p値は小さな、重要でない効果で跳ね返る」という議論は、私にはかなり欠陥があるようです。p値を結論の方向をサポートするデータの量の尺度と考える場合、もちろん、サンプルサイズが十分に大きい場合に小さな効果をピックアップする必要があります。これが有用ではないということは、私にとって非常に奇妙なことです。p値に苦しんでいるこれらの研究分野は、推定値の信頼性を評価する必要がないほど多くのデータがある同じ分野ですか?同様に、p値が「小さな効果サイズで」という問題である場合、仮説およびを単純にテストできますH1:μd>1H2:μd<1(1が最小の重要なエフェクトサイズであると信じていると仮定します)。これはしばしば臨床試験で行われます。

これをさらに説明するために、信頼区間を調べてp値を破棄したと仮定します。信頼区間で最初に確認することは何ですか?結果をあまりにも真剣にとらえる前に、効果が厳密にポジティブ(またはネガティブ)であったかどうか。そのため、p値がなくても、非公式に仮説検定を行うことになります。

最後に、OP / Matloffのリクエスト「p値が有意に優れているという説得力のある議論を与える」に関して、質問は少し厄介だと思います。あなたの意見次第で自動的に答えるからです(「仮説をテストするよりも仮説をテストするほうが良い具体的な例を挙げてください」)。しかし、私がほとんど否定できないと思う特別なケースは、RNAseqデータのケースです。この場合、通常、2つの異なるグループ(病気、コントロール)のRNAの発現レベルを調べ、2つのグループで差次的に発現する遺伝子を見つけようとしています。この場合、エフェクトのサイズ自体はあまり意味がありません。これは、さまざまな遺伝子の発現レベルが大幅に異なるため、一部の遺伝子では、発現が2倍高くても何の意味もないため、他の厳しく規制された遺伝子では、1.2倍の高発現は致命的です。したがって、最初にグループを比較すると、実際のエフェクトサイズの大きさは実際には多少面白くありません。しかし、あなた本当に、本当に遺伝子の発現がグループ間で変化するかどうか、そして変化の方向を知りたい!さらに、p値を使用する場合よりも、信頼区間を使用して複数回の比較(1回の実行で20,000件の比較を行う場合がある)の問題に対処することははるかに困難です。


2
効果の方向を知ること自体が有用であることに同意しません。地面に唾を吐くと、これ植物の成長を改善または阻害することわかります(つまり、効果がないという帰無仮説は誤りです)。どのようにすることなく、この効果の方向を知っている任意の役に立つ、その大きさについての情報?しかし、これは、両側検定/ 2つの片側検定(一種)のp値が示す唯一のことです!(ちなみに、「地上での吐き出し」の例は、年前に読んだp値に関するいくつかの論文から借りたものだと思いますが、どちらを思い出すことはできません。)
カールオベハフハンマー

3
@KarlOveHufthammer:馬の前のカート。効果の方向を知っているからといって、やめるべきではありません。しかし、大きさを心配し始める前に、正しい方向を持っていることに注意する必要があります。科学者コミュニティは、p値をチェックせずに推定効果の大きいものすべてを採用する方が良いと思いますか?
クリフAB

3
さらに、「p値では有用な情報が得られない」というこの考えは、仮説検定のずさんな使用にすぎません。とにかく意味を持たせるために効果の大きさが1より大きくなければならないと考えるなら、およびの仮説を簡単にテストできます。(重要な点だと思うので、これを反映するように回答を編集しました。それHのAμ D < - 1Ha:μd>1Ha:μd<1
クリフAB

2
編集でいくつかの非常に良い点を挙げました。今、あなたの答えが本当に好きです!
アメーバは、モニカを復活させる

3
stats.stackexchange.com/questions/200500への回答の作業中に、Wagenmakersらによるこの最近のプレプリントに出くわしました。つまり、潜在的な効果が否定的か肯定的かのテストです。」Wagenmakersは頑固なベイジアンであり、p値に対して多くのことを書いているので興味深い。それでも、ここには概念的な合意がいくつかあります。
アメーバは、モニカーを復活させる

6

私の皮肉を許しますが、p値の有用性の1つの明らかな良い例は公開されることです。私は、p値を生成するために1人の実験者にアプローチしました...彼は、成長を改善するために単一の植物に導入遺伝子を導入しました。その単一の植物から複数のクローンを作成し、最大のクローンを選択しました。これは、母集団全体が列挙されている例です。彼の質問、レビュアーは、このクローンが最大であるp値を見たいと思っています。私は、この場合、人口全体が手元にあるので統計の必要はないが、役に立たないと述べた。

もっと真剣に、私の謙虚な意見では、学術的な観点から、数年前の頻繁な論争対ベイジアン論争のように、これらの議論は興味深く刺激的だと思います。この分野の最高の頭脳の異なる視点を引き出し、一般に容易にアクセスできない方法論に関連する多くの仮定/落とし穴を明らかにします。

実際には、他の場所で以前に提案されたように、最良のアプローチについて議論し、欠陥のある尺度を別の尺度で置き換えるのではなく、私にとっては根本的な体系的な問題の啓示であり、最適なものを見つけることに焦点を当てるべきであると思いますソリューション。たとえば、p値とCIが互いに補完する状況や、一方が他方よりも信頼性が高い状況を提示できます。物事の壮大なスキームでは、すべての推論ツールには独自の欠点があることを理解しています。究極の目標に向かって進歩を阻害しないように、アプリケーションで理解する必要があります。


6

p値をどのように使用し、報告するかという典型的なケースを紹介します。CERNのLarge Hadron Collider(LHC)での不思議な粒子の探索に関するごく最近の報告です。

数ヶ月前、高エネルギー物理学界では、LHCで大きな粒子が検出された可能性について多くの興奮したおしゃべりがありました。これはヒッグス粒子の発見後であることを忘れないでください。ATLASコラボレーション 2015年12月15日の論文「ATLAS検出器を使用した√s= 13 TeVでの3.2 fb-1のpp衝突で光子対に減衰する共鳴の検索」の論文からの抜粋です。

ここに画像の説明を入力してください

彼らがここで言っているのは、イベント数が標準モデルが予測するものを超えているということです。以下の論文の図は、粒子の質量の関数としての過剰イベントのp値を示しています。p値が750 GeV付近でどのように急降下するかがわかります。そのため、質量が750ギガeVの新しい粒子が検出される可能性があると彼らは言っています。図のp値は「ローカル」として計算されます。グローバルp値ははるかに高くなっています。しかし、それは会話にとって重要ではありません。

重要なのは、p値が物理学者が発見を宣言するのに「十分に低い」のではなく、興奮するのに「十分に低い」ことです。そのため、彼らは数え続けることを計画しており、そのp値がさらに減少することを望んでいます。

ここに画像の説明を入力してください

HEPに関する会議である 2016年8月のシカゴに向けて、数か月前にズームします。今回のCMS Collaborationによる「√s = 13 TeVでの12.9 fb-1の陽子-陽子衝突と8および13 TeVでの検索の組み合わせ解釈を使用した高質量光子対の共鳴生成の検索」に関する新しいレポートがありました。ここに私のコメントの抜粋があります:

ここに画像の説明を入力してください

そのため、彼らはイベントの収集を続けましたが、750 GeVでの過剰なイベントのブリップはなくなりました。以下の論文の図はp値を示しており、最初のレポートと比較してp値がどのように増加したかを見ることができます。そのため、彼らは悲しいことに、750 GeVで粒子は検出されないと結論付けています。

ここに画像の説明を入力してください

これが、p値が使用されることになっている方法だと思います。それらは完全に理にかなっており、明確に機能します。その理由は、物理学では頻繁なアプローチが本質的に自然だからだと思います。粒子の散乱について主観的なものはありません。十分な大きさのサンプルを収集し、そこにあれば明確な信号を取得します。

ここでp値を正確に計算する方法に本当に興味がある場合は、この論文を読んでください:Cowan et alの「新しい物理学の尤度ベースのテストの漸近式」


2
750 GeVのピークが本物であり、現在は悲しいことを誰もが望んでいました。しかし、私は実際にそれが変動であることが判明し(そして、それが賭ける可能性があった)、今は安心していることを望んでいました。標準モデルが非常にうまく機能するのはクールだと思います。(物理学の他のすべてが解決されたかのように)標準モデルを超えて移動したいという燃える欲求を十分に理解しないでください。とにかく、+ 1、良い例です。
アメーバは、モニカーを復活させる

2

他の説明はすべてうまくいきました。頭に浮かんだ質問に簡単に直接答えてみたかっただけです。

ランダム化実験での共変量の不均衡の確認

2番目の主張(非現実的な帰無仮説について)は、ランダム化が適切に行われたことがわかっているランダム化実験で共変量のバランスをチェックしている場合は正しくありません。この場合、帰無仮説が真であることがわかります。いくつかの共変量で治療群と対照群の間に有意差が得られた場合-もちろん、複数の比較のために制御した後-それは、無作為化で「悪いドロー」を得たことを示し、原因推定値を信頼しないでくださいずっと。これは、この特定の「悪いドロー」ランダム化からの治療効果の推定値が、「良いドロー」から得られた推定値よりも真の治療効果から遠く離れていると考える可能性があるためです。

これはp値の完全な使用方法だと思います。これは、p値の定義を使用します。帰無仮説が与えられた場合、より極端な値を取得する確率です。結果が非常に低い場合、実際に「悪いドロー」を取得しました。

観測データを使用して因果推論(試行、自然実験など)を試みる場合、バランステーブル/統計も一般的です。これらの場合、バランス表は「因果関係」ラベルを推定値に正当化するには十分ではありません。


私はこれがp値の完璧な(あるいは良い)使用であることに同意しません。「悪いドロー」をどのように定義しますか?
mark999

2
@マーク、わかりました。Mattが留守中に最後の質問に答えられると思います。もちろんサンプルです。50人のランダム化された実験を想像してください。グループAの25人すべてが男性であり、グループBの25人すべてが女性であることが判明したことを想像してください。これが研究の結論に重大な疑念を投げかける可能性があることはかなり明白です。それは「悪いドロー」の例です。マットは、AとBの性別(共変量)の違いをテストすることを提案しました。マットの答えがどのように解釈されるかわかりません。ここには人口はほとんど存在しません。
アメーバは、モニカを復活させる

1
@ mark999しかし、12/25と13/25の差をテストすると、明らかに有意ではないp値が大きくなるため、ここであなたのポイントが何であるかわかりません。マットは、テストを実行し、低いp値を危険信号と見なすことを提案しました。あなたの例では赤い旗はありません。私はここでやめて、もし彼が望むなら、マットに対話を続けさせると思います。
アメーバは、モニカの復活を

4
号のバランス試験誤謬'を参照:gking.harvard.edu/files/matchse.pdfはあなたが検定統計量自体が微細であってもよい場合について説明(最小にする距離尺度として使用される)、それのp値がnoを行いますセンス。
共役

2
心理言語学および神経言語学におけるこれに関する最近の調査のために、新しいarXivプレプリントがあります。バランスの操作などを検討しているときは、ランダムなサンプリングではなく、たとえそうであったとしても、テストはサンプルのバランスではなく母集団のバランスに関する別の推測の質問に答えます。
リビウス

2

エラー率管理は、生産における品質管理に似ています。生産ラインのロボットには、部品に欠陥があると判断するルールがあり、検出されない欠陥部品の指定された割合を超えないことが保証されています。同様に、「正直な」P値に基づいて薬物承認の決定を行う機関は、テストの頻繁な長期的構築を介した定義により、誤った拒否率を制御されたレベルに保つ方法を持っています。ここで、「正直」とは、制御できないバイアス、隠された選択などがないことを意味します。

ただし、ロボットも代理店も、特定の薬剤またはアセンブリコンベヤを通過する部品に個人的な利害関係はありません。一方、科学では、私たちは個人の調査者として、提出するお気に入りのジャーナルの偽りの主張の割合よりも、研究する特定の仮説を最も重視します。P値の大きさも、信頼区間(CI)の境界も、報告するものの信頼性についての私たちの質問に直接言及するものではありません。CIの境界を構築するとき、2つの数値の唯一の意味は、他の科学者が自分の研究で同じ種類のCI計算を行う場合、全体としてさまざまな研究にわたって95%または任意のカバレッジが維持されるということです。

この観点から、P値がジャーナルによって「禁止」されているのは皮肉だと思います。複製性の危機の中で、論文を提出する研究者よりもジャーナル編集者にとって価値が高いことを考えると、長い目で見れば、ベイのジャーナルによって報告された偽の発見の割合。P値はフィルタリングが得意であるか、IJ Goodが書いたように、統計学者の後端を保護するのに適していますが、クライアントの後端はそれほどではありません。

PS私は、ベンジャミニの大ファンであり、複数のテストでの研究で無条件の期待を抱くというホッホバーグのアイデアです。グローバルな「null」の下で、「frequentist」FDRは依然として制御されています-1つ以上の拒否を伴う研究が制御された速度でジャーナルにポップアップしますが、この場合、実際にいくつかの拒否が行われた研究には割合があります1に等しい偽拒絶の


1

帰無仮説が真である場合、p値は有用であるとMattに同意します。

私が考えることができる最も簡単な例は、乱数ジェネレーターをテストすることです。ジェネレーターが正常に機能している場合、適切なサンプルサイズの実現を使用できます。多くのサンプルで適合度をテストする場合、p値は均一な分布を持つ必要があります。もしそうなら、これは正しい実装の良い証拠です。そうでない場合は、どこかでエラーが発生していることがわかります。

他の同様の状況は、統計変数またはランダム変数に特定の分布が必要であることを知っている場合に発生します(ここでも、最も明らかなコンテキストはシミュレーションです)。p値が均一である場合、有効な実装のサポートが見つかりました。そうでない場合は、コードのどこかに問題があることがわかります。


1

Experimental High Energy Physicsで、p値が有用な例を考えることができます。図1を参照してください。このプロットは、この論文から 引用されています。

この図では、仮想粒子の質量に対するp値が示されています。帰無仮説は、観測と連続した背景との互換性を示します。m GeVでの大きな()偏差は、新しい粒子の最初の証拠と発見でした。これにより、フランソワ・エングラルト、ピーター・ヒッグスが2013年にノーベル物理学賞を受賞しました。H1255σH125

ここに画像の説明を入力してください


1
背景と元の質問への対処方法とともに、プロットに関する詳細情報を提供する必要があります。これは十分な情報ではありません。
グリーンパーカー

@Greenparker、プロットに背景を追加しようとしました。
ニコラスグティエレス

青いバンドとは何か説明しなかった±1σ
Aksakal
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.