「p値」の正確な値は無意味ですか?


31

私は2009年に統計学者と話し合い、p値の正確な値は無関係であると述べました。重要なことはそれが有意であるかどうかだけです。つまり、ある結果が別の結果よりも重要になることはありません。たとえば、サンプルは同じ母集団からのものであるかそうでないかです。

私はこれにいくつかの不安を持っていますが、おそらくイデオロギーを理解できます

  1. 5%のしきい値は任意です。つまり、p = 0.051は重要ではなく、p = 0.049は、一方の結果が重要でもう一方が重要ではないにもかかわらず、観測または実験の結論を実際に変更すべきではありません。

    私が今これを取り上げる理由は、私がバイオインフォマティクスの修士課程を勉強していることであり、現場の人々と話した後、彼らが行うすべての統計の正確なp値を取得する決意があるようです。たとえば、p <1.9×10 -12の p値を「達成」する場合、結果がどの程度重要であり、この結果が非常に有益であることを示したいと考えています。この問題は、次のような質問で例示されています。なぜ2.2e-16より小さいp値を取得できないのですか?、偶然にもこれは1兆分の1未満であるということを示す値を記録したいと考えています。しかし、この結果は10億分の1ではなく1兆分の1未満であるということを示すことにはほとんど違いがありません。

  2. p <0.01は、これが発生する可能性が1%未満であることを示し、p <0.001は、このような結果が前述のp値よりもさらに低いことを示しますが、結論を完全に引き出す必要があることを理解できます違う?結局、それらは両方とも有意なp値です。正確なp値を記録したいと考える唯一の方法は、ボンフェローニ補正を行うことです。これにより、比較の回数によってしきい値が変化し、タイプIエラーが減少します。しかし、それでも、しきい値の有意性より12桁小さいp値を表示したいのはなぜですか?

  3. また、Bonferroni補正自体を少しarbitrary意的に適用していませんか?最初は修正が非常に保守的であると見なされているため、オブザーバーが多重比較に使用できる有意水準にアクセスするために選択できる他の修正があります。しかし、このため、研究者が使用したい統計に応じて、何かが重要になるポイントは本質的に可変ではありません。統計は解釈に対してそれほど開かれているべきですか?

結論として、統計は主観的ではないはずではありませんが(主観的である必要性は多変量システムの結果であると思いますが)、最終的には明確化が必要です。そして、正確なp値を記録しようとすることに関して、p <0.001で十分ですか?


6
これは非常に興味深いです:stat.washington.edu/peter/342/nuzzo.pdf-
ダン

4
大まかに関連する:Fisher and Neyman-Pearsonフレームワークを使用する場合の質問に対する私の回答では、各フレームワークに役割があると主張しています。そこに私の位置を維持することで、NPフレームワークでは正確なp値は重要ではないが、フィッシャーフレームワークでは(報告される桁数が実際に信頼できる範囲で)w / iであると言えます。
GUNG -復活モニカ

通常、間違った質問に対する正しい答えであるp値の概念を保持したい統計学者もいます。p値が統計ソフトウェアパッケージに実装されていないとします。人々がそれを手に入れるために独自のコードを書くとは思わない。
確率論的

3
@probabilityislogic-順列検定で統計的な歯を切ったので、p値はその場合に考えるのに非常に自然な方法ですので、そうでなければ...私がテストを行う非常にまれな機会は、通常、シミュレーションや何らかのリサンプリングを必要とする特殊な状況のためであり、実際にそうする傾向があることがわかりました。代わりに、仮説テストは通常​​間違った質問に答えると言う傾向があります。まれに、彼らが価値を持っていると思います(特に、他の人は私の有意水準に拘束されません)。
グレン_b-モニカを復元14

@glen_b-p値に関する私の問題は、仮説検定に「答え」を提供しないことです。なぜなら、彼らは選択肢を無視するからです。1つの数値のみに制限されている場合、データの尤度の値は、p値よりもはるかに優れた統計値です(pと同じ問題を抱えています)。このように、人々はあなたの選択した検定統計量に拘束されません(あなたの有意性の閾値に拘束されないことに加えて)。
確率論的

回答:


24
  1. タイプ1 /誤棄却エラー率完全に任意ではありませんが、近いです。α = .051よりやや望ましいのは、認知的に複雑ではない(ラウンド数や5の倍数が好きな人)ためです。懐疑主義と実用性の間の妥協点ですが、少し時代遅れかもしれません。標準がなければならない場合、現代の方法と研究リソースにより、より高い標準(つまり、p値の低下)が望ましい場合がありますJohnson、2013α=.05α=.051p

    IMO、しきい値の選択よりも大きな問題は、必要または役に立たない場合にしきい値を使用するための多くの場合検討されていない選択です。実用的な選択をしなければならない状況では、私は価値を見ることができますが、多くの基礎研究は、証拠を却下し、それに対する所定のサンプルの証拠が不足しているという理由だけでヌルを拒否する見通しをあきらめる決定を必要としませんほぼすべての合理的なしきい値の。しかし、この研究の著者の多くは慣例によってそう、と不快それに抵抗、観客は多くの場合、気にしないので、彼らはそれが離れて滑り感じることができたときに注意を請うに「マージナル」の意味のような用語を発明する義務を感じる S 。 05p.05p値の解釈では、n 値に関するバイナリ/ 決定による値の解釈について多くの意見の相違が見られます。pfail toreject

  2. 完全に異なる-いいえ。意味のある違い–多分。途方もなく小さな値を示す理由の1つは、効果の大きさに関する情報を暗示することです。もちろん、いくつかの技術的な理由でエフェクトサイズを報告するだけではるかに優れていますが、著者はこの代替案を考慮することができないことが多く、残念ながら視聴者もそれをあまり知らないかもしれません。効果のサイズを報告する方法を誰も知らない帰無仮説の世界では、pが小さいほど効果が大きいことを推測するのが最も正しい場合があります。この帰無仮説の世界が反対よりも現実に近いほど、この理由で正確なp sを報告することには何らかの価値があるかもしれません。この点は純粋な悪魔の擁護であると理解してください...ppp

    p

  3. α

    p

fail torejectp値が報告されますか?(そしてなぜRが2.22e-16に最小値を設定するのですか?) "– Stack Overflowでリンクしたその質問のバージョンへの回答よりもはるかに優れています!

参照
-ジョンソン、VE(2013)。統計的証拠の改訂基準。国立科学アカデミー論文集、110(48)、19313–19317。http://www.pnas.org/content/110/48/19313.full.pdfから取得。
-ルー、MJ(2013)。Pに対して、またはPに対してではない:P値の証拠的性質と科学的推論におけるそれらの位置について。arXiv:1311.0081 [stat.ME]。http://arxiv.org/abs/1311.0081から取得。


3
+1、ここでたくさんの良い考え。しかし、1 quiめげに、#1に関して、私たちはしばしば、より低い標準(すなわち、より高い p値)が望ましいと思うでしょう。何かを勉強するのに十分な力を持つのに十分なデータを取得することはしばしば困難です。私は、まれな状態を研究したい医師のために、多くの力分析を実行しました。彼らは「これは本当に研究されていない、私は新しいアプローチのアイデアを持っている、今後2年間で50人の患者を得ることができるだろう」と言います、そして私は「あなたの力は45%になる」と言い、プロジェクトは放棄された。pが.05以下でなければならない場合、まれな疾患は引き続き研究されます。
GUNG -復活モニカ

2
@gung:私は完全に同意します。ジョンソン(2013)を引用したのは、彼の主張に同意したからであり、同意するからではありません:) IMO、あなたが説明する懸念に対して柔軟性がなく、鈍感な1つの従来の基準を持っています(これは私の2番目の段落#3)への応答は主要な問題の1つであり、それを上下に調整しても解決されません。ハードと高速のための本当の必要がない場合fail to/ reject決定は、私はそれが1の証拠はnullを与えられたサンプルの確率よりもはるかに基づいてどのように貴重なの判断をするためにはるかに良いことだと思います。
ニックスタウナー14

4
素晴らしい議論。いくつかの関連性の興味深い記事はゲルマンとスターンのさ「重要」と「非有意」との差は統計的に有意では、それ自体ではありません、私は必ずしもとして特徴づけるにpの値を言わないだろうこれは、(後にアメリカの統計学者、2006年発行します)意味はありませんが、p値の比較に重点を置くことに関して、注意の強いメモを挿入します(効果の推定ではなく)。ゲルマンは、これに関連する問題を彼のブログで頻繁に議論しています。
グレン_b-モニカの復帰14

2
ppp

2
Gelmanは、彼のサイトで公開されている論文のpdfへのリンクも提供しているようです。
Glen_b-モニカの復職14

13

値が意味がある場合、その正確な値は意味があるように思えます。

p値はこの質問に答えます:

このサンプルがランダムに抽出された母集団で帰無仮説が真であった場合、少なくともサンプルで得られたものと同じくらい極端な検定統計量を得る確率はどれくらいですか?

この定義は正確な値を無意味にしますか?

これは、pの極値に関する質問とは異なる質問です。多くの0を持つpを含むステートメントの問題は、極値でpをどれだけうまく推定できるかに関するものです。うまくできないので、pのそのような正確な推定値を使用することは意味がありません。これは、p = 0.0319281010012981とは言わない同じ理由です。自信を持ってこれらの最後の数字を知りません。

p <0.05ではなくp <0.001の場合、結論は異なるべきでしょうか?または、正確な数値を使用するために、p = 0.035ではなくp = 0.00023の場合、結論は異なるべきですか?

問題は、pについての一般的な結論の仕方にあると思います。任意のレベルに基づいて「重要」または「重要ではない」と言います。これらの任意のレベルを使用する場合、はい、結論は異なります。しかし、これは私たちがこれらのことについて考えるべき方法ではありません。証拠の重みを調べる必要があり、統計的テストはその証拠の一部にすぎません。ロバート・アベルソンの「マジックの基準」を(もう一度)改めて説明します。

大きさ-効果の大きさは?

アーティキュレーション-それはどのくらい正確に述べられていますか?例外はたくさんありますか?

一般性-どのグループに適用されますか?

興味深い-人々は気にしますか?

信頼性-それは理にかなっていますか?

重要なのはこれらすべての組み合わせです。Abelsonは、p値をまったく言及していないことに注意してください。ただし、p値は、大きさと明瞭さの一種のハイブリッドとして入ります。


5
頻繁にそれを言うことはありませんが、技術的には、p値は、サンプルで得られた帰無仮説が真である場合、「少なくともサンプルで得られたものと同じくらい極端な検定統計量を得る確率」についての何かを反映しています母集団の分散は完全に正確であり、テストの他のすべての仮定を満たします。ブートストラップによっていくつかのp値の周りにいくつかの信頼区間を投げると、100分の1の場所についてもそれほど自信がないことがよくあると思います。
russellpierce 14

2
要するに、p値を定量化しようとすることは、(あなたが暗示するように)MAGICに戻らなければならないときに逆効果になるほど複雑な反事実です。
russellpierce 14

私は認めなければならない、私は信頼区間(または信頼区間)をp値の周りに置くことを考えていなかった。この分野でどのくらい行われたのだろうか?
ピーターフロム-モニカの復職

2
便利な引用はありませんが、これらの線に沿って仕事があることは知っています-にもかかわらず、あなたの信頼区間の信頼区間を無限に近いものにすることができるので、それは学術的なことです(最大値があります任意のデータセットから合理的に推定される分散)。昔々、@ Nick Staunerとこれらの行に沿ってかなり長く詳細な会話をしました。彼はその会話の間に掘り出した記事をまだ持っているかもしれません。
russellpierce

1
私が思い出すp値の信頼区間には何もありませんが、それらのセクションをざっと読んだかもしれません。p値の信頼区間を作成することにも興味がありませんでした;)
ニックスタウナー
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.