p値は本質的に役に立たず、使用するには危険ですか?


36

NY Timesのこの記事「The Odds、Continually Updated」たまたま私の注目を集めました。簡潔に言うと、

[ベイジアン統計]は、2013年に沿岸警備隊が行方不明の漁師ジョン・アルドリッジを見つけるために使用した検索など、複雑な問題へのアプローチに特に有用であることが証明されています(これまでのところ、マレーシア航空370便の捜索ではありません)。 ......、ベイジアン統計は、物理学からがん研究、生態学から心理学まで、あらゆるものを波打っています...

この記事では、次のような頻度主義者のp値に関する批判もあります。

p値が5パーセント未満の場合、結果は通常「統計的に有意」とみなされます。しかし、この伝統には危険があります、とコロンビアの統計学教授アンドリュー・ゲルマンは言いました。科学者が常に正しく計算を行っていたとしても、そうではないと彼は主張します。p値が5%のすべてを受け入れるということは、20の「統計的に有意な」結果の1つがランダムノイズに他ならないことを意味します。

上記のほかに、おそらくp値を批判する最も有名な論文はこれです-NatureのRegina Nuzzoによる「科学的方法:統計誤差」では、再現性の懸念など、 p値ハッキングなど

統計的妥当性の「ゴールドスタンダード」であるP値は、多くの科学者が想定しているほど信頼性が高くありません。......おそらく、最悪の誤theは、ペンシルベニア大学の心理学者Uri Simonsohnと彼の同僚がPハッキングという用語を広めた一種の自己欺ceptionです。データのred、スヌーピング、釣り、重要度追跡、ダブルディップとしても知られています。「P-hacking」はサイモンソン氏は言います。「意図した結果が得られるまで、複数のことを試みています」。......「その発見はPハッキングによって得られたようです。著者は、全体のp値が.05未満になるように条件の1つを下げました」と「彼女はpハッカーであり、彼女は収集中のデータを常に監視しています。」

別のことは、プロットについてのコメント付きの、ここから続く興味深いプロットです:

効果がどれほど小さくても、p <.05のしきい値を渡すために、常にデータを収集するという大変な作業を行うことができます。調査している効果が存在しない限り、p値はデータ収集にどれだけの労力を費やしたかを測定するだけです。

ここに画像の説明を入力してください

上記のすべてについて、私の質問は次のとおりです。

  1. 2番目のブロック引用でのAndrew Gelmanの議論は正確に何を意味するのでしょうか?なぜ彼は5%のp値を「統計的に有意な結果の20分の1が注目に値するがランダムなノイズ」と解釈したのですか?私にとって、p値は1つの研究の推論に使用されるため、私は確信していません。彼のポイントは複数のテストに関連しているようです。

    更新: Andrew Gelmanのこれについてのブログを確認してください:いいえ、私はそれを言わなかった!(@ Scortchi、@ whuberへのクレジット)。

  2. p値についての批判と、モデルの重要性を評価するためのAIC、BIC、Mallowの(したがって変数)のような多くの情報基準があるため、変数選択にp値を使用しないでくださいそれらのモデル選択基準を使用する以外はすべて?Cp

  3. より信頼性の高い研究結果につながる可能性のある統計分析にp値を使用する実用的なガイダンスはありますか?
  4. 統計学者が主張するように、ベイジアンモデリングフレームワークは追求するより良い方法でしょうか?具体的には、ベイジアンアプローチは、データの問題の誤検出や操作を解決する可能性が高いでしょうか?事前のアプローチはベイジアンのアプローチでは非常に主観的であるため、ここでも納得できません。ベイジアンのアプローチが頻度主義者のp値よりも優れていることを示す実用的で有名な研究はありますか、少なくとも特定のケースではありますか?

    更新:ベイジアンアプローチが頻度主義者のp値アプローチよりも信頼できる場合があるかどうかに特に興味があります。「信頼できる」とは、ベイジアンアプローチが望ましい結果を得るためにデータを操作する可能性が低いことを意味します。助言がありますか?


アップデート6/9/2015

ニュースに気付いたばかりで、議論のためにここに置いておくといいと思いました。

心理学ジャーナルはP値を禁止

少なくとも1つのジャーナルで、物議を醸す統計テストが最終的に終わりました。今月初め、Basic and Applied Social Psychology(BASP)の編集者は、統計が低品質の研究をサポートするためにあまりにも頻繁に使用されたため、P値を含む論文を出版しないと発表しました。

Natureの P値についての最近の論文「気まぐれなP値は再現性のない結果を生成します」に加えて

2016年5月8日更新

3月に、米国統計協会(ASA)は統計的有意性とp値に関する声明を発表しました。「.... ASAの声明は、研究を「ポストp <0.05時代」に導くことを目的としています」

このステートメントには、p値の誤用に対処する6つの原則が含まれています。

  1. P値は、データが指定された統計モデルとどの程度互換性がないかを示すことができます。
  2. P値は、調査した仮説が真である確率、またはデータがランダムチャンスのみによって生成された確率を測定しません。
  3. 科学的結論とビジネスまたは政策決定は、p値が特定のしきい値を超えるかどうかだけに基づいてはなりません。
  4. 適切な推論には、完全なレポートと透明性が必要です。
  5. p値または統計的有意性は、効果の大きさや結果の重要性を測定しません。
  6. p値自体は、モデルまたは仮説に関する証拠の適切な尺度を提供しません。

詳細: 「p値に関するASAの声明:コンテキスト、プロセス、および目的」


11
0.050.05


4
@Scortchiさん、見つけてください!記録については、リンクがこれまでにうまくいかない場合、GelmanはNY Timesの特性評価を(非常に巧妙ではあるが)強く拒否し、「5%のp値ですべてを受け入れると、誤った結果につながる可能性がある」と書いています。データの統計的に有意な」パターンは、人口の対応するパターンを反映していません-5%をはるかに超えています。
whuber

3
「研究している効果が存在しない限り」というコメントを参照して、それはp値を含む研究のポイントです。研究している効果が本当に存在するかどうか、または収集したデータは、偶然の偶然によるものです。サンプルサイズを大きくしてp値を下げることは、数学的には完全に妥当であり、実際には唯一のオプションです。あなたは決してp値を「ハッキング」していません。直感的な観点からは、データの収集により多くの労力をかけると、そこから導き出される結論に対する信頼が高まることになります。
デビッドウェッブ

1
@DavidWebb同意しました。効果のサイズが小さい場合は問題ありません。より多くのデータで効果の大きさを言うのは簡単です。より多くのデータを取得できる場合は、そうする必要があります。
-Desty

回答:


25

ここにいくつかの考えがあります:

  1. @whuberが指摘しているように、ゲルマンがそれを言ったとは思わない(似たような音を言ったかもしれないが)。nullがtrueである場合の5%は、.05のアルファを使用して重要な結果(タイプIエラー)を生成します。nullが偽であるすべての研究の真の検出力がと仮定した場合80%100/118.7584
  2. p
  3. p
  4. 私は、ベイジアン手法を使用することに独断的に反対していませんが、この問題を解決できるとは思いません。たとえば、信頼できる間隔に拒否する値が含まれなくなるまで、データを収集し続けることができます。したがって、「信頼できるインターバルハッキング」が発生します。私が見るように、問題は多くの開業医が彼らが使用する統計分析に本質的に興味がないので、彼らは考えられない、機械的な方法で彼らに必要な方法を使用します。ここでの私の見解の詳細については、「有意性検定の仮説としての効果サイズ」に対する回答を読むと役立つ場合があります

10
(+1)信頼できる間隔をハッキングする簡単な方法は、ちょうど前を採用することです:-)。もちろん、有能な実務家はこれを行いません-ゲルマンは感度評価、情報価値のない超優先者などを使用することを強調します-しかし、再び仮説検定の有能なユーザーはp値ハッキングを行いませんか?一方、ベイジアン分析では、p値ハッキングに関与する可能性のあるすべての文書化されていない分析と比較して、前のものが明確に開示されていると仮定して、自分がしていることを隠すことはより困難かもしれません。
whuber

1
@whuber、それは本当ですが、私たちは以前の不適切性や主観性の問題を取り除けると思います。真の効果が正確に0でない場合、十分なデータがある場合、pが<.05(cf、最後の引用)になるように、信頼できる間隔に最終的に0が含まれないため、取得するまでデータを収集し続けることができます事前に関係なく必要な結果。
GUNG -復活モニカ

4
良い点。100,000個の製品で障害が発生していないことを確認した後、10,000個の製品で障害を予測することに関する最近の質問を思い出します。失敗は非常にまれなので、答えは以前のものにかなり敏感です。これは、「ルールを証明する」ような例外的な状況かもしれません。実際には、望ましい結果を得るために十分なデータを収集することは実行不可能である可能性があることを示しています。まさに、一部のクライアントが統計学者に「魔法をかける」ように求め始め、望みの結果を達成します。おそらく多くの読者が以前にそのプレッシャーを感じたことがあります…。
whuber

1
@gungは、実際の臨床試験では、より多くの被験者を実験のために募集するために、さまざまな段階で常に停止基準があります。その意味で、ベイジアンアプローチは信頼できる間隔を操作する可能性が低く、したがって研究の結論は聞こえないでしょうか?
アーロン・ゼン

2
@AaronZeng、明示的な停止基準がフリークエンティストとベイジアンの視点に等しく適用されるように思えます。ここにはネットの利点/欠点はありません。
GUNG -復活モニカ

8

私にとって、p-ハッキング論争で最も興味深いことの1つは、フォレンジック統計に関するJASAの記事でジョセフ・カルデインが指摘したように、「ブルームーンに1回」の統計的有意性の基準としてp <= 0.05の全履歴90年代に戻って、統計理論はまったくありません。これは、RA Fisherで始まり、現在の「疑いのない」状態に具体化または奉献された慣習であり、単純なヒューリスティックで経験則です。ベイジアンであろうとなかろうと、この測定基準に挑戦するか、少なくともそれにふさわしい懐疑論を与えるのに長い時間がかかります。

とは言っても、ゲルマンのポイントの私の解釈は、よく知られているように、ピアレビュープロセスは肯定的な統計的有意性に報い、それらの論文を公開しないことで重要でない結果を罰するということです。これは、重要でない発見を公開することが、特定のドメインの思考と理論化に潜在的に大きな影響を与えるかどうかには関係ありません。Gelman、Simonshohnなどは、超常現象、社会的および心理的研究におけるばかげた、しかし統計的に有意な発見の例を掲げることにより、ピアレビューおよび出版された研究における0.05の有意水準の濫用を繰り返し指摘しています。最も悪質なものの1つは、妊娠中の女性は赤いドレスを着る可能性が高いという統計的に有意な結果でした。ゲルマンは、統計結果に対する論理的な課題がない限り、潜在的に無意味な説明。ここで、彼は業界の職業上の危険について言及していますそれは一般の聴衆の間で議論を進めるためにほとんどまたは何も役に立たない過度に技術的かつ難解な議論を伴う。

これはゲイリー・キングが実際に定量的政治学者(ひいてはすべてのクオンツ)に頼み、「この結果はap <= 0.05レベルで有意だった」などの機械的、技術的報道を止め、より実質的な解釈に向かって動いたときに激しく主張するポイントです。これが彼の論文からの引用です。

(1)最大の実質的関心のある量の数値的に正確な推定値を伝え、(2)それらの推定値に関する不確実性の合理的な測定値を含め、(3)理解するために専門知識をほとんど必要としない。次の簡単な声明は基準を満たします。「他の条件が同じであれば、教育を1年追加すると、年間収入が平均で1,500ドル、プラスマイナス約500ドル増加します。」どんなに洗練された統計モデルと強力なコンピューターがそれを生成するために使用したかに関係なく、賢い高校生なら誰でもその文を理解するでしょう。

キングの主張は非常によく理解されており、議論が進むべき方向を示しています。

統計分析を最大限に活用する:解釈とプレゼンテーションの改善、King、Tomz、Wittenberg、2002、Am Jour of Poli Sci


2
+1この読みやすく、有益で、思慮深いスレッドへの貢献に感謝します。
whuber

@whuber優しい言葉をありがとう。他の参加者が同意するかどうかは時間が経てばわかります。
マイクハンター

2
私は惑わされるかもしれませんが、私たちのアクティブな有権者の一部(ほとんどではないにしても)は同意または不一致に基づいて投票するのではなく、投稿が明確で権威のある方法で元の質問に応答するかどうかに投票すると思うのが好きです。結局、賛成票アイコンの上のホバーテキストには、「この回答は役に立ちます」ではなく、「この人に同意します」と表示されます。(これは私たちのメタサイト上で投票と混同しないようにしてない契約の意味度合いを。)この印象のためのいくつかの証拠は、多くの人に与えられるスポーツマンシップバッジ授与されました。
whuber

@Whuberあなたが指摘するニュアンスは正式に認められています。
マイクハンター

@whuberこのスレッドは、先日私たちのチャットでだまされた言葉を使用した原因でした。
マイクハンター

5

洞察力に富んだコメントと回答をすべて読んだ後の質問3に関する私の考えを以下に示します。

おそらく、p値ハッキングを回避するための統計分析の実用的なガイダンスの1つは、代わりに科学的(または生物学的、臨床的など)の有意/意味のある効果サイズを調べることです。

具体的には、研究では、データ分析の前またはデータ収集の前でさえ、有用または意味があると宣言できる効果サイズを事前に定義する必要があります。たとえば、letθ 次の仮説をテストする代わりに、薬物効果を示します。

H0θ=0vsHaθ0
常にテストする必要があります
H0θ<δvsHaθδ
δ 意味のある重要性を主張するための事前定義された効果サイズである。

さらに、効果を検出するために大きすぎるサンプルサイズを使用しないようにするには、必要なサンプルサイズも考慮する必要があります。つまり、実験に使用される最大サンプルサイズに制約を設定する必要があります。

総括する、

  1. 有意性を宣言するには、意味のある効果サイズのしきい値を事前に定義する必要があります。
  2. 実験で使用するサンプルサイズのしきい値を事前に定義して、有意な効果サイズがどの程度検出可能かを定量化する必要があります。

したがって、上記を使用すれば、巨大なサンプルサイズが主張するマイナーな「重要な」効果を回避できる可能性があります。


[2015年6月9日更新]

質問3に関しては、最近の自然からの論文に基づいたいくつかの提案があります。質問の部分で述べたように、「気まぐれなP値は再現性のない結果を生成します」

  1. 効果の大きさの推定値とその精度、つまり95%の信頼区間を報告します。これらのより有益な情報は、差の大きさや関係や関連性の強さなどの質問に正確に答えるためです。
  2. 効果サイズの推定値と95%CIを特定の科学的研究/質問のコンテキストに入れ、それらの質問への回答の関連性に焦点を合わせ、気まぐれなP値を割り引く。
  3. 電力分析を「精度の計画」に置き換えて、定義された精度に達するために効果サイズを推定するために必要なサンプルサイズを決定します。

[2015年6月9日更新終了]


4
書き直すと H0θ=δ次に、等価性テストについて議論しています。これは、多くの状況で行うべき素晴らしいことだと思います。(通常、仮説検定は2番目の状況のように提示されません。なぜなら、nullまたは代替ではない潜在的な結果があるからです。)
Andy W

@AndyW、コメントをありがとう。それに応じて答えを変更しました。それはより良い選択肢に聞こえますか?
アーロン・ゼン

2
そのNatureの記事への参照については+1。ただし、p値の(未発表の)ベイジアン解釈など、驚くべき誤った情報が含まれています。「例として、研究がP = 0.03を取得した場合、反復研究がどこかにP値を返す可能性が90%あります0〜0.6の広い範囲(90%の予測間隔)に対して、P <0.05の可能性はわずか56%です。」著者がどの事前分布を仮定しているのだろうか?そしてなぜそれが関連しているのか?
whuber

@AndyWとアーロン曽は、さらに良いから結果を組み合わせることで、両方の違いのためのテスト、および等価性のテスト。このようにして、関連する効果サイズと統計的検出力の両方を、自分が引き出す結論に明示的に配置します(関連性テストのセクションを参照)。
アレクシス

3

現代の使用法では、p値は、ある仮説以上の帰無仮説が与えられた場合のデータの累積確率を指します。すなわちPD|H0α。と思うH0いくつかの試行で十分にありそうにないランダムな結果との確率を比較することによって通常プロキシされる「効果なし」の仮説になる傾向があります。フィールドに応じて、5%から0.1%以下まで変化します。しかしながら、H0 ランダムと比較する必要はありません。

  1. 1/20の結果は、あるべきではないときにヌルを拒否する可能性があることを意味します。科学が単一の実験に基づいた結論である場合、陳述は正当なものになるでしょう。そうでなければ、実験が再現可能である場合、19/20が拒否されないことを意味します。物語の教訓は、実験は再現可能であるべきだということです。

  2. 科学は「客観性」に根ざした伝統なので、「客観的確率」は自然に魅力的です。実験は、多くの場合、ブロック設計とランダム化を使用して研究外の要因を制御する高度な制御を実証することを想定していることを思い出してください。したがって、ランダムとの比較は意味があります。これは、調査中の要因を除いて、他のすべての要因が制御されることになっているためです。これらの技術は、科学に移植される前の農業および産業で大成功を収めました。

  3. 情報の不足が本当に問題であったかどうかはわかりません。数学ではない科学の多くの人にとって、統計はチェックするだけの箱であるということは注目に値します。

  4. 2つのフレームワークを統合する決定理論についての一般的な読み物をお勧めします。必要な情報を使用するだけです。頻繁な統計は、モデルのパラメーターが固定分布からの未知の値を持っていると仮定します。ベイジアンは、モデル内のパラメーターは、私たちが知っていることによって条件付けられた分布に由来すると仮定します。以前の情報を作成するのに十分な情報と、それを正確な事後情報に更新するのに十分な情報があれば、それは素晴らしいことです。存在しない場合、結果が悪化する可能性があります。


1

統計的テスト結果の再現性

これは、統計的テストに基づいて意思決定の再現性を評価するための短い簡単な演習です。

H1とH2を含む対立仮説のセットを持つ帰無仮説H0を考えます。H1がtrueの場合、0.8のべき乗を得るために、0.05の有意水準で統計的仮説検定手順を設定します。さらに、H2の電力が0.5であると仮定します。テスト結果の再現性を評価するために、実験ではテスト手順を2回実行することを考慮しています。H0が真である状況から始めて、共同実験の結果の確率を表1に表示します。決定を再現できない確率は0.095です。

表1. H0が真の場合の周波数

Frequency.of.decisionReject.H0Retain.H0Reject.H00.00250.0475Retain.H00.04750.9025

The frequencies change as the true state of nature changes. Assuming H1 is true, H0 can be rejected as designed with a power of 0.8. The resulting frequencies for the different outcomes of the joint experiment are displayed in Table 2. The probability of not being able to reproduce decisions is 0.32.

Table 2. Frequencies, if H1 is true

Frequency.of.decisionReject.H0Retain.H0Reject.H00.640.16Retain.H00.160.04

Assuming H2 is true, H0 will be rejected with a probability of 0.5. The resulting frequencies for the different outcomes of the joint experiment are displayed in Table 3. The probability of not being able to reproduce decisions is 0.5.

Table 3. Frequencies, if H2 is true

Frequency.of.decisionReject.H0Retain.H0Reject.H00.250.25Retain.H00.250.25

The test procedure was designed to control type I errors (the rejection of the null hypothesis even though it is true) with a probability of 0.05 and limit type II errors (no rejection of the null hypothesis even though it is wrong and H1 is true) to 0.2. For both cases, with either H0 or H1 assumed to be true, this leads to non-negligible frequencies, 0.095 and 0.32, respectively, of "non-reproducible", "contradictory" decisions, if the same experiment is repeated twice. The situation gets worse with a frequency up to 0.5 for "non-reproducible", "contradictory" decisions, if the true state of nature is between the null- and the alternative hypothesis used to design the experiment.

The situation can also get better - if type 1 errors are controlled more strictly, or if the true state of nature is far away from the null, which results in a power to reject the null that is close to 1.

Thus, if you want more reproducible decisions, increase the significance level and the power of your tests. Not very astonishing ...


(+1) But you can't set the p-value to 5% before the experiment - think you mean "significance level".
Scortchi - Reinstate Monica

Thank you. Same thing in the last sentence: "decrease the significance levels and increase the power"
Scortchi - Reinstate Monica

I think the biggest issue with p values is that people confuse them with substantive significance. So if p < .05 it means that the discovered effect size is large enough to matter. I get asked at work to generate [substantively] significant effects by generating p values.
user54285
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.