エグゼクティブサマリー:「P-ハッキング」は広く理解されるべきであるならばラ・ゲルマンのフォーク・パス、それがどのように普及に対する答えが、それはほとんど普遍的であるということです。
Andrew Gelmanはこのトピックについて書くのが好きで、最近彼のブログに広範囲に投稿しています。私は彼にいつも同意するわけではありませんが、私は彼のハッキングの観点が好きです。ここに、彼の「庭の分岐経路の紹介」論文(Gelman&Loken 2013; American Scientist 2014に登場したバージョン ; ASAの声明に関するGelmanの短いコメントも参照)からの抜粋があります。p
この問題は、「p-ハッキング」または「研究者の自由度」と呼ばれることもあります(Simmons、Nelson、Simonsohn、2011年)。最近の記事で、私たちは「釣り遠征[...]」について話しました。しかし、私たちは「釣り」という用語が不幸だと感じ始めています。それは、研究者が比較後に比較を試み、魚が引っ掛かるまで繰り返し湖に投げ込むというイメージを呼び起こすからです。研究者が定期的にそうしていると考える理由はありません。本当の話は、研究者が仮定とデータを考慮して合理的な分析を実行できるが、データが異なることが判明した場合、それらの状況で同様に合理的な他の分析を行うことができたということです。
「フィッシング」および「p-ハッキング」という用語(および「研究者の自由度」)の広がりを後悔しています。1つ目は、そのような用語が研究の説明に使用される場合、研究者が誤解を招くような含意があるためです単一のデータセットで多くの異なる分析を意識的に試していました。そして、第二に、多くの異なる分析を試みていないことを知っている研究者が、研究者の自由度の問題をそれほど強く受けないと誤って考えるようになる可能性があるためです。[...]
ここでの重要なポイントは、研究者が釣りや複数のp値の意識的な手順を実行することなく、詳細がデータに非常に依存しているデータ分析の意味で、複数の潜在的な比較を行うことができることです。
ゲルマンは、研究が積極的に不正行為を行ったことを暗示しているため、p-ハッキングという用語が好きではありません。一方、問題が発生するのは、研究者がデータを見た後、つまり探索的分析を行った後に実行/レポートするテストを選択するためです。
生物学で働いた経験があれば、誰もがそうしていると安心できます。誰もが(私自身も含めて)あいまいな先験的仮説のみでデータを収集し、広範な探索的分析を行い、さまざまな有意性テストを実行し、さらにデータを収集し、テストを実行して再実行し、最終的に最終的な原稿にいくつかの値を報告します。これはすべて、積極的に不正行為を行ったり、愚かなxkcd-jelly-beansスタイルのチェリーピッキングを行ったり、意識的に何かをハッキングしたりすることなく行われています。p
「P-ハッキング」は広く理解されるべきであるのであればラ・ゲルマンのフォーク・パスを、それがどのように普及への答えは、それはほとんど普遍的であるということです。
頭に浮かぶ唯一の例外は、心理学における完全に事前登録された複製研究または完全に事前登録された医療試験です。
特定の証拠
面白いことに、一部の人々は研究者に投票して、多くの人が何らかのハッキングを行っていることを認めています(John et al。2012、Truth Telling Incentives for Truth Telling)
それとは別に、誰もが心理学におけるいわゆる「複製危機」について耳にしました。トップの心理学雑誌に発表された最近の研究の半分以上は複製されません(Nosek et al。2015、Estimating the psychological scienceの推定)。(この研究は、最近ので、もう一度すべてのブログ上でされている科学の2016年3月の問題はまた、Nosekらの返信Nosekらに反論しようとするコメントを発表した。そして。議論は別の場所で続け、参照アンドリュー・ゲルマンによってポストを し、彼がリンクしているRetractionWatchの投稿。丁寧に言えば、批判は納得できない。)
2018年11月の更新: カプランとアービン、2017年、大規模なNHLBI臨床試験のヌル効果の可能性が時間とともに増加していることは、事前登録が必要になった後、ヌルの結果を報告する臨床試験の割合が43%から92%に増加したことを示しています:
P文献の値分布
ヘッドら。2015
私はヘッドらについて聞いたことがありません。以前は勉強していましたが、現在は周辺の文献を調べています。また、彼らの生データについても簡単に調べました。
ヘッド他 PubMedからすべてのOpen Access論文をダウンロードし、テキストで報告されたすべてのp値を抽出し、2.7百万のp値を得ました。これらのうち、1.1 mlnはではなくとして報告されまし。これらのうち、Head等。論文ごとにランダムに1つのp値を取りましたが、これは分布を変更しないようですので、ここですべての1.1 mln値の分布は次のようになります(と間):p=ap<a00.06
ビン幅を使用しましたが、報告された値に多くの予測可能な丸めがはっきりと見られます。さて、ヘッドら。次の操作を行います。これらは多数の比較における-値間隔とに間隔。前者の数は(かなり)大きいことが判明し、ハッキングの証拠としてそれを採用しています。目を細めると、私の姿で見ることができます。0.0001pp(0.045,0.5)(0.04,0.045)p
これは、1つの簡単な理由で非常に説得力がないと思います。結果を誰が報告したいですか?実際、多くの人がまさにそれをしているように見えますが、それでもこの不満足な境界線の値を避けて、例えば(もちろんでない限り)別の有効数字を報告しようとするのは自然に見えます。したがって、近いが等しくない値のいくらかの過剰は、研究者の丸めの好みによって説明することができます。p=0.05p=0.048p=0.052p0.05
それとは別に、効果はわずかです。
(この図で確認できる唯一の強力な効果は、直後の値密度の顕著な低下です。これは明らかに出版バイアスによるものです。)p0.05
私が何かを見逃さない限り、Head et al。この潜在的な代替説明についても議論しないでください。また、値のヒストグラムも表示されません。p
Headらを批判する多くの論文があります。この未発表原稿 Hartgerinkは、ヘッドら主張します。比較にとを含める必要がありました(もしあれば、その効果は見つかりませんでした)。私はそれについて確信がありません。あまり説得力がないようです。丸めを行わずに、「生の」値の分布を何らかの方法で検査できれば、はるかに良いでしょう。p=0.04p=0.05p
丸めなしの値の分布p
で、この2016 PeerJ用紙(プレプリント2015に掲載)同じHartgerinkら。トップ心理学ジャーナルの多くの論文からp値を抽出し、正確にそれを行います。それらは、報告された、 -、などの統計値から正確な値を再計算します。この分布には丸めのアーティファクトがなく、0.05に向かってはまったく増加しません(図4)。ptFχ2
PLoS OneのKrawczyk 2015でも非常によく似たアプローチが取られており、彼はトップの実験心理学ジャーナルから135kの値を抽出しています。以下に、分布が報告された(左)および再計算された(右)値を探す方法を示します。pp
違いは顕著です。左のヒストグラムは、前後で起こっているいくつかの奇妙なものを示していますが、右のヒストグラムでは消えています。これは、この奇妙なことは、あたりの値を報告する人々の好みによるものであり、ハッキングによるものではないことを意味します。p=0.05p≈0.05p
マシカンポとラランド
0.05を少し下回る値の疑いのある過剰を最初に観察したのはMasicampo&Lalande 2012であり、心理学の3つのトップジャーナルを見ていたようです。p
これは印象的に見えますが、公開されたコメントのLakens 2015(preprint)は、これが誤解を招く指数関数的適合のおかげで印象的に見えると主張しています。参照してくださいだけで0.05以下のp値から結論を出すの課題について、2015 Lakensそこおよび参照。
経済
Brodeur et al。2016年(リンクは2013年のプレプリントへ)は、経済学の文献でも同じことをします。3つの経済学ジャーナルを見て、5万のテスト結果を抽出し、それらすべてをスコアに変換し(可能な場合は報告された係数と標準誤差を使用し、報告された場合のみ値を使用します)、以下を取得します:zp
小さな値が右側にあり、大きな値が左側にあるため、これは少し混乱します。著者が要約で書いているように、「p値の分布は、0.25を超える豊富なp値を持つラクダ形を示します」と「.25と.10の間の谷」。彼らは、この谷は怪しい何かの兆候であると主張しているが、これは間接的な証拠にすぎない。また、単に.25を超える大きなp値が効果の欠如の何らかの証拠として報告されるが、.1から.25の間のp値はここでもそこでもないように感じられ、省略されます。(上記のプロットが間隔に焦点を当てているため、この効果が生物学文献に存在するかどうかはわかりません。)ppp < 0.05p<0.05
間違って安心?
上記のすべてに基づいて、私の結論は、生物学的/心理学的な文献全体にわたる値の分布にハッキングの強力な証拠は見当たらないということです。選択的報告、出版バイアスの証拠が十分にあり、丸め -値下にと他の面白い丸め効果が、私は頭らの結論に反対:以下何ら不審なバンプが存在しない。ppp0.05 0.050.050.05
ウリ・シモンソンは、これは「誤って心強い」と主張している。実際、彼はこれらの論文を批判的ではなく引用していますが、「ほとんどのp値は0.05よりもずっと小さい」と述べています。それから彼は言う:「それは心強いが、誤って心強い」。そして、ここに理由があります:
研究者が結果をp-hackするかどうかを知りたい場合、最初にp-hackしたい結果に関連するp-valueを調べる必要があります。偏りのないサンプルには、対象の母集団からの観測のみを含める必要があります。
ほとんどの論文で報告されているほとんどのp値は、関心のある戦略的行動とは無関係です。共変量、操作チェック、相互作用をテストする研究の主な効果など。それらを含めて、p-ハッキングを過小評価し、データの証拠価値を過大評価します。すべてのp値を分析するには、別の質問が必要です。「研究者は自分が研究したものをp-hackしますか?」の代わりに、「研究者はすべてをp-hackしますか?」
これはまったく理にかなっています。報告されたすべての値を見ると、ノイズが多すぎます。Uriのカーブペーパー(Simonsohn et al。2013)は、慎重に選択されたバリューを見ると何が見えるかを示しています。彼らはいくつかの不審なキーワードに基づいて20本の心理学の論文を選択した(すなわち、これらの論文の著者は、共変量のための制御テストを報告し、それを制御することなく、何が起こるかを報告しなかった)、その後だけ取っ主な調査結果をテストしている-値を。分布は次のようになります(左)。ppp ppp
強い左スキューは、強いハッキングを示唆しています。p
結論
私たちはと言うでしょう知っているがことをしなければならない多くのこと主にゲルマンは説明フォーク・パスタイプで、起こって-hacking。おそらく、公開された値を額面どおりに実際に取得することはできず、読者はかなりの割合で「割引」する必要があります。ただし、この態度は、をわずかに下回る値分布全体の単なるバンプよりもはるかに微妙な効果を生み出すようであり、このような鈍い分析では実際に検出できません。ppp 0.05 p0.05