「インザワイルド」なPハッキングについてどれだけ知っていますか?


94

フレーズp -hacking(「データ dr 、「スヌーピング」、「フィッシング」)は、結果が人為的に統計的に有意になるさまざまな種類の統計的不正行為を指します。「より重要な」結果を取得する方法は多数ありますが、決してこれらに限定されません:

  • パターンが見つかったデータの「興味深い」サブセットのみを分析します。
  • 複数のテスト、特に事後テスト、および重要ではない実行されたテストの報告に失敗した場合の適切な調整の失敗
  • 同じ仮説の異なるテスト、たとえば、パラメトリックテストとノンパラメトリックテストの両方を試します(このスレッドでは、いくつかの議論があります)が、最も重要なもののみを報告します。
  • 望ましい結果が得られるまで、データポイントの包含/除外を試行します。「データクリーニングの外れ値」だけでなく、曖昧な定義(「先進国」の計量経済学の研究、異なる定義が異なる国のセットをもたらす)、または定性的包含基準(例えば、メタ分析) 、特定の研究の方法論が十分に堅牢であるかどうかは、バランスのとれた議論かもしれません)
  • 前の例は、オプションの停止に関連しています。つまり、データセットを分析し、これまでに収集したデータに応じてデータを収集するかどうかを決定します(「これはほとんど重要です。さらに3人の学生を測定しましょう!」)分析で;
  • モデルフィッティング中の実験、特に含める共変量だけでなく、データ変換/関数形式に関する実験

したがって、p-ハッキングが実行できることを知っています。多くの場合、p値の危険性」の 1つとしてリストされており、統計的有意性に関するASAレポートで言及されており、ここでCross Validated説明されているため、悪いことでもあります。いくつかの疑わしい動機と(特に学術出版の競争において)逆効果的なインセンティブは明らかですが、意図的な不正行為であろうと単純な無知であろそれがなぜなのかを理解するのは難しいと思います。ステップワイズ回帰からp値を報告する人(ステップワイズ手順は「良いモデルを生成する」が、意図されたpを認識していないため)-値が無効化される)、後者のキャンプではあるが、その効果はまだありP上記の私の箇条書きの最後の下-hacking。

確かにpハッキングが「外にある」という証拠があります。例えば、Head et al(2015)は科学文献に感染している証拠的な兆候を探しますが、それに関する我々の証拠の現状は何ですか?Headらがとったアプローチには論争がなかったわけではないことを知っているので、文学の現状、または学術界の一般的な考え方は興味深いでしょう。たとえば、次のことについて考えていますか?

  • それはどの程度一般的であり、その発生を出版バイアスとどの程度まで区別できますか?(この区別は意味がありますか?)
  • 効果は境界で特に深刻ですか?たとえば、で同様の効果が見られますか、それともp値の範囲全体が影響を受けますか?p0.05p0.01
  • pハッキングのパターンは学問分野によって異なりますか?
  • p-ハッキングのメカニズム(上記の箇条書きにリストされているもの)のどれが最も一般的であるか、私たちは考えていますか?一部のフォームは、「よりよく偽装されている」ため、他のフォームよりも検出が難しいことが証明されていますか?

参照資料

ヘッド、ML、ホルマン、L。、ランフィア、R。、カーン、AT、およびジェニオン、MD(2015)。科学におけるpハッキングの範囲と結果PLoS Biol13(3)、e1002106。


6
あなたの最後の質問は、研究のための素晴らしいアイデアです:さまざまな分野の研究者グループに生データを与え、SPSS(または使用するもの)にそれらを装備し、より重要な結果を得るために互いに競い合っている間に彼らがしていることを記録します。
ティム

1
kaggleの提出履歴を使用して、被験者がそれが起こっていることを知らずにそれを行うことができるかもしれません。彼らは出版していないが、彼らはマジックナンバーを打つためにあらゆる方法を試みている。
EngrStudent

1
クロスバリデーションには、Pハッキングの簡単なシミュレーション例のコレクション(コミュニティwikiなど)がありますか?シミュレートされた研究者が、より多くのデータ、回帰仕様を使用した実験などを収集することにより、「わずかに重要な」結果に反応するおもちゃの例を想像
Adrian

2
@Adrian CVは単なるQ&Aサイトであり、データやコードを保持しておらず、隠されたリポジトリもありません-答えで見つけたものはすべてCCライセンスの下にあります:) この質問はそのような例を収集することを求めているようです
ティム

1
@Timはもちろん、隠されたコードリポジトリを想像していませんでした。答えにコードスニペットが含まれているだけです。例えば、誰かが「p-hackingとは何か」と尋ねたり、答えにおもちゃRシミュレーションを含めたりするかもしれません。コード例で現在の質問に答えることは適切でしょうか?「どれだけ知っているか」は非常に広範な質問です。
エイドリアン

回答:


76

エグゼクティブサマリー:「P-ハッキング」は広く理解されるべきであるならばラ・ゲルマンのフォーク・パス、それがどのように普及に対する答えが、それはほとんど普遍的であるということです。


Andrew Gelmanはこのトピックについて書くのが好きで、最近彼のブログに広範囲に投稿しています。私は彼にいつも同意するわけではありませんが、私は彼のハッキングの観点が好きです。ここに、彼の「庭の分岐経路の紹介論文(Gelman&Loken 2013; American Scientist 2014に登場したバージョン ; ASAの声明に関するGelmanの短いコメントも参照)からの抜粋があります。p

この問題は、「p-ハッキング」または「研究者の自由度」と呼ばれることもあります(Simmons、Nelson、Simonsohn、2011年)。最近の記事で、私たちは「釣り遠征[...]」について話しました。しかし、私たちは「釣り」という用語が不幸だと感じ始めています。それは、研究者が比較後に比較を試み、魚が引っ掛かるまで繰り返し湖に投げ込むというイメージを呼び起こすからです。研究者が定期的にそうしていると考える理由はありません。本当の話は、研究者が仮定とデータを考慮して合理的な分析を実行できるが、データが異なることが判明した場合、それらの状況で同様に合理的な他の分析を行うことができたということです。

「フィッシング」および「p-ハッキング」という用語(および「研究者の自由度」)の広がりを後悔しています。1つ目は、そのような用語が研究の説明に使用される場合、研究者が誤解を招くような含意があるためです単一のデータセットで多くの異なる分析を意識的に試していました。そして、第二に、多くの異なる分析を試みていないことを知っている研究者が、研究者の自由度の問題をそれほど強く受けないと誤って考えるようになる可能性があるためです。[...] ここでの重要なポイントは、研究者が釣りや複数のp値の意識的な手順を実行することなく、詳細がデータに非常に依存しているデータ分析の意味で、複数の潜在的な比較を行うことができることです。

ゲルマンは、研究が積極的に不正行為を行ったことを暗示しているため、p-ハッキングという用語が好きではありません。一方、問題が発生するのは、研究者がデータを見た後、つまり探索的分析を行った後に実行/レポートするテストを選択するためです。

生物学で働いた経験があれば、誰もがそうしていると安心できます。誰もが(私自身も含めて)あいまいな先験的仮説のみでデータを収集し、広範な探索的分析を行い、さまざまな有意性テストを実行し、さらにデータを収集し、テストを実行して再実行し、最終的に最終的な原稿にいくつかの値を報告します。これはすべて、積極的に不正行為を行ったり、愚かなxkcd-jelly-beansスタイルのチェリーピッキングを行ったり、意識的に何かをハッキングしたりすることなく行われています。p

「P-ハッキング」は広く理解されるべきであるのであればラ・ゲルマンのフォーク・パスを、それがどのように普及への答えは、それはほとんど普遍的であるということです。

頭に浮かぶ唯一の例外は、心理学における完全に事前登録された複製研究または完全に事前登録された医療試験です。

特定の証拠

面白いことに、一部の人々は研究者に投票して、多くの人が何らかのハッキングを行っていることを認めています(John et al。2012、Truth Telling Incentives for Truth Telling

ジョンら

それとは別に、誰もが心理学におけるいわゆる「複製危機」について耳にしました。トップの心理学雑誌に発表された最近の研究の半分以上は複製されません(Nosek et al。2015、Estimating the psychological scienceの推定)。(この研究は、最近ので、もう一度すべてのブログ上でされている科学の2016年3月の問題はまた、Nosekらの返信Nosekらに反論しようとするコメントを発表した。そして。議論は別の場所で続け、参照アンドリュー・ゲルマンによってポストを し、彼がリンクしているRetractionWatchの投稿。丁寧に言えば、批判は納得できない。)

2018年11月の更新: カプランとアービン、2017年、大規模なNHLBI臨床試験のヌル効果の可能性が時間とともに増加していることは、事前登録が必要になった後、ヌルの結果を報告する臨床試験の割合が43%から92%に増加したことを示しています:

ここに画像の説明を入力してください


P文献の値分布

ヘッドら。2015

私はヘッドらについて聞いたことがありません以前は勉強していましたが、現在は周辺の文献を調べています。また、彼らの生データについても簡単に調べまし

ヘッド他 PubMedからすべてのOpen Access論文をダウンロードし、テキストで報告されたすべてのp値を抽出し、2.7百万のp値を得ました。これらのうち、1.1 mlnはではなくとして報告されまし。これらのうち、Head等。論文ごとにランダムに1つのp値を取りましたが、これは分布を変更しないようですので、ここですべての1.1 mln値の分布は次のようになります(と間):p=ap<a00.06

文献におけるp値の分布

ビン幅を使用しましたが、報告された値に多くの予測可能な丸めがはっきりと見られます。さて、ヘッドら。次の操作を行います。これらは多数の比較における-値間隔とに間隔。前者の数は(かなり)大きいことが判明し、ハッキングの証拠としてそれを採用しています。目を細めると、私の姿で見ることができます。0.0001pp(0.045,0.5)(0.04,0.045)p

これは、1つの簡単な理由で非常に説得力がないと思います。結果を誰が報告したいですか?実際、多くの人がまさにそれをしているように見えますが、それでもこの不満足な境界線の値を避けて、例えば(もちろんでない限り)別の有効数字を報告しようとするのは自然に見えます。したがって、近いが等しくない値のいくらかの過剰は、研究者の丸めの好みによって説明することができます。p=0.05p=0.048p=0.052p0.05

それとは別に、効果はわずかです。

(この図で確認できる唯一の強力な効果は、直後の値密度の顕著な低下です。これは明らかに出版バイアスによるものです。)p0.05

私が何かを見逃さない限り、Head et al。この潜在的な代替説明についても議論しないでください。また、値のヒストグラムも表示されません。p

Headらを批判する多くの論文があります。この未発表原稿 Hartgerinkは、ヘッドら主張します。比較にとを含める必要がありました(もしあれば、その効果は見つかりませんでした)。私はそれについて確信がありません。あまり説得力がないようです。丸めを行わずに、「生の」値の分布を何らかの方法で検査できれば、はるかに良いでしょう。p=0.04p=0.05p

丸めなしの値の分布p

、この2016 PeerJ用紙(プレプリント2015に掲載)同じHartgerinkら。トップ心理学ジャーナルの多くの論文からp値を抽出し、正確にそれを行います。それらは、報告された、 -、などの統計値から正確な値を再計算します。この分布には丸めのアーティファクトがなく、0.05に向かってはまったく増加しません(図4)。ptFχ2

Hartgerink PeerJ論文

PLoS OneのKrawczyk 2015でも非常によく似たアプローチが取られており、彼はトップの実験心理学ジャーナルから135kの値を抽出しています。以下に、分布が報告された(左)および再計算された(右)値を探す方法を示します。pp

クローチク

違いは顕著です。左のヒストグラムは、前後で起こっているいくつかの奇妙なものを示していますが、右のヒストグラムでは消えています。これは、この奇妙なことは、あたりの値を報告する人々の好みによるものであり、ハッキングによるものではないことを意味します。p=0.05p0.05p

マシカンポとラランド

0.05を少し下回る値の疑いのある過剰を最初に観察したのはMasicampo&Lalande 2012であり、心理学の3つのトップジャーナルを見ていたようです。p

マシカンポとラランド

これは印象的に見えますが、公開されたコメントのLakens 2015preprint)は、これが誤解を招く指数関数的適合のおかげで印象的に見えると主張しています。参照してくださいだけで0.05以下のp値から結論を出すの課題について、2015 Lakensそこおよび参照。

経済

Brodeur et al。2016年(リンクは2013年のプレプリントへ)は、経済学の文献でも同じことをします。3つの経済学ジャーナルを見て、5万のテスト結果を抽出し、それらすべてをスコアに変換し(可能な場合は報告された係数と標準誤差を使用し、報告された場合のみ値を使用します)、以下を取得します:zp

ブロデュール

小さな値が右側にあり、大きな値が左側にあるため、これは少し混乱します。著者が要約で書いているように、「p値の分布は、0.25を超える豊富なp値を持つラクダ形を示します」と「.25と.10の間の谷」。彼らは、この谷は怪しい何かの兆候であると主張しているが、これは間接的な証拠にすぎない。また、単に.25を超える大きなp値が効果の欠如の何らかの証拠として報告されるが、.1から.25の間のp値はここでもそこでもないように感じられ、省略されます。(上記のプロットが間隔に焦点を当てているため、この効果が生物学文献に存在するかどうかはわかりません。)ppp < 0.05p<0.05


間違って安心?

上記のすべてに基づいて、私の結論は、生物学的/心理学的な文献全体にわたる値の分布にハッキングの強力な証拠は見当たらないということです。選択的報告、出版バイアスの証拠が十分にあり、丸め -値にと他の面白い丸め効果が、私は頭らの結論に反対:以下何ら不審なバンプが存在しない。ppp0.05 0.050.050.05

ウリ・シモンソンは、これは「誤って心強い」と主張している。実際、彼はこれらの論文を批判的ではなく引用していますが、「ほとんどのp値は0.05よりもずっと小さい」と述べています。それから彼は言う:「それは心強いが、誤って心強い」。そして、ここに理由があります:

研究者が結果をp-hackするかどうかを知りたい場合、最初にp-hackしたい結果に関連するp-valueを調べる必要があります。偏りのないサンプルには、対象の母集団からの観測のみを含める必要があります。

ほとんどの論文で報告されているほとんどのp値は、関心のある戦略的行動とは無関係です。共変量、操作チェック、相互作用をテストする研究の主な効果など。それらを含めて、p-ハッキングを過小評価し、データの証拠価値を過大評価します。すべてのp値を分析するには、別の質問が必要です。「研究者は自分が研究したものをp-hackしますか?」の代わりに、「研究者はすべてをp-hackしますか?」

これはまったく理にかなっています。報告されたすべての値を見ると、ノイズが多すぎます。Uriのカーブペーパー(Simonsohn et al。2013)は、慎重に選択されたバリューを見ると何が見えるかを示しています。彼らはいくつかの不審なキーワードに基づいて20本の心理学の論文を選択した(すなわち、これらの論文の著者は、共変量のための制御テストを報告し、それを制御することなく、何が起こるかを報告しなかった)、その後だけ取っ主な調査結果をテストしている-値を。分布は次のようになります(左)。ppp ppp

シモンソン

強い左スキューは、強いハッキングを示唆しています。p

結論

私たちはと言うでしょう知っているがことをしなければならない多くのこと主にゲルマンは説明フォーク・パスタイプで、起こって-hacking。おそらく、公開された値を額面どおりに実際に取得することはできず、読者はかなりの割合で「割引」する必要があります。ただし、この態度は、をわずかに下回る値分布全体の単なるバンプよりもはるかに微妙な効果を生み出すようであり、このような鈍い分析では実際に検出できません。ppp 0.05 p0.05


4
simply because the researches chose what test to perform/report after looking at the dataはい; そして、両刃の問題は避けられません。データに対してより良い方法が選択されている場合、それはその特定のサンプルの過剰適合ですか、それともその集団の技術的な呼び出しの会議ですか?または-外れ値を取り除く-それは人口を偽造するか、それを回復するか?最終的に誰が言うのでしょうか?
ttnphns

私が最も望んでいた種類の答えは、おそらく現在の文献の簡潔な表現、Headらの論文が最新の思考の公正な要約であるかどうかに関するいくつかの指針などでした。この答えはまったく期待していませんでした。しかし、私はそれが素晴らしいと思います、そして、Gelmanの考えと実際的な洞察は特に役に立ちます。質問を書いたとき、実際には@ttnphnsに似たものを念頭に置いていました(おそらくそれが示すように、「オーバーフィット」という言葉を含めることも考えました。)
Silverfish

それにもかかわらず、「科学が実際にどのように機能するか」という一般的で避けられないmal怠感は、統計的検定の前提条件に完全に一致していないことを除けば、このボギーマンの「悪意のあるPハッカーのダークアート」が本当に存在するのか疑問に思います。もしそうなら、それはどこまで届くのか。それを奨励するための強い(誤った)インセンティブが間違いなくあります。
シルバーフィッシュ

2
このヘッドなどに興味がありました。紙、@ Silverfish、だから私は今すぐ告白しなければなりません、私は働く代わりに、Headらの結果を批判するいくつかの論文を閲覧しており、すでに生のデータをダウンロードしています...
アメーバ

2
+1。最新のゲルマンのブログ記事(andrewgelman.com/2016/03/09/...は)地上の多くをカバーし、複製を試みたし、次に強く、元の研究の著者らによって批判されたグループで、興味深い反論を強調:retractionwatch.com/
ウェイン

22

ファンネルプロットは、メタ分析を頭に置いた非常に大きな統計革新です。基本的に、ファンネルプロットは、同じプロットで臨床的および統計的有意性を示します。理想的には、ファンネル形状を形成します。ただし、いくつかのメタ分析では、調査者(または発行者)がヌルである結果を選択的に保留した、強力なバイモーダル形状を示すファンネルプロットが作成されています。その結果、三角形の幅が広くなります。これは、より小さく、パワーの低い研究では、より抜本的な方法を使用して結果を「奨励」し、統計的有意性に到達するためです。コクランレポートチームには彼らについて言うべきことがあります

たとえば、統計的に有意な効果を持たない小規模な調査(図10.4.a、パネルAの白丸で示されている)が未公開のままであるため、バイアスがある場合、ファンネルプロットの非対称的な外観につながり、グラフ(パネルB)。この状況では、メタ分析で計算された効果は介入効果を過大評価する傾向があります(Egger 1997a、Villar 1997)。非対称性が顕著であるほど、バイアスの量が大きくなる可能性が高くなります。

最初のプロットは、バイアスがない場合の対称プロットを示しています。2番目は、レポートバイアスがある場合の非対称プロットを示しています。3番目は、バイアスの存在下での非対称プロットを示しています。いくつかの小さな研究(白丸)は方法論の質が低く、したがって介入効果の推定値が誇張されているためです。

ここに画像の説明を入力してください

ここに画像の説明を入力してください

ここに画像の説明を入力してください

ほとんどの著者は、p-hackに使用する方法に気付いていないようです。適合するモデルの総数を追跡せず、異なる除外基準を適用したり、毎回異なる調整変数を選択したりします。ただし、単純なプロセスを義務付ける必要がある場合は、モデルの総数が適合することを確認したいと思います。それは、モデルを再実行する正当な理由があるかもしれないということではありません。例えば、サンプルにApoEが収集されたことを知らないアルツハイマー病の分析を実行しただけです。私の顔に卵、私たちはモデルを再実行しました。


4
「調査者(または出版社)が選択した結果がヌルであったことを選択的に差し控えた」ことを強調するのが好きです。null no publication を拒否しなかった場合、障害は必ずしも調査員に正しかったとは限りません。
クリフAB

2
私の質問の1つの側面は、「p-hacking」と「publication bias」の違いでした-この答えは、いくつかの点で2つを混同します。あなたが言っていることをそのように解釈するのは正しいでしょうか、つまり「出版バイアスは本質的にはPハッキングの一形態ですが、出版社によるものです」。
シルバーフィッシュ

1
@Silverfish出版バイアスは、以前のコメントによると、著者または出版社のいずれかによって推進される可能性があります。しかし、はい、それはほとんど間違いなくハッキングです。ファネルプロットは公開された研究に適用された可能性がありますが、「科学的複製」が矛盾を示し始めるあらゆる設定に適用できます。薬物の確認試験、または多数のセンターまたは卸売業者にまたがるビジネスポリシーの実装。レプリケーションを扱うときはいつでも、ファンネルプロットは、nullの結果が落ちるはずのギャップを示すことにより、ハッキングの証拠を提供できます。Ppp
AdamO

2
うーん。最初に抗議し、出版バイアスはpハッキングとは異なると主張したかった(同様に、@ Silverfishが彼のQをどのように構成したかと同様に思う)が、その後、当初考えていたよりも境界線を引くのがより難しいことに気づいた。ジェリービーンズスタイルの多重比較を実行し、重要なもののみを報告する(p-hacking?)ことは、複数の研究を実行し、重要なもののみを報告すること(定義により出版バイアス)と大差ありません。それでも、データがp <0.05になるまでデータをマッサージするという意味でのpハッキングは、私にとって十分に違うと感じています。
アメーバ

2
@amoeba私も同じ懸念を持っていましたが、OPの質問を読んだ後、「物のソーセージの終わり」に対するハッキングの結果に関係していることに気付きました。通常、ほとんどのハッキング方法はレポートから省略されます。それでは、統計学者が何をするのか分からないのに、どのように違いを調整するのでしょうか?さて、調査結果を複製して確認するには、独立した試みが必要です。Ppp
AdamO
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.