誤発見率と複数のテストとの混同(Colquhoun 2014)


19

David Colquhounによるこの素晴らしい論文を読んでいます:偽発見率とp値の誤解の調査(2014)。本質的に、彼はでタイプIのエラーを制御しているにもかかわらず、偽発見率(FDR)が達する理由を説明しています。30α=0.05

ただし、複数のテストの場合にFDR制御を適用するとどうなるかについて、まだ混乱しています。

たとえば、多くの変数のそれぞれについてテストを実行し、Benjamini-Hochberg手順を使用して値を計算しました。重要な変数を1つ取得しました。この発見のFDRとは何ですか?qq=0.049

長期的に、このような分析を定期的に行うと、FDRはではなくであると安全に仮定できますか?Benjamini-Hochbergを使用したためです。それは間違っていると思いますが、値はColquhounの論文の値に対応しており、彼の推論もここに適用されるため、しきい値を使用すると、 Colquhounはそれをケースのに入れています。しかし、私はそれをより正式に説明しようとして失敗しました。5 305qpq0.0530


2
@Januaryさん、どうしてそんなに大きな賞金(250)を提供して、それから再び賞を授与したり、答えをチェックしたりしないのでしょうか。元気です。
アメーバは

3
2枚の原稿が大量のレンガのように私に降りてきて、私はそれを完全に忘れていました。

回答:


15

偶然にも、ほんの数週間前にこの同じ論文を読んだことがあります。Colquhounは、セクション4で問題を提起する際に複数の比較(Benjamini-Hochbergを含む)について言及していますが、彼は問題を十分に明確にしていないことがわかりました-だから私はあなたの混乱を見て驚くことではありません。

認識すべき重要な点は、コルクフーンが多重比較調整なしで状況について話していることです。Colquhounの論文は読者の視点を採用していると理解できます:彼は科学文献を読むとき、どのような誤発見率(FDR)を期待できるかを本質的に尋ねます。これは、多重比較調整が行われなかった場合に予想されるFDRを意味します。1つの研究、たとえば1つの論文で複数の統計テストを実行する場合、複数の比較を考慮することができます。しかし、誰も論文間で複数の比較のために調整することはありません。

たとえばBenjamini-Hochberg(BH)の手順に従ってFDRを実際に制御する場合、制御されます。問題は、各スタディでBH手順を個別に実行しても、全体的なFDR制御が保証されないことです。

Benjamini-Hochbergを使用したため、長期的にこのような分析を定期的に行った場合、FDRはではなく5 %未満であると安全に仮定できますか?30%5%

いいえ。すべての論文でBH手順を使用するが、各論文で個別に使用する場合、BH調整後の値を通常のp値として本質的に解釈できます。pp


総論

予想されるFDRについてのColquhounの質問に対する答えは、さまざまな仮定に依存するため、与えるのは困難です。たとえば、すべての帰無仮説が真である場合、FDRはなります(つまり、すべての「重要な」結果は統計的フルートになります)。そして、すべてのヌルが実際に偽である場合、FDRはゼロになります。したがって、FDRは真のヌルの割合に依存し、これはFDRを推定するために外部で推定または推測されたものです。Colquhounは30 %の数値を支持していくつかの引数を与えますが、この推定は仮定に非常に敏感です。100%30%

私はこの論文はほとんど合理的であると思うが、いくつかの主張が大胆すぎると思うのは嫌だ。たとえば、要約の最初の文は次のとおりです。

を使用して、発見したことを示唆する場合、少なくとも30 %の確率で間違いが発生します。p=0.0530%

これはあまりにも強く処方されており、実際誤解を招く可能性があります。


確かに、私は紙をざっと読んだだけですが、彼は本質的には、大きなサンプルサイズ(図1など)でスプリアス効果を見つけやすいというよく知られている思い込みを繰り返しているように思われます。それは意味がないと言うことではなく、むしろ著者が提供するものとは異なる(そしてあまり大胆に述べられていない)解釈を持つべきだと感じているということです。
ライアンシモンズ

1
@RyanSimmonsが「本質的には、単に大きなサンプルサイズで偽の効果を見つけるのは簡単だというよく知られている自尊心を繰り返している」と言っている理由がわかりません。大きなサンプルサイズとは何の関係もありませんでした!彼がこの論文に「異なる(そしてあまり大胆に述べられていない)解釈」が必要だと考える理由の説明を本当に歓迎します。
デビッドコルクーン

「しかし、誰も論文間で複数の比較を調整することはありません。また、それはかなり不可能です。」家族ごとの誤り率の調整に対する誤発見率の調整の利点の1つは、後者は家族の定義を必要とするが、前者は任意の数の比較にわたってスケーラブルであるということだと思いましたか?
アレクシス

pαp

さて、あなたが説明するのは確かに多重比較手順ではありませ。ただし、たとえば5つのテストでFDRベースの調整方法を実行し、その10のセットにさらに20 を追加して同じ方法を再度実行すると、FDRの下で拒否確率が保持されますが、これらの拒否確率はFWERの下で変わります。DunnのBonferroni調整は、かなり劇的な例です。
アレクシス

12

BenjaminiとHochbergは、誤検出である陽性検査の割合として、私と同じ方法で誤検出率を定義しています。したがって、複数の比較に手順を使用すると、FDRを適切に制御できます。ただし、BHメソッドには非常に多くのバリエーションがあることに注意してください。BerkeleyでのBenjaminiのセミナーはYoutubeで行われています。

@amoebaが「これはあまりにも強く処方されており、実際に誤解を招く可能性がある」と言っている理由がわかりません。私は彼/彼女がそれを考える理由を知りたいと思う。最も説得力のある議論は、シミュレートされたt検定から得られます(セクション6)。これは、ほとんどすべての人が実際に行っていることを模倣しており、Pが0.047に近いことを発見し、発見したと主張する場合、少なくとも26%の間違いがあることを示しています。何がうまくいかないのでしょうか?

もちろん、これを最小限のものとして説明するべきではありません。50%の確率で本当の効果があると仮定した場合に得られるものです。もちろん、仮説の大部分が前もって正しいと仮定すると、FDRは26%より低くなりますが、仮定に基づいて発見したという主張を歓迎する快楽を想像できますか結論が真実であることを事前に90%確信していたこと。26%は、0.5を超える事前確率を仮定する推論の合理的な根拠ではないため、最小FDRです。

テスト時にハンチが頻繁に立ち上がらないことを考えると、特定の仮説が真実である可能性は10%だけである可能性が高く、その場合、FDRは悲惨な76%になります。

これはすべて、差がゼロであるという帰無仮説(いわゆる点ヌル)を条件としているのは事実です。他の選択肢は異なる結果をもたらす可能性があります。しかし、nullというポイントは、ほとんどすべての人が実際の生活で使用するものです(ただし、気づかないかもしれません)。さらに、ポイントnullは、使用するのに完全に適切なものであるように思えます。真の違いが決して正確にゼロになることはないということに反対することがあります。同意しません。結果が、両方のグループに同じ処理が与えられている場合と区別できないかどうかを確認したいので、真の差は正確にゼロです。outデータがそのビューと互換性がないと判断した場合、エフェクトサイズを推定します。そしてその時点で、実際には効果が実際に重要であるほど十分に大きいかどうかについて個別に判断します。デボラメイヨーのブログ


@amoebaお返事ありがとうございます。

Mayoのブログでの議論のほとんどは、Mayoが私に同意しないということです。スティーブンセンは、異なる事前分布を仮定すると、異なる答えを得ることができると正しく指摘しています。それは主観的なベイジアンだけに興味があるように思えます。

それは確かに常にヌル点を前提とする日常の慣行とは無関係です。そして、私が説明したように、それは私にとって完全に賢明なことであるように思えます。

多くの専門家統計学者は私のものとほぼ同じ結論に達しました。Sellke&Berger、およびValen Johnsonを試してください(私の論文の参照)。私の主張について非常に物議を醸す(または非常に独創的な)ものはありません。

0.5を事前に仮定するという他の点は、私にはまったく仮定ではないようです。上で説明したように、0.5ウールを超えるものは実際には受け入れられません。また、0.5未満の場合は、誤検出率がさらに高くなります(たとえば、priorが0.1の場合は76%)。したがって、26%が1回の実験でP = 0.047を観測した場合に期待できる最小の誤検出率であると言うのは完全に合理的です。


私はこの質問についてもっと考えてきました。私のFDRの定義は、ベンジャミニの-偽の陽性テストの割合と同じです。しかし、それはまったく異なる問題、つまり単一のテストの解釈に適用されます。後知恵で、別の用語を選んだ方がよかったかもしれません。

単一のテストの場合、B&HはP値を変更しないため、この用語を使用するという意味での誤検出率については何も言いません。


esもちろんあなたは正しい。Benjamini&Hochberg、および複数の比較に取り組んでいる他の人々は、タイプ1のエラー率の修正のみを目指しています。したがって、それらは「正しい」P値になります。他のP値と同じ問題の影響を受けます。私の最新の論文では、この誤解を避けるために、名前をFDRからFalse Positive Risk(FPR)に変更しました。

また、計算の一部を実行するWebアプリを作成しました(提供するRスクリプトをダウンロードする人はほとんどいないことに気付きました)。https://davidcolquhoun.shinyapps.io/3-calcs-final/にあります。それに関するすべての意見を歓迎します(最初に[注]タブをお読みください)。

PS Web計算機には、http: //fpr-calc.ucl.ac.uk/ に新しい(恒久的、私は願っています)があります。


トピックに関する私の2番目の論文がRoyal Society Open Scienceに掲載されようとしているので、私はこの議論に戻りました。それはであるhttps://www.biorxiv.org/content/early/2017/08/07/144337

最初の論文で犯した最大の間違いは、「偽発見率(FDR)」という用語を使用することでした。新しい論文では、多重比較の問題について何も言っていないことをより明確にします。単一の不偏テストで観察されたP値をどのように解釈するかという問題のみを扱います。

最新バージョンでは、混乱を減らすことを期待して、結果がFDRではなく、偽陽性リスク(FPR)である確率について言及しています。また、逆ベイジアンアプローチも推奨します。たとえば、5%のFPRを確保するために必要な事前確率を指定します。P = 0.05を観測すると、0.87になります。言い換えると、実験を行う前に5%のFPRを達成するために実際の効果があったことをほぼ(87%)確認する必要があります(これは、ほとんどの人がまだ信じている、誤って、p = 0.05を意味します)。


親愛なるデビッド、CrossValidatedへようこそ。参加してくれてありがとう!元の@Januaryの質問については、私たちは同意しているようです。FDRは全体的なBH手順によってのみ制御できます。BHが各論文で個別に適用される場合、あなたの議論は依然として適用されます。もしそうなら、これは元の質問を解決します。あなたの「強すぎる」処方についての私のコメントについて:Mayoのブログで147件のコメントを読んだ後、私は別の議論を始めることにheしています。私が書いたように、私はあなたの論文にほぼ同意し、私の反対はいくつかの定式化についてのみでした。[続き]
アメーバは、モニカを復活させる

1
[...]アブストラクトの最初の文は、ここに挙げた理由のために「強すぎる」です。たとえば、nullを想定し、0.5を想定していますが、何も想定していないように聞こえます(しかし、挑発的であろうとした)。Mayoのブログでの大規模な議論は、多くの人々がこれらの仮定が実際の科学的実践にとって合理的であることに同意しないことを示しています。私自身も異議を唱えていますが、これらの仮定がいくつかの科学分野を正確に説明している可能性があることに同意します。その場合、これらのフィールドには大きな問題があります。
アメーバは、モニカを復活

2

混乱の大部分は、ここでの彼のコメントとは反対に、コルクフンはベンジャミニ・ホックバーグと同じ方法でFDRを定義していないということです。Colquhounが、用語がすでに確立された異なる定義をまだ持っていないことを確認するために最初にチェックせずに用語を作成しようとしたのは残念です。さらに悪いことに、コルクホーンは、従来のFDRがしばしば誤解されてきた方法でFDRを定義しました。

ここでの彼の答えで、コルクホーンはFDRを「偽の陽性テストの割合」と定義しています。これは、Benjamini-HochbergがFDPとして定義するものと類似しています(誤発見率、誤発見率と混同しないでください)。Benjamini-HochbergはFDRをFDPの期待値として定義します。正のテストがない場合はFDPが0と見なされるという特別な規定(すべてのヌルが真の場合にFDRをFWERに等しくする規定)ゼロによる除算による定義できない値を回避します)。

混乱を避けるために、コルクフンの論文の詳細について心配することはお勧めせず、代わりに、アルファレベルが直接重要なテストの割合に対応しないという重要なポイント(他の無数の人々も行っている)を念頭に置いてくださいタイプIのエラーです(1つの研究または複数の研究を組み合わせた重要なテストについて話している場合)。その割合は、アルファだけでなく、検出力とテストされた帰無仮説の割合にも依存します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.