夜明け以降、すべての実験に複数の仮説修正が適用されないのはなぜですか?


24

私たちは、そうでない場合は、偽発見率を制御するために、単一のデータセットに基づいて実験にBenjamini Hochbergのような複数の仮説検証のための修正を適用しなければならないことを知っているすべての肯定的な結果が得られた実験が偽である可能性があります。

しかし、データがどこから来たかに関係なく、この同じ原理を時間の初めからすべての実験に適用しないのはなぜですか?

結局のところ、「重要」と見なされる公開された科学的結果の半分以上は、現在、偽りで再現不可能であることが知られており、これが100%になりにくい理由はありません。科学者はポジティブな結果のみを公開する傾向があるため、ネガティブな結果の数がわからないため、公開したものが偽陽性のみであるかどうかはわかりません。一方、複数の仮説検定修正の背後にある数学が同じデータセットからの結果にのみ適用されるべきであり、経時的に取得されたすべての実験データからの結果に適用されるべきではないということはありません。

科学全体が、誤った仮説や弱い仮説に基づいた1つの大きな漁業遠征になったようです。

これまでに実行されたすべての実験で複数の仮説検定の修正を適用せずに、独立した結果のみを公開した場合、どのように偽発見率を制御できますか?

このような修正適用せずに、誤検出率を制御することは可能ですか?


2
独自の質問meta.stats.stackexchange.com/questions/3049/…が適用されます。これは、いくつかの大きな疑問を伴ういくつかの物議を醸す(場合によっては非常に誇張された)ステートメントを束ねています。これはすでにあなたに与えられたアドバイスのコンセンサスに反すると思います。
ニックコックス

3
申し訳ありませんが、あなたがどのような回答を参照しているかわかりません。ここには参照がありません。私は閉会することも投票することも、(自然に)人々が答えるのを止める欲求や力も持っていません。しかし、例えば、「時間の夜明け以来」は無意味な誇張の小さな例であり、あなたの投稿には他にもいくつかあります。このサイトの私の経験では、それ自体のために挑発的であることは、あなたの根底にある質問を助けません。読者は本質からスタイルを取り除く必要があります。
ニックコックス

3
招待してくれてありがとう、しかし人生は短い。メタスレッドへの相互参照を主要なポイントとして説明します。私は、スタイルと実質についての私の意見を述べました。それは、ここでそのメリットに立つか、または落ちることができます。
ニックコックス

9
私が科学をやっているなら、あなたが何を誤った発見をしたかはあまり気にしません。実際、特定の科学的主張をすることに関して、私が他の誤った発見をしたことをあまり気にしないかもしれません。私が科学をしていない場合、この特定の分析で私が他の誤った発見をしたかどうかさえ気にしないかもしれません-私がタイプを選択すると、2つのタイプのエラーの相対コストに基づいてエラー率が既に2つの間のトレードオフを選択しており、複数の比較を修正するべきではありません。
Glen_b -Reinstateモニカ

2
幸いなことに、他の人は私のものと同様の見解を説得力と明快さをもって提示しています。追加のコメントとして、私は科学とその文献との混同を避けることを勧めます。曖昧さ、ささいなこと、論理的な誤りなど、文学が失望する多くの方法があります。要約では、公開されたすべての偽陽性テストの考えに誰もが戸惑いますが、それらは永続的な効果を持つために信じられ、行動する必要があります。(それが麻薬裁判である場合、それは大したことになるかもしれません。)それで、心配する多くのことがあります、しかし、私は科学が運命にあるとは思いません。
ニックコックス

回答:


20

これは明らかに実際には絶対的な悪夢ですが、それができると仮定します。統計サルタンを指定し、仮説検定を実行する全員が生の値をこの専制君主に報告します。彼はある種のグローバルな(文字通り)多重比較修正を行い、修正されたバージョンで応答します。p

これは科学と理性の黄金時代の到来を告げるでしょうか?いいえ、おそらくそうではありません。


ように、1組の仮説を検討することから始めましょう。2つのグループのいくつかのプロパティを測定し、そのプロパティに関する2つの仮説を区別します。 有限サンプルでは、実際に真であっても、平均が正確に等しくなる可能性は低いです。測定誤差やその他の変動源が個々の値を押しやることがあります。ただし、H 0 グループの平均は同じです。H A グループにはさまざまな手段があります。H 0 H 0t
H0: The groups have the same mean.HA: グループにはさまざまな手段があります。
H0H0仮説はある意味「退屈」であり、研究者は通常、実際に存在しないグループ間で違いを見つけたと主張する「偽陽性」状況を回避することに関心があります。したがって、帰無仮説では結果がありそうにない場合にのみ結果を「有意」と呼び、慣例により、その可能性のしきい値は5%に設定されます。

これは単一のテストに適用されます。ここで、複数のテストを実行することに決め、それぞれのテストでを誤って受け入れる可能性が5%あると受け入れたとします。したがって、十分なテストがあれば、ほぼ間違いなくエラーが発生し始めます。H0

さまざまな複数の修正方法は、個々のテストで許容できるように既に選択した公称エラー率に戻すのに役立つことを目的としています。彼らはわずかに異なる方法でそうします。BonferroniSidak、およびHolmの手順のように、家族ごとのエラー率を制御するメソッドは、「1回のテストで5%のエラーを発生させたいので、5個以下であることを確認します。すべてのテストでエラーが発生する可能性の割合。」誤発見率を制御する方法代わりに、「1回のテストで最大5%の時間を間違えても大丈夫です。したがって、複数のテストを行うときに、「呼び出し」の5%以内が間違っていることを確認します」。(違いを見ます?)


ここで、実行したすべての仮説検定の家族単位のエラー率を制御しようとしたと仮定します。本質的に、帰無仮説を誤って拒否する可能性が5%未満であると言っています。これは不可能なほど厳しいしきい値を設定し、推論は事実上役に立たないでしょうが、さらに差し迫った問題があります:グローバルな修正は、あなたが絶対に無意味な「化合物仮説」をテストしていることを意味します

H1薬物XYZはT細胞数を変化させる ブドウはいくつかの分野で良く育ちます 男性と女性は異なる量のアイスクリームを食べる

False Discovery Rateの修正により、数値の問題はそれほど深刻ではありませんが、それでも哲学的には混乱です。代わりに、ゲノミクス研究中の候補遺伝子のリストや、スペクトル分析中の時間周波数ビンのセットなど、関連するテストの「ファミリー」を定義することは理にかなっています。特定の質問に合わせて家族を調整すると、実際に直接的な方法でタイプIのエラーを解釈できます。たとえば、自分のゲノムデータからFWERで修正されたp値のセットを見て、「これらの遺伝子のいずれかが偽陽性である可能性は5%未満である」と言うことができます。これは、気にしないトピックについて気にしない人が行った推論をカバーする曖昧な保証よりもはるかに優れています。

これの裏返しは、「家族」の適切な選択は議論の余地があり、少し主観的であるということです(すべての遺伝子は1つの家族ですか、それともキナーゼだけを検討できますか?)家族を非常に広範囲に定義することを真剣に提唱しています。


ベイズはどうですか?

ベイジアン分析は、この問題に対する一貫した代替手段を提供します。もし、フリークエンティストタイプI /タイプIIエラーフレームワークから少し離れたい場合は。私たちはいくつかの非コミットメントの前に...まあ...すべてのものから始めます。何かを学ぶたびに、その情報は事前分布と組み合わされて事後分布を生成し、それが次に何かを学ぶときの事前分布になります。これにより、一貫した更新ルールが得られ、2つの仮説の間でベイズ因子を計算することにより、特定の事柄に関する異なる仮説を比較できます。おそらく、モデルの大きな部分を除外することができますが、これは特に面倒なことではありません。

ベイジアン手法では複数回の比較修正を必要としないという永続的な...ミームがあります。残念ながら、事後オッズは、フリークエンティスト(つまり、タイプI / IIエラーを気にする人)の別の検定統計量にすぎません。これらのタイプのエラーを制御する特別なプロパティはありません(なぜでしょうか?)したがって、あなたは手に負えない領域に戻っていますが、おそらくもう少し原理に基づいています。

ベイジアンの反論は、私たちが知ることができることに焦点を合わせるべきであるということです、したがって、これらのエラー率はそれほど重要ではありません。


再現性について

あなたは、不適切な多重比較-修正が多くの不正確/再現性のない結果の背後にある理由であることを示唆しているようです。私の感覚では、他の要因が問題になる可能性が高いということです。明らかなのは、公開のプレッシャーが、仮説を強調する実験(つまり、悪い実験計画)を避けるように人々を導くということです。

たとえば、[この実験では]アムジェンの(IRの(一部)initative reproduciblity 6、それはマウスが目的の遺伝子以外の遺伝子に変異を持っていたことが判明。アンドリュー・ゲルマンはまた、について話をするのが好きだフォークパスの庭、前記研究者は、データに基づいて(合理的)分析計画を選択しますが、データが異なる見えた場合は、他の分析を行っている可能性があります。この膨張し -値多重比較と同様の方法で、しかし、その後のためにはるかに困難補正することである。露骨に間違った分析役割も果たすかもしれませんが、私の気持ち(そして希望)は、徐々に改善しているということです。p


ありがとう、マット。「統計的スルタン」のアイデアが大好きです。それでも、そのような修正を適用せずに偽発見率を制御することは可能ですか?
ケルビン

9
私はメイクにしようとしていた点は、それが心配することは意味がないということで、すべての人間の努力渡って偽発見率(またはファミリーワイズエラー率)。そうすることは非常に多くのリスク回避を必要とするので、何も成し遂げられないでしょう。代わりに、個々の実験のFDR / FWERをかなり低く保ち、興味深い/有用ななどの重要なことを再現しようとします。
マットクラウス

おかげで、最終的にはすべてが重要なものの複製に帰着すると思います。これは科学の哲学と完全に一致しており、仮説を証明することはできず、繰り返し実験することによって時間とともに強化されるだけです。
ケルビン

3
統計サルタンの場合は+1。1つの重要な考慮事項:スルタンは、p値が連続して到着するという事実をどのように処理する必要がありますか?最初に到着したお粗末なp = 0.045は重要とみなされますが、数世紀後にはチャンスがありませんか?それは理にかなっていないようです(cc to @Kelvin)。別の考慮事項:スルタンが1年と言って、この1年の結果すべてに修正を適用するとしましょう。調整されたアルファしきい値が実際に実際にどのようになるかと思います。それについてのアイデア、マット?それは(誤って!)すべての人が共通のアルファに同意することを前提としています。
アメーバは、モニカーを復活させる

2
@amoeba、それは興味深い質問であり、私にはわからない。私たちの最愛のData Despotは、すべての人に何らかのシーケンシャルデザインの使用を強制する可能性がありますが、それは役立つかもしれませんが、彼はまだこの奇妙な複合仮説をテストしています。あるいは、私たち全員がベイジアンになり、ほとんどの場合、タイプI / IIのエラートラックレコードについて心配するのをやめることができます。これは少し安上がりです(もしあなたが彼らに勝てないなら、彼らを無視してください!)、しかしそれは人々が実際にどのように振る舞うかに近いと思います。
マットクラウス

7

統計によって生み出された科学の悲観的な見方を意図的に描いていると思います。実際、私の意見では、統計は単なるp値を提供するツールのセットではありません。また、科学的誘導の手順に含まれるいくつかの考えられる影響についての厳格さ、注意、警戒の状態があります...そして、私の考えでは、あなたが述べるすべてはおおむね真実です。私たちが生み出す知識について:

  • 最初に、一般に、所定のしきい値よりも低いp値の引数の下でのみ結論に達するべきではありません。

  • 第二に、「公開された科学的結果の半分以上が間違っている」という種類の議論は関連性があり興味深いものですが、およそ0.05に等しいp値に基づいて計算されます(p値と誤発見率に関する混乱を参照) 。p値が低い場合、その効果は発表された値よりもはるかに低く、実際には、0.05よりはるかに低いp値を取得することは珍しくありません。さらに、何度も与えられた仮説は、発表された効果を再び減少させるいくつかのサブ仮説によって確認されます。

  • 第三に、再現性の問題は正真正銘ですが、交絡効果、グループ設計を特定して対処することにより、統計学者が対処しなければならない問題でもあります。

  • 最後に、私が理解しているように、典型的な統計研究は、次の5つの連続したステップに多かれ少なかれ立っている必要があります。

    Formulate one or a few hypotheses
    Design the corresponding study
    Acquire the data
    Analyse the data
    Make conclusions about the above hypotheses (and only these ones)
    

    この一般的なガイドラインは、一般的な結論を出すためのツールとしての遠征を禁じています。

結論として、p値を過剰にしきい値設定することにより、悪い科学的結論から私たちを保護するというあなたの意図は少し幻想的だと思います。警告された適切な分析を確保し、奨励することにより、悪い科学的結論から私たちを保護することを望みます(そして、これが、このサイトで他の人を助けるために多くの有資格者がここにいる理由だと思いたいです)。


2
守備に役立つとは思わない。科学における非再現性の現在の問題は、単に「興味深い」だけではなく、危機的状況にあり、特定の研究(または承認された薬の有効性さえも) )は、数十億ドルが投資されたにもかかわらず、コインフリップに勝るものはありません。
ケルビン

6
危機が存在することに同意します。私のポイントは、コインの品質を検査できるということです。すべての論文の品質が同じであるとは限りません。私の経験から、紙に欠陥があると指摘するのは簡単です。私は解決策を否定する問題を否定しません:ちょうど適切な分析を生成します:)
peuhp

わかりました、ありがとう、私はあなたの答えを尊重します。しかし、統計的な観点から、そして実験の質に関係なく、そのような修正を適用しないと、全体的な偽発見率を制御することはできませんか?
ケルビン

0

このような修正を適用せずに、誤検出率を制御することは可能ですか?

100aa

(頻度)エラー率は、個々のテストでテストされた仮説についての確率ではなく、長期的な故障率が保証されたテストを実施するための方法であることを忘れないでください。多重比較の修正は、長期的な故障率を保証するもう1つの方法です。複数のテストを含む複合メソッドを構築して、複合物の長期的な故障率を保証する方法です。

100回のテストで1回の実験を行い、そのうち5回がヌルに対して発言し、実際の結果を観察したと報告した場合、真のヌルの100回のテストのうち、5%が平均して、拒否する; 「100回のテストを実施し、いずれかが5%のしきい値を満たしている場合にレポートする」という方法では、故障率が5%よりも高くなります。したがって、複数の比較を制御し、たとえば、100個のテストのうち2個が(5/100 == 0.05)%未満のp値を持つことを報告することを選択できます。ここで、5%の保証された失敗率(仮説がなくても少なくとも1つの重要なテストを報告するエラーのため)を使用する方法を採用します。

a、未修正のしきい値)。対照的に、誰もが常に研究ごとに100の真の仮説をテストし、FEWを適用しなかった場合、重要な効果を報告する実験の数は保証エラー率5%を超えます。(FDR / False Detection Rateとは対照的です。FDR/ False Detection Rateは、真の仮説の複数のテストの研究において重要なテストを報告するレートを保証する方法ではありません。)


6
最初の段落で「誤検出率」と呼ぶものは、「誤検出率」と呼ばれるものではありません。
アメーバは、モニカーを復活させる
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.