これは明らかに実際には絶対的な悪夢ですが、それができると仮定します。統計サルタンを指定し、仮説検定を実行する全員が生の値をこの専制君主に報告します。彼はある種のグローバルな(文字通り)多重比較修正を行い、修正されたバージョンで応答します。p
これは科学と理性の黄金時代の到来を告げるでしょうか?いいえ、おそらくそうではありません。
ように、1組の仮説を検討することから始めましょう。2つのグループのいくつかのプロパティを測定し、そのプロパティに関する2つの仮説を区別します。
有限サンプルでは、実際に真であっても、平均が正確に等しくなる可能性は低いです。測定誤差やその他の変動源が個々の値を押しやることがあります。ただし、
H 0: グループの平均は同じです。H A: グループにはさまざまな手段があります。H 0 H 0tH0:HA: グループの平均は同じです。 グループにはさまざまな手段があります。
H0H0仮説はある意味「退屈」であり、研究者は通常、実際に存在しないグループ間で違いを見つけたと主張する「偽陽性」状況を回避することに関心があります。したがって、帰無仮説では結果がありそうにない場合にのみ結果を「有意」と呼び、慣例により、その可能性のしきい値は5%に設定されます。
これは単一のテストに適用されます。ここで、複数のテストを実行することに決め、それぞれのテストでを誤って受け入れる可能性が5%あると受け入れたとします。したがって、十分なテストがあれば、ほぼ間違いなくエラーが発生し始めます。H0
さまざまな複数の修正方法は、個々のテストで許容できるように既に選択した公称エラー率に戻すのに役立つことを目的としています。彼らはわずかに異なる方法でそうします。Bonferroni、Sidak、およびHolmの手順のように、家族ごとのエラー率を制御するメソッドは、「1回のテストで5%のエラーを発生させたいので、5個以下であることを確認します。すべてのテストでエラーが発生する可能性の割合。」誤発見率を制御する方法代わりに、「1回のテストで最大5%の時間を間違えても大丈夫です。したがって、複数のテストを行うときに、「呼び出し」の5%以内が間違っていることを確認します」。(違いを見ます?)
ここで、実行した
すべての仮説検定の家族単位のエラー率を制御しようとしたと仮定します。本質的に、帰無仮説を誤って拒否する可能性が5%未満であると言っています。これは不可能なほど厳しいしきい値を設定し、推論は事実上役に立たないでしょうが、さらに差し迫った問題があります:グローバルな修正は、あなたが絶対に無意味な「化合物仮説」をテストしていることを意味します
H1:薬物XYZはT細胞数を変化させる ∧ブドウはいくつかの分野でより良く成長します ∧… ∧ … ∧ … ∧ … ∧男性と女性は異なる量のアイスクリームを食べる
False Discovery Rateの修正により、数値の問題はそれほど深刻ではありませんが、それでも哲学的には混乱です。代わりに、ゲノミクス研究中の候補遺伝子のリストや、スペクトル分析中の時間周波数ビンのセットなど、関連するテストの「ファミリー」を定義することは理にかなっています。特定の質問に合わせて家族を調整すると、実際に直接的な方法でタイプIのエラーを解釈できます。たとえば、自分のゲノムデータからFWERで修正されたp値のセットを見て、「これらの遺伝子のいずれかが偽陽性である可能性は5%未満である」と言うことができます。これは、気にしないトピックについて気にしない人が行った推論をカバーする曖昧な保証よりもはるかに優れています。
これの裏返しは、「家族」の適切な選択は議論の余地があり、少し主観的であるということです(すべての遺伝子は1つの家族ですか、それともキナーゼだけを検討できますか?)家族を非常に広範囲に定義することを真剣に提唱しています。
ベイズはどうですか?
ベイジアン分析は、この問題に対する一貫した代替手段を提供します。もし、フリークエンティストタイプI /タイプIIエラーフレームワークから少し離れたい場合は。私たちはいくつかの非コミットメントの前に...まあ...すべてのものから始めます。何かを学ぶたびに、その情報は事前分布と組み合わされて事後分布を生成し、それが次に何かを学ぶときの事前分布になります。これにより、一貫した更新ルールが得られ、2つの仮説の間でベイズ因子を計算することにより、特定の事柄に関する異なる仮説を比較できます。おそらく、モデルの大きな部分を除外することができますが、これは特に面倒なことではありません。
ベイジアン手法では複数回の比較修正を必要としないという永続的な...ミームがあります。残念ながら、事後オッズは、フリークエンティスト(つまり、タイプI / IIエラーを気にする人)の別の検定統計量にすぎません。これらのタイプのエラーを制御する特別なプロパティはありません(なぜでしょうか?)したがって、あなたは手に負えない領域に戻っていますが、おそらくもう少し原理に基づいています。
ベイジアンの反論は、私たちが今知ることができることに焦点を合わせるべきであるということです、したがって、これらのエラー率はそれほど重要ではありません。
再現性について
あなたは、不適切な多重比較-修正が多くの不正確/再現性のない結果の背後にある理由であることを示唆しているようです。私の感覚では、他の要因が問題になる可能性が高いということです。明らかなのは、公開のプレッシャーが、仮説を強調する実験(つまり、悪い実験計画)を避けるように人々を導くということです。
たとえば、[この実験では]アムジェンの(IRの(一部)initative reproduciblity 6、それはマウスが目的の遺伝子以外の遺伝子に変異を持っていたことが判明。アンドリュー・ゲルマンはまた、について話をするのが好きだフォークパスの庭、前記研究者は、データに基づいて(合理的)分析計画を選択しますが、データが異なる見えた場合は、他の分析を行っている可能性があります。この膨張し -値多重比較と同様の方法で、しかし、その後のためにはるかに困難補正することである。露骨に間違った分析役割も果たすかもしれませんが、私の気持ち(そして希望)は、徐々に改善しているということです。p