家族ごとのエラー境界：独立した質問のさまざまな研究でデータセットを再利用すると、複数のテスト問題が発生しますか

研究者のチームが特定のデータセットに対して複数の（仮説）テストを実行する場合、テストが独立していても、複数のテスト（Bonferroniなど）に対して何らかの修正を使用する必要があると主張する大量の文献があります。私の質問はこれです：この同じロジックは、同じデータセットで仮説をテストする複数のチームに適用されますか？別の言い方をすると、家族ごとの誤差計算の障壁は何ですか？研究者は探査のためだけにデータセットを再利用することに制限されるべきですか？

hypothesis-testing multiple-comparisons

— toypajme
ソース

回答:

私は、@ fcoppensが単一の調査で複数の仮説を修正することの重要性を認めず、「同じ理由で、複数のチームがこれらのテストを実行する場合も同じことが当てはまる」と強く反対します。

より多くの研究が行われ、より多くの仮説がテストされるほど、より多くのタイプIエラーが発生することは間違いありません。しかし、ここでは、「家族ごとのエラー」率の意味と、実際の科学的研究にどのように適用されるかについて、混乱があると思います。

まず、複数のテストによる修正は通常、事前に定式化された仮説がなかった事後比較で発生したことを覚えておいてください。事前定義された小さな仮説のセットがある場合、同じ修正が必要であることはまったく明らかではありません。

第二に、個々の出版物の「科学的真実」は、出版物内の個々のステートメントの真実に依存しません。適切に設計された研究は、多くの異なる視点から（統計ではなく）全体的な科学的仮説に取り組み、さまざまなタイプの結果をまとめて科学的仮説を評価します。個々の結果は、統計的検定によって評価されます。

ただし、@ fcoppensからの議論により、これらの個々の統計的検定の1つでもタイプIのエラーが発生すると、「「科学的真実」の誤った信念」につながります。これは単に間違っています。

個々の統計的検定の有効性とは対照的に、出版物における科学的仮説の「科学的真実」は、通常、さまざまなタイプの証拠の組み合わせから生じます。複数のタイプの証拠の主張により、科学的仮説の妥当性は、必然的に発生する個々の間違いに対して堅牢になります。私は私の50かそこらの科学出版物を振り返るように、私はハードを見つけるために押されることになる任意の @fcoppensなど細部まで完璧なので、遺骨はを主張しているようです。しかし、私は同様にハード見つけるために押されています任意の場所の科学仮説は全く間違っていました。おそらく、不完全です。確かに、後の分野での開発とは無関係になりました。しかし、当時の科学知識の状況の文脈では「間違った」ものではありません。

第3に、この議論はタイプIIエラーのコストを無視しています。タイプIIエラーは、有望な科学的調査の分野全体を締めくくる可能性があります。@fcoppensの推奨事項に従った場合、タイプIIのエラー率は大幅に上昇し、科学的企業に損害を与えます。

最後に、推奨事項を実際に実行することは不可能です。公開されている一連のデータを分析すると、他の誰かがそれを使用したかどうか、またはどのような目的で使用したかを知る方法がありません。他の誰かの仮説テストを修正する方法はありません。そして、私が上で議論したように、私はする必要はありません。

— EdM
ソース

「前向き」にしたかったので、質問に賞金を与えました。私がそうしたかったのは、十分な注意が払われていないためだと思います。そして、明らかに、私の回答で経験したように、それについて「議論」はもうありません。あなたは（1）を取得して示すように、それは、興味深い議論かもしれ

@fcoppensこの「前払い」をもたらしてくれてありがとう

— EdM

この投稿以降、私はこのトピックについても取り上げた、ザルツバーグによる「分類子の比較：避けるべき落とし穴と推奨されるアプローチ」（cs.ru.nl/~tomh/onderwijs/lrs/lrs_files/salzberg97comparing）というすばらしい論文を見つけました。 pdf）。議論に感謝します。このタイプの質問は、統計と機械学習/この投稿で説明されている他の応用フィールドの間の格差をもたらします：stats.stackexchange.com/questions/1194/… ....

— toypajme

ブレイマンの論文もこのトピックを取り上げています：projecteuclid.org/euclid.ss/1009213726。これらの論文が、このトピックに関する現在の研究や公開された議論に関心を持っている人にとって、簡単な参考になることを願っています。

— toypajme 2015

α = 0.05

$\alpha=0.05$

$\alpha=5\%$ $H_0^{(1)}$ $H_1^{(1)}$ $H_0^{(2)}$ $H_1^{(2)}$

$H_0^{(1)}$ $\alpha=5\%$

$1 - (1-\alpha)^2$ $\alpha=5\%$ $9.75\%$

統計的仮説検定では、帰無仮説を棄却することによって対立仮説の統計的証拠のみを見つけることができます。帰無を棄却することで、対立仮説を支持する証拠があると結論付けることができます。（もし私たちが帰無仮説を棄却できなかった場合はどうなるのでしょうか？）

したがって、ヌルの誤った拒否は、「科学的真実」の誤った信念であるという誤った証拠を私たちに与えます。これが、このタイプIのインフレ（タイプIエラーのほぼ2倍）を回避しなければならない理由です。タイプIのエラーが高いほど、何かが科学的に証明されているという誤った信念が含まれています。したがって、人々は家族レベルでIerror型を「コントロール」します。

$5\%$

同じ理由で、複数のチームがこれらのテストを（同じデータで）実行した場合も同様です。

明らかに、上記の調査結果は、私たちのチームが同じデータで作業する場合にのみ当てはまります。彼らが異なるサンプルで作業するとき、何が違うのですか？

$\sigma$ $H_0: \mu = 0$ $H_1: \mu \ne 0$ $\alpha=5\%$

$o$ $1.96\sigma$ $-1.96\sigma$

$5\%$ $H_0$ $H_0$ $\mu=0$ $H_0$ $o \not \in [-1.96\sigma;1.96\sigma$ $H_0$

したがって、同じデータを使用する場合、テストの結論は「悪いチャンス」で抽出されたサンプルに基づいている可能性があります。別のサンプルでは、コンテキストが異なります。

— コミュニティ
ソース

私は科学的証拠に関して「証明」を使うのが好きではありません。

— Alexis

@Alexis：確かに英語は私の母国語ではないからですが、「証拠」と「証明」は同義語のようなものだと思いましたが、そうではないようです。

私の意見では、正式な「証明」は数学に属しています。または、それほど正式ではないが、法学に属している。私にとって証明は科学に属していません。それは探究の終わりと教義の始まりを意味し、科学は根本的に探究についてです。たとえば、英語（および米国）では、反進化の個人が「生物学的進化は単なる理論であり、科学的に証明されていません」と言うレトリックゲームがあります。もちろん、その秘訣は、科学が決して証明されず、証拠を提供するだけであることをリスナーに忘れさせることです。

— Alexis