回答:
私は、@ fcoppensが単一の調査で複数の仮説を修正することの重要性を認めず、「同じ理由で、複数のチームがこれらのテストを実行する場合も同じことが当てはまる」と強く反対します。
より多くの研究が行われ、より多くの仮説がテストされるほど、より多くのタイプIエラーが発生することは間違いありません。しかし、ここでは、「家族ごとのエラー」率の意味と、実際の科学的研究にどのように適用されるかについて、混乱があると思います。
まず、複数のテストによる修正は通常、事前に定式化された仮説がなかった事後比較で発生したことを覚えておいてください。事前定義された小さな仮説のセットがある場合、同じ修正が必要であることはまったく明らかではありません。
第二に、個々の出版物の「科学的真実」は、出版物内の個々のステートメントの真実に依存しません。適切に設計された研究は、多くの異なる視点から(統計ではなく)全体的な科学的仮説に取り組み、さまざまなタイプの結果をまとめて科学的仮説を評価します。個々の結果は、統計的検定によって評価されます。
ただし、@ fcoppensからの議論により、これらの個々の統計的検定の1つでもタイプIのエラーが発生すると、「「科学的真実」の誤った信念」につながります。これは単に間違っています。
個々の統計的検定の有効性とは対照的に、出版物における科学的仮説の「科学的真実」は、通常、さまざまなタイプの証拠の組み合わせから生じます。複数のタイプの証拠の主張により、科学的仮説の妥当性は、必然的に発生する個々の間違いに対して堅牢になります。私は私の50かそこらの科学出版物を振り返るように、私はハードを見つけるために押されることになる任意の @fcoppensなど細部まで完璧なので、遺骨はを主張しているようです。しかし、私は同様にハード見つけるために押されています任意の場所の科学仮説は全く間違っていました。おそらく、不完全です。確かに、後の分野での開発とは無関係になりました。しかし、当時の科学知識の状況の文脈では「間違った」ものではありません。
第3に、この議論はタイプIIエラーのコストを無視しています。タイプIIエラーは、有望な科学的調査の分野全体を締めくくる可能性があります。@fcoppensの推奨事項に従った場合、タイプIIのエラー率は大幅に上昇し、科学的企業に損害を与えます。
最後に、推奨事項を実際に実行することは不可能です。公開されている一連のデータを分析すると、他の誰かがそれを使用したかどうか、またはどのような目的で使用したかを知る方法がありません。他の誰かの仮説テストを修正する方法はありません。そして、私が上で議論したように、私はする必要はありません。
統計的仮説検定では、帰無仮説を棄却することによって対立仮説の統計的証拠のみを見つけることができます。帰無を棄却することで、対立仮説を支持する証拠があると結論付けることができます。(もし私たちが帰無仮説を棄却できなかった場合はどうなるのでしょうか?)
したがって、ヌルの誤った拒否は、「科学的真実」の誤った信念であるという誤った証拠を私たちに与えます。これが、このタイプIのインフレ(タイプIエラーのほぼ2倍)を回避しなければならない理由です。タイプIのエラーが高いほど、何かが科学的に証明されているという誤った信念が含まれています。したがって、人々は家族レベルでIerror型を「コントロール」します。
同じ理由で、複数のチームがこれらのテストを(同じデータで)実行した場合も同様です。
明らかに、上記の調査結果は、私たちのチームが同じデータで作業する場合にのみ当てはまります。彼らが異なるサンプルで作業するとき、何が違うのですか?
したがって、同じデータを使用する場合、テストの結論は「悪いチャンス」で抽出されたサンプルに基づいている可能性があります。別のサンプルでは、コンテキストが異なります。