でfrequentist推論、我々は次の場合に何かが起こっているだろう頻度を決定したい与えられた確率過程が繰り返し実現されました。これが、p値、信頼区間などの理論の出発点です。しかし、多くの応用プロジェクトでは、「与えられた」プロセスは実際には与えられておらず、統計学者はそれを少なくとも特定し、モデリングする作業を行わなければなりません。これは、この場合のように、驚くほどあいまいな問題です。
データ生成プロセスのモデリング
与えられた情報に基づいて、私たちの最良の候補者は次のようです。
- 100Vメーターが100Vを示す場合、エンジニアは1000Vメーターが動作している場合、1000Vメーターで再測定します。それ以外の場合、彼は単に100Vをマークして先に進みます。
しかし、これはエンジニアにとって少し不公平ではないでしょうか?彼が単なる技術者ではなくエンジニアであると仮定すると、彼はおそらく最初のメーターが100Vを読み取ったときに再測定する必要がある理由を理解しています。これは、メーターがその範囲の上限で飽和し、信頼性がなくなったためです。おそらくエンジニアが本当にやることは
- 100Vメーターが100を示している場合、エンジニアは1000Vメーターが動作している場合は再測定します。それ以外の場合、彼は単に100Vをマークし、プラス記号を追加して飽和した測定値を示し、次に進みます。
これらのプロセスは両方とも、私たちが持っているデータと一致していますが、異なるプロセスであり、異なる信頼区間をもたらします。プロセス2は、統計学者として私たちが好むものです。電圧が100 Vをはるかに上回る場合、プロセス1には致命的な障害モードが発生する可能性があります。信頼区間はそれに応じて広がります。エンジニアに1000Vメーターが動作していないことを教えてもらうことでこれを緩和できますが、これはデータがプロセス2に準拠していることを確認する別の方法です。
馬がすでに納屋を離れており、測定値がいつ検閲されないのか判断できない場合、データから1000Vメーターが動作していない時間を推測することができます。プロセスに推論規則を導入することにより、1と2の両方とは異なる新しいプロセス1.5を効果的に作成します。推論規則が機能する場合と機能しない場合があるため、プロセス1.5の信頼区間はプロセス1および2。
理論的には、3つの異なるもっともらしい確率的プロセスに関連付けられた3つの異なる信頼区間を持つ単一の統計については、間違ったものや疑わしいものはありません。実際には、統計の消費者は3つの異なる信頼区間を必要としません。彼らは、実験が何度も繰り返された場合、実際に起こったことに基づいたものを求めています。そのため、通常、適用された統計学者は、プロジェクト中に獲得したドメイン知識を考慮し、経験に基づいた推測を行い、推測したプロセスに関連する信頼区間を提示します。または、彼女は顧客と協力してプロセスを形式化するので、将来を推測する必要はありません。
新しい情報への対応方法
統計における統計学者の主張にもかかわらず、頻繁な推論では、生成する確率過程が当初考えていたものではないことを示唆する新しい情報を得るときに測定を繰り返す必要はありません。ただし、プロセスが繰り返される場合は、すべての繰り返しが信頼区間で想定されるモデルプロセスと一致していることを確認する必要があります。これを行うには、プロセスを変更するか、モデルを変更します。
プロセスを変更する場合、そのプロセスと矛盾して収集された過去のデータを破棄する必要がある場合があります。ただし、ここで問題となるのは、考慮しているプロセスの変動はすべて、データの一部が100Vを超える場合にのみ異なるため、この場合は発生しなかったためです。
何をするにしても、モデルと現実を一致させる必要があります。そうして初めて、理論的に保証された頻度の高いエラー率は、顧客がプロセスを繰り返し実行したときに実際に得られるものになります。
ベイジアンオルタナティブ
一方、このサンプルの真の平均値の可能性の範囲だけが本当に重要な場合は、頻度を完全に捨てて、その質問に対する答えを売っている人、つまりベイジアンを探す必要があります。このルートに進むと、反事実をめぐるすべての交渉は無関係になります。重要なのは、事前と可能性です。この単純化と引き換えに、「実験」の繰り返しの実行の下でエラー率を保証する希望を失います。
なぜ大騒ぎ?
この物語は、理由のない愚かなことをめぐる頻繁な統計学者のように見えるように構成されています。正直なところ、誰がこれらの愚かな反事実を気にしますか?答えは、もちろん、誰もが気にする必要があるということです。重要な科学分野は現在、深刻な複製危機に苦しんでいます。これは、誤った発見の頻度が科学文献で予想されるよりもはるかに高いことを示唆しています。この危機の原因の1つは、決して1つではありませんが、p-ハッキングの台頭です。これは、研究者がさまざまな変数を制御して、重要性が得られるまでモデルの多くのバリエーションを試すときです。
Pハッキングは、人気のある科学メディアやブロゴスフィアで広範に中傷されていますが、実際には、Pハッキングの何が悪いのか、なぜそのことを理解しているのかはほとんどありません。一般的な統計的意見に反して、モデリングプロセスの前、最中、後にデータを見ることに問題はありません。間違っているのは、探索的分析とそれらが研究のコースにどのように影響したかを報告していないことです。完全なプロセスを見ることによってのみ、どの確率モデルがそのプロセスを代表しているか、そしてもしあればそのモデルにどの頻度分析が適切かを判断することさえできます。
特定の頻度分析が適切であると主張することは、非常に深刻な主張です。その主張をすることは、あなたがあなたが選択した確率論的プロセスの規律にあなた自身を拘束していることを意味します。頻繁な保証を適用するには、実際にそのシステムに準拠する必要があります。非常に少数の研究者、特にオープンエンドの探査を強調し、システムに適合している分野の研究者は、彼らの逸脱を綿密に報告しません。これが、今、私たちの手に複製の危機がある理由です。(尊敬する研究者の中には、この期待は非現実的であり、私が同情する立場であると主張しているが、それはこの投稿の範囲を超えている。)
データが異なっていたら何をしたかについての主張に基づいて、公開された論文を批判しているのは不公平に思えるかもしれません。しかし、これは頻繁な推論の(やや逆説的な)性質です。p値の概念を受け入れる場合、代替データの下で行われることをモデル化する正当性を尊重する必要があります。(Gelman&Loken、2013)
臨床試験などの比較的単純なおよび/または標準化された研究では、多重または逐次比較のようなものを調整し、理論上のエラー率を維持できます。より複雑で探索的な研究では、研究者が行われているすべての決定を十分に意識していない可能性があるため、頻繁なモデルは適用できない場合があります、それらを明示的に記録して提示する。そのような場合、研究者は(1)何が行われたかについて正直で前もってすべきです。(2)強い注意事項があるか、まったくないp値を提示します。(3)仮説の事前の妥当性やフォローアップの複製研究など、他の証拠を提示することを検討してください。