電圧計の話を頻繁に受けているのは何ですか?


15

電圧計の話とそのバリエーションを頻繁に取り上げているのは何ですか?その背後にある考え方は、仮説的なイベントにアピールする統計分析は、それらの仮説的なイベントが想定どおりに行われなかったことが後でわかった場合に修正する必要があるということです。

ウィキペディアのストーリーバージョンは以下に提供されています。

エンジニアが電子管のランダムなサンプルを引き出し、その電圧を測定します。測定範囲は75〜99ボルトです。統計学者は、サンプル平均と真の平均の信頼区間を計算します。その後、統計学者は、電圧計が100までしか読み取らないことを発見したため、人口は「検閲」されているように見えます。統計学者が正統派の場合、これには新しい分析が必要です。しかし、エンジニアは、電圧が100を超えていた場合に使用する1000ボルトの別のメーター読み取り値があると言います。しかし、翌日、エンジニアは、この2番目のメーターが測定時に機能していなかったことを統計学者に通知します。統計学者は、メーターが修正されるまでエンジニアが測定値を保持しなかったことを確認し、新しい測定値が必要であることを彼に通知します。エンジニアは驚いています。「次に、私のオシロスコープについて尋ねます」。

話は明らかに馬鹿げていることを意図しているが、それがおもしろい方法論でどのような自由が取られているのかははっきりしていない。この場合、忙しい応用統計学者はこれについて心配することはないと思いますが、筋金入りのアカデミックなフリークエンティストはどうでしょうか?

独断的な頻度主義的アプローチを使用して、実験を繰り返す必要がありますか?すでに利用可能なデータから結論を引き出すことはできますか?

また、ストーリーで作成されたより一般的なポイントに対処するために、既に持っているデータを利用したい場合、頻度結果のフレームワークに適合するように、仮想的な結果の必要な修正を行うことができますか?


4
頻度主義的アプローチは条件付けも可能にするため、引用にある推論が十分に適切であるかどうかはわかりません。
西安

@ Xi'an計算にサンプルの検閲や2番目の電圧計の破損の可能性を組み込んだとしても、実験のデザインを実行後に変更しているという問題があります。それが頻繁な方法と調和できるかどうかはわかりません。
プラキセオティック

6
多分、Conditionality Principleでこのエントリをチェックしてください。頻度は高くありませんが、私はこの物語の大ファンではありません。なぜなら、それはそれらの範囲を定義することなく、考えられるすべての仮説的事象を統合することを暗示しているように見えるからです。これはかなり似顔絵です。
西安

5
これは確かに思慮深い議論と答えに値する。しかし、「統計学者はオーソドックスである場合」というノートを喜ば追加作業のためと無能ではないか、貪欲、元の観測値のどれもが検閲されなかったので、彼女は、手順(おそらく許容)の元の選択が、彼女はそれを述べるだろう許容ままそのために何の根拠はありませんそれを変更。「頻度論」統計の基礎となる理論的根拠である決定理論は、この「可能性の原則」には役に立たない。
whuber

1
十分なデータがあれば、私は何をすべきかを知っています。ヒストグラムを作成します。ヒストグラムを見ます。その時点で片側切り捨てヒストグラムを作成する99で明確な境界があった場合、切り捨てられたと思われます。また、切り捨てられないことがわかっているデータを調べて、それらの曲線の形状を調べ、それに合う確率モデル(ガンマ分布など)を取得できるかどうかを確認します。その後、切り捨てられたデータに戻り(仮定により)、残りのデータもガンマ分布(またはその他)であるかどうかを確認します。次に、「なぜガンマなのか」を説明する必要があります。もしそうなら、私は完了です。
カール

回答:


4

frequentist推論、我々は次の場合に何かが起こっているだろう頻度を決定したい与えられた確率過程が繰り返し実現されました。これが、p値、信頼区間などの理論の出発点です。しかし、多くの応用プロジェクトでは、「与えられた」プロセスは実際には与えられておらず、統計学者はそれを少なくとも特定し、モデリングする作業を行わなければなりません。これは、この場合のように、驚くほどあいまいな問題です。

データ生成プロセスのモデリング

与えられた情報に基づいて、私たちの最良の候補者は次のようです。

  1. 100Vメーターが100Vを示す場合、エンジニアは1000Vメーターが動作している場合、1000Vメーターで再測定します。それ以外の場合、彼は単に100Vをマークして先に進みます。

しかし、これはエンジニアにとって少し不公平ではないでしょうか?彼が単なる技術者ではなくエンジニアであると仮定すると、彼はおそらく最初のメーターが100Vを読み取ったときに再測定する必要がある理由を理解しています。これは、メーターがその範囲の上限で飽和し、信頼性がなくなったためです。おそらくエンジニアが本当にやることは

  1. 100Vメーターが100を示している場合、エンジニアは1000Vメーターが動作している場合は再測定します。それ以外の場合、彼は単に100Vをマークし、プラス記号を追加して飽和した測定値を示し、次に進みます。

これらのプロセスは両方とも、私たちが持っているデータと一致していますが、異なるプロセスであり、異なる信頼区間をもたらします。プロセス2は、統計学者として私たちが好むものです。電圧が100 Vをはるかに上回る場合、プロセス1には致命的な障害モードが発生する可能性があります。信頼区間はそれに応じて広がります。エンジニアに1000Vメーターが動作していないことを教えてもらうことでこれを緩和できますが、これはデータがプロセス2に準拠していることを確認する別の方法です。

馬がすでに納屋を離れており、測定値がいつ検閲されないのか判断できない場合、データから1000Vメーターが動作していない時間を推測することができます。プロセスに推論規則を導入することにより、1と2の両方とは異なる新しいプロセス1.5を効果的に作成します。推論規則が機能する場合と機能しない場合があるため、プロセス1.5の信頼区間はプロセス1および2。

理論的には、3つの異なるもっともらしい確率的プロセスに関連付けられた3つの異なる信頼区間を持つ単一の統計については、間違ったものや疑わしいものはありません。実際には、統計の消費者は3つの異なる信頼区間を必要としませ。彼らは、実験が何度も繰り返された場合、実際に起こったことに基づいたものを求めています。そのため、通常、適用された統計学者は、プロジェクト中に獲得したドメイン知識を考慮し、経験に基づいた推測を行い、推測したプロセスに関連する信頼区間を提示します。または、彼女は顧客と協力してプロセスを形式化するので、将来を推測する必要はありません。

新しい情報への対応方法

統計における統計学者の主張にもかかわらず、頻繁な推論では、生成する確率過程が当初考えていたものではないことを示唆する新しい情報を得るときに測定を繰り返す必要はありません。ただし、プロセスが繰り返される場合は、すべての繰り返しが信頼区間で想定されるモデルプロセスと一致していることを確認する必要があります。これを行うには、プロセスを変更するか、モデルを変更します。

プロセスを変更する場合、そのプロセスと矛盾して収集された過去のデータを破棄する必要がある場合があります。ただし、ここで問題となるのは、考慮しているプロセスの変動はすべて、データの一部が100Vを超える場合にのみ異なるため、この場合は発生しなかったためです。

何をするにしても、モデルと現実を一致させる必要があります。そうして初めて、理論的に保証された頻度の高いエラー率は、顧客がプロセスを繰り返し実行したときに実際に得られるものになります。

ベイジアンオルタナティブ

一方、このサンプルの真の平均値の可能性の範囲だけが本当に重要な場合は、頻度を完全に捨てて、その質問に対する答えを売っている人、つまりベイジアンを探す必要があります。このルートに進むと、反事実をめぐるすべての交渉は無関係になります。重要なのは、事前と可能性です。この単純化と引き換えに、「実験」の繰り返しの実行の下でエラー率を保証する希望を失います。

なぜ大騒ぎ?

この物語は、理由のない愚かなことをめぐる頻繁な統計学者のように見えるように構成されています。正直なところ、誰がこれらの愚かな反事実を気にしますか?答えは、もちろん、誰もが気にする必要があるということです。重要な科学分野は現在、深刻な複製危機に苦しんでいます。これは、誤った発見の頻度が科学文献で予想されるよりもはるかに高いことを示唆しています。この危機の原因の1つは、決して1つではありませんが、p-ハッキングの台頭です。これは、研究者がさまざまな変数を制御して、重要性が得られるまでモデルの多くのバリエーションを試すときです。

Pハッキングは、人気のある科学メディアやブロゴスフィアで広範に中傷されていますが、実際には、Pハッキングの何が悪いのか、なぜそのことを理解しているのかはほとんどありません。一般的な統計的意見に反して、モデリングプロセスの前、最中、後にデータを見ることに問題はありません。間違っているのは、探索的分析とそれらが研究のコースにどのように影響したかを報告していないことです。完全なプロセスを見ることによってのみ、どの確率モデルがそのプロセスを代表しているか、そしてもしあればそのモデルにどの頻度分析が適切かを判断することさえできます。

特定の頻度分析が適切であると主張することは、非常に深刻な主張です。その主張をすることは、あなたがあなたが選択した確率論的プロセスの規律にあなた自身を拘束していることを意味します。頻繁な保証を適用するには、実際にそのシステムに準拠する必要があります。非常に少数の研究者、特にオープンエンドの探査を強調し、システムに適合している分野の研究者は、彼らの逸脱を綿密に報告しません。これが、今、私たちの手に複製の危機がある理由です。(尊敬する研究者の中には、この期待は非現実的であり、私が同情する立場であると主張しているが、それはこの投稿の範囲を超えている。)

データが異なっていたら何をしたかについての主張に基づいて、公開された論文を批判しているのは不公平に思えるかもしれません。しかし、これは頻繁な推論の(やや逆説的な)性質です。p値の概念を受け入れる場合、代替データの下で行われることをモデル化する正当性を尊重する必要があります。(Gelman&Loken、2013)

臨床試験などの比較的単純なおよび/または標準化された研究では、多重または逐次比較のようなものを調整し、理論上のエラー率を維持できます。より複雑で探索的な研究では、研究者が行われているすべての決定を十分に意識していない可能性があるため、頻繁なモデルは適用できない場合があります、それらを明示的に記録して提示する。そのような場合、研究者は(1)何が行われたかについて正直で前もってすべきです。(2)強い注意事項があるか、まったくないp値を提示します。(3)仮説の事前の妥当性やフォローアップの複製研究など、他の証拠を提示することを検討してください。


これは良い答えのように見えますが、明日いつかそれを精神的に消化する必要があります。
プラキソライト

述べられているように問題の説明によって、エンジニアが自分のオプションを常に行っていると主張しているように聞こえます#2
Aksakal

おそらく、しかし、彼はそうはっきりとは言わなかった。人々が明示的に議論するのではなく、他の人々が考えていることを推測すると、大きなエラーが発生する可能性があります。
ポール

応用統計学コースでは、パラメータを推定することの意味の形式にあまり重点が置かれていません。コインを投げて、頭の頻度を記録することを計画しているとします。入って、実際の分布はp = q = 0.5のベルヌーイであると暗黙のうちに仮定します。1,000回反転した後、現実と理論/仮定を比較することにより、「これが公正なコインである可能性はどれほど高いか」を自問します。しかし、多くの科学では、人々は物事が正常に分布していると想定し、t検定を使用します。しかし、返品が正規に分配されない場合、これらは無意味です。
eSurfsnake

1

論理的な誤りがあるようです。1000ボルトのメーターが機能していたかどうかに関係なく、エンジニアは「読み値が100を超えていたら、もう一方のメーターを使用したはずだ」と言います。しかし、1000ボルトメーターを使用せずに、電圧が100より大きいことをどのようにして知るのでしょうか?

このパズルは、有用な哲学的質問を作成するのに十分に定式化されているとは思わない。実際には、ヒストグラムを作成し、それが切り捨てられて見えるかどうかを確認するのが正しいという答えに同意します。

しかし、いずれにせよ、問題の問題を扱うものは何もありません。たとえば、次のようなものです。(1)測定値の既知の(または疑わしい)分布は何ですか?それらが正常に配布されていると信じる理由はありますか?(2)その質問に答えられない場合、どのように信頼区間が推定されましたか?

それを極端にするために、いくつかの「電圧」が測定されています。電源が100ボルト以上を供給できないと仮定します。それが本当だったとしたら、おそらく100ボルトを超える測定値はあり得なかったので、メーターは無関係です。

事前の問題、制約などの点で、質問がカバーするよりも多くの全体があります。これは、さわやかできれいな「モンティホール」のパラドックスとは異なります。


1
物語の要点は、これらの解釈を不条理な極端に拡張することにより、仮説的なイベントに依存する確率の解釈を批判することです。あなたが言及する問題は、ポイントの横にあります。おそらく、エンジニアは必要に応じて電圧計を変更することがわかっていて(たとえば「100」の読み取り値が表示される)、統計学者は使用しているアプローチを使用する理由があります(たとえば、彼はたまたま正規分布が良いことを知っているこれらの測定値のモデル)。
プラキセオティック
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.