このxkcdコミック(フリークエンティスト対ベイジアン)は、明らかに間違った結果を導き出す頻度の高い統計学者をからかいます。
しかし、彼の推論は標準的な頻度主義の方法論に従うという意味で実際に正しいように思えます。
私の質問は、「彼は頻繁な方法論を正しく適用しているのですか?」です。
- 「いいえ」の場合:このシナリオで正しい頻度の推論は何ですか?太陽熱安定性に関する「事前知識」を頻繁な方法論に統合するには?
- はいの場合:wtf?;-)
このxkcdコミック(フリークエンティスト対ベイジアン)は、明らかに間違った結果を導き出す頻度の高い統計学者をからかいます。
しかし、彼の推論は標準的な頻度主義の方法論に従うという意味で実際に正しいように思えます。
私の質問は、「彼は頻繁な方法論を正しく適用しているのですか?」です。
回答:
主な問題は、最初の実験(Sun gone nova)が反復可能でないことです。このため、確率を、イベントがどれくらいの頻度で与えているかの推定として解釈し、何度も実験を繰り返すことができる頻度論の方法論には非常に不適切です。対照的に、ベイジアン確率は、利用可能なすべての事前知識を提供する私たちの信念の程度として解釈され、1回限りの出来事に関する常識的な推論に適しています。サイコロ投げの実験は再現可能ですが、フリークエンシストが最初の実験の影響を意図的に無視し、得られた結果の重要性に自信を持っていることはほとんどありません。
著者は再現性のある実験への頻繁な依存と事前の不信を模倣しているように見えますが、実験セットアップの不適性を頻繁な方法論に与えているように見えますが、この漫画の本当のテーマは頻繁な方法論ではなく、一般的に不適切な方法論の盲目的なフォローです。面白いかどうかはあなた次第です(私にとってはそうです)が、2つのアプローチの違いを明らかにするよりも誤解を招くと思います。
私が見る限り、これまでのところ、頻度主義者のビットは合理的です:
してみましょう太陽が爆発していないと仮定することそれが持っているという仮説をすること。したがって、p値は下で結果(マシンが「yes」と言っている)を観察する確率です。ニュートリノの不在の存在をマシンが正しく検出すると仮定すると、マシンが下で「はい」と言った場合、それはマシンが2つの6を回転させた結果、私たちに横たわっているためです。したがって、p値は1/36であるため、通常の準フィッシャーの科学的慣行に従って、頻度主義者は有意性の95%レベルで帰無仮説を拒否します。H 1 H 0 H 0
ただし、帰無仮説を棄却しても、対立仮説を受け入れる資格があるわけではないため、分析によって頻度主義者の結論は正当化されません。頻繁な仮説検定は、偽造(一種の)の概念を具体化するものであり、何も真実ではないことを証明するだけで、反証するだけです。あなたが主張したいのであれば、あなたが想定し真であり、あなたがいることを示すことができた場合にのみ続行データと矛盾しています。ただし、それはが真であることを意味するものではなく、テストを生き延び、少なくとも次のテストまで実行可能な仮説として継続するというだけです。H 0 H 0 H 1
ベイジアンも単に常識であり、賭けをすることによって失うものは何もないことに留意します。偽陽性と偽陰性のコストを考慮すると(Neyman-Peason?)、長期的な利益という点で最良の戦略であると同じ結論が導かれることになると確信しています。
要約すると:ここでは、フリークエンシーとベイジアンの両方がずさんです:適切なレベルの重要性、偽陽性/偽陰性のコスト、または問題の物理学(つまり、常識を使わない)を考慮せずにレシピを盲目的にフォローするフリークエンシー。ベイジアンは自分の事前分布を明示的に述べていないためだらしているが、再び常識を使用して、彼が使用している事前分布は明らかに正しい(実際に爆発した太陽よりも機械が横たわっている可能性がはるかに高い)ため、ずさんなことはおそらく許される。
この結果が「間違っている」ように見えるのはなぜですか?ベイジアンは、太陽がいつ爆発するかについて「事前の」信念を持っているため、結果は直観に反すると思われます。コイン投げ)。しかし、頻度の高い人はそのような評価をすることができます、彼は単に信念とは対照的に、データのコンテキストでそれをしなければなりません。
パラドックスの本当の原因は、実行される頻繁な統計テストが利用可能なすべてのデータを考慮していないという事実です。コミックの分析に問題はありませんが、太陽が長時間爆発しない可能性が最も高いことがわかっているため、結果は奇妙に見えます。しかし、これをどのように知っていますか?なぜなら、太陽がいつ爆発するかを制限できる測定、観測、およびシミュレーションを行ったからです。したがって、私たちの完全な知識は、これらの測定値とデータポイントを考慮に入れる必要があります。
ベイジアン分析では、これらの測定値を使用して事前分布を構築します(ただし、測定値を事前分布に変換する手順は明確に定義されていません。ある時点で初期事前分布が必要です。方法」)。そのため、ベイジアンが自分の事前分布を使用するとき、彼は頻繁に、頻度分析者のp値分析では得られない多くの追加情報を考慮しています。
したがって、対等な立場を保つために、問題の完全な頻度分析には、ベイジアン事前分布の構築に使用される太陽爆発に関する同じ追加データを含める必要があります。しかし、頻繁に使用するのではなく、頻度を使用して、他の測定値を組み込むために使用する可能性を単純に拡張し、その完全な可能性を使用してp値を計算します。
L(マシンはい| Sunは爆発した)*(太陽に関する他のすべてのデータ| Sunは爆発した)
完全な頻度分析では、尤度の2番目の部分がより制約的であり、p値計算への支配的な貢献になることがほとんどの場合示されます(太陽に関する豊富な情報と、この情報に関するエラーがあるため)小さい(できれば))。
実際には、頻繁に計算を行うために過去500年から取得したすべてのデータポイントを収集する必要はありません。太陽が爆発したかどうかの不確実性をエンコードする単純な尤度項としてそれらを近似できます。これはベイジアンの事前に似ていますが、可能性があるため、哲学的にわずかに異なります。つまり、事前の信念をエンコードする事前とは対照的に、以前の測定値をエンコードすることを意味します。この新しい用語は尤度の一部となり、信頼区間または事後確率を形成するために統合されるベイズ事前分布とは対照的に、信頼区間(またはp値など)を構築するために使用されます。
私が見る最大の問題は、導出された検定統計がないことです。値のために(ベイズ統計は、それに対して取り付けることが全ての批評を有する)-value検定統計量のとして定義されている(、統計の場合のように、値が大きい場合はnullが拒否されると仮定します)。より重要な決定に到達する必要がある場合は、重要な値を増やして拒否領域をさらに押し上げることができます。事実上、これはBonferroniのような複数のテスト修正が行うことであり、に対してはるかに低いしきい値を使用するように指示します。T T P R O B [ T ≥のT | H 0 ] T χ 2 P 0 、1 / 36 、2 / 36 、...値。代わりに、のグリッド上のサイズのテストを頻繁に行う統計学者がここで立ち往生しています。
もちろん、この「頻度の高い」アプローチは非科学的であり、結果はほとんど再現できません。太陽が超新星になると、超新星のままになるため、検出器は何度も「はい」と発声し続ける必要があります。ただし、このマシンを繰り返し実行しても、「はい」の結果が再び得られることはほとんどありません。これは、自分自身を厳密なものとして提示し、実験結果を再現しようとする分野で認識されています...私が理解している限り、確率は5%の間です一部の医療分野では約30〜40%です。メタ分析の人々はより良い数字であなたを埋めることができます、これは統計グレープバインを通して時々私に出くわす単なる話題です。
「適切な」頻度主義の観点からのもう1つの問題は、サイコロを振るのが最も低いテストであり、パワー=有意水準(低くない場合。5%の有意水準で2.7%の電力は自慢できません)です。T検定のネイマンピアソン理論は、これがUMPTであることを実証することに苦しみます。テストは、特定のクラスで最も強力なテストです。(クレジット:@Dikran Marsupialはコメントの1つで権力の問題に言及しました。)
これがあなたを困らせるかどうかはわかりませんが、ベイジアン統計学者は数学を知らず、ギャンブルの問題がある人としてここに示されています。適切なベイジアン統計学者は、事前確率を仮定し、その客観性の程度について議論し、事後確率を導き出し、データからどれだけ学んだかを示します。いずれも行われなかったため、ベイジアンプロセスは、頻度の高いプロセスと同じくらい単純化されています。
この状況は、がんの問題に対する古典的なスクリーニングを実証しています(そして、生物統計学者はそれを私ができるよりもうまく説明できると確信しています)。不完全な機器で希少疾患をスクリーニングすると、ほとんどの陽性は偽陽性であることがわかります。賢い統計学者はそれを知っており、安価で汚れたスクリーナーをより高価でより正確な生検で追跡することをよく知っています。
このコミックには何の問題もありません。その理由は統計とは関係ありません。それは経済です。頻度が正しければ、地球は48時間以内に住むことができなくなります。50 ドルの値は事実上nullになります。これを認識しているベイジアンは、通常の場合は自分の利益が50 ドルであり、太陽が爆発した場合はほとんど利益がないことを賭けに賭けることができます。
ニュートリノは光よりも速くないとCERNが判断したため、ニュートリノの変化に気付く前に、電磁放射の衝撃波が地球に衝突します。これは、少なくとも(非常に短期的に)壮観なオーロラ効果を持つでしょう。したがって、それが暗いという事実は、空が明るくなるのを妨げません。月が過度に明るく輝いていること(ラリーニヴェンの「Inconstant Moon」を参照)と、人工衛星が気化して自己燃焼したときの壮大な閃光。
すべてのすべて-おそらく間違ったテスト?(そして、以前はあったかもしれないが、事後の現実的な決定のための時間は不十分だろう。
ここでのすべての詳細な回答の中で失われる可能性のある簡単な点は、頻度の高い人が単一のサンプルに基づいて結論を出していることです。実際には、これを行うことはありません。
有効な結論に達するには、統計的に有意なサンプルサイズが必要です(言い換えれば、科学は再現可能である必要があります)。そのため、実際には、フリークエンティストはマシンを複数回実行し、結果のデータについて結論を出します。
おそらくこれは、マシンに同じ質問をさらに数回尋ねることを伴うでしょう。そして、マシンが間違っている場合、おそらく36回のうち1回だけ明確なパターンが現れます。そして、そのパターンから(1回の読み取りからではなく)頻度論者は、太陽が爆発したかどうかに関して(かなり正確な、私が言うでしょう)結論を導き出します。
あなたの質問に対する答え:「彼は頻繁な方法論を正しく適用していますか?」いいえ、彼は頻繁なアプローチを正確に適用していません。この問題のp値は、正確に1/36ではありません。
最初に、関係する仮説が
H0:太陽は爆発していません。
H1:太陽が爆発しました。
次に、
p値= P( "マシンはyesを返します" | Sunは爆発していません)。
この確率を計算するには、「マシンがyesを返す」は「ニュートリノ検出器が太陽の爆発を測定し、真の結果を伝える、またはニュートリノ検出器が太陽の爆発を測定せず、私たちに嘘をつく」と同等であることに注意する必要があります。
サイコロの投げがニュートリノ検出器の測定値に依存しないと仮定すると、以下を定義することでp値を計算できます。
p0 = P(「ニュートリノ検出器は太陽の爆発を測定する」|太陽は爆発しなかった)、
次に、p値は
p値= p0 x 35/36 +(1-p0)x 1/36 =(1/36)x(1+ 34 x p0)。
この問題の場合、p値は1/36〜35/36の数値です。p値は、p0 = 0の場合にのみ1/36に等しくなります。つまり、この漫画の隠された前提は、太陽が爆発していなければ、検出機は太陽の爆発を決して測定しないということです。
さらに、アノーバ爆発の外部証拠に関する可能性には、さらに多くの情報を挿入する必要があります。
ではごきげんよう。
私は、頻度主義者のアプローチには何の問題も見ていません。帰無仮説が棄却された場合、p値はタイプ1エラーの確率です。タイプ1エラーは、真の帰無仮説を拒否しています。この場合、p値は0.028です。これは、これまで実施されたこのp値を使用したすべての仮説検定の中で、100のうち約3が真の帰無仮説を棄却することを意味します。構造上、これはそれらのケースの1つです。多くの場合、真の帰無仮説を拒否したり、偽の帰無仮説(タイプ2エラー)を保持したりすることを頻繁に受け入れます。さらに、彼らは長期的に誤った推論の頻度を正確に定量化します。
おそらく、この結果を見るのにそれほど混乱しない方法は、仮説の役割を交換することです。2つの仮説は単純なので、これは簡単です。nullが太陽が新星になったことである場合、p値は35/36 = 0.972です。これは、これは太陽が新星になったという仮説に対する証拠ではないことを意味するため、この結果に基づいてそれを拒否することはできません。これはより合理的なようです。あなたが考えているなら。なぜ太陽が新星になったと思うのでしょうか?お願いします 太陽が爆発するという考えがばかげているように思えるのに、なぜ誰もそのような実験を行うのでしょうか?
これは、実験の有用性を事前に評価する必要があることを示しているだけだと思います。たとえば、この実験は、空を見上げただけですでにわかっていることをテストするため、まったく役に立ちません(これは、事実上ゼロのp値を生成するはずです)。優れた実験を設計することは、優れた科学を生み出すための要件です。実験の設計が不十分である場合、使用する統計的推論ツールに関係なく、結果は有用ではありません。
太陽熱安定性に関する「事前知識」を頻繁な方法論に統合するには?
非常に興味深いトピック。
完全な分析ではなく、いくつかの考えを示します...
情報量の少ない事前確率でベイジアンアプローチを使用すると、通常、頻度の高いものに匹敵する統計的推論が提供されます。
なぜベイジアンは太陽が爆発しなかったという強い事前の信念を持っているのですか?なぜなら、彼は皆が太陽が最初から爆発したことがないことを知っているからです。
共役事前分布を使用したいくつかの簡単な統計モデルでは、事前分布を使用することは、非情報的事前および予備実験から導出された事後分布を使用することと同等であることがわかります。
上記の文は、予備実験の結果をモデルに含めることにより、頻度論者がベイジアンであると結論付ける必要があることを示唆しています。これが、ベイジアンが実際に行っていることです。彼の事前経験は、予備実験の知識から来ています!
θ θ X 1、··· 、XのN個の Y 1 N Y = { はい} θ θ。そして、ベイジアンはについての事前の分布を通してこの情報を反映するつもりです。
この観点から、仮説検定の観点から質問を言い換える方法はわかりません。を取ることは意味がありそれは私の解釈では実験の問題であり、真/偽の仮説ではないからです。たぶんこれはフリークエンティストの誤りでしょうか?
私の見解では、より正確な頻度分析は次のようになります。H0:太陽が爆発し、機械が真実を語っています。H1:太陽は爆発せず、機械は横たわっています。
ここでのp値は= P(sunexplosed)です。p(マシンは真実を語っています)= 0.97。P(太陽が爆発した)
統計学者は、2番目の確率の性質を知らずに何も結論付けることはできません。
星のような太陽は超新星に爆発しないため、P(太陽の爆発)は0であることがわかっています。