回答:
公正なコインを想定すると、10000表と10000尾の結果は、実際には10093頭と9907尾の結果よりも可能性が高くなります。
ただし、実際の実験者が同数の表と裏を取得する可能性は低いと言う場合、ベイズの定理を暗黙的に呼び出しています。実際の実験についてのあなたの以前の信念は、Prob(20000回の頭数= 10000 |実験者が偽物ではないことを考えると)は0に近いということです。したがって、「頭数= 10000」という実際の結果を見るとProb(Experimenterが偽物ではない|観察された10000ヘッドの結果)の後方も0に近くなります。したがって、実験者がデータを偽っていると結論付けます。
私はスリカントの説明が好きで、ベイジアンの考えはおそらくこのような問題に取り組む最良の方法だと思います。しかし、これはベイズなしでそれを見る別の方法です:(R)
dbinom(10, size = 20, prob = 0.5)/dbinom(10000, 20000, 0.5)
私のシステムでは約31.2です。言い換えれば、どちらの場合でも、公正なコインを使用しても、20,000のうち10,000を表示するよりも、20のうち10を表示する可能性が30倍以上高くなります。この比率は、サンプルサイズが増加するにつれて制限なく増加します。
これは一種の尤度比アプローチですが、やはり、私の直感では、これは何よりもベイジアンの判断の呼びかけのように感じられます。
subjectivistベイズ引数は、事実上、あなたの理解に取り掛かることができ(統計的観点からの)唯一の方法である直感適切に話す- -の対象となり、心理的な調査ではなく、統計的なものを。ただし、ベイジアンアプローチを使用して調査官がデータを偽造したと主張することは、明らかに不公平であり、したがって無効です。これの論理は完全に循環的です:「結果についての私の以前の信念に基づいて、私はあなたの結果が信じられないほどであるので、あなたはだまされたにちがいない」と言うことになります。このような非論理的な利己的な議論は、法廷や査読プロセスでは明らかに立たないでしょう。
代わりに、メンデルの実験に対するロナルドフィッシャーの批評からヒントを得て、正式な仮説検定を行うことができます。もちろん、結果に基づいて事後仮説をテストすることは無効です。しかし、実験は信じられるために再現されなければなりません:それは科学的方法の信条です。したがって、偽装されたと思われる1つの結果を見て、適切な仮説を立てて将来の(または追加の)結果をテストすることができます。この場合、クリティカル領域は予想に非常に近い一連の結果で構成されます。たとえば、でのテスト= 5%レベルでは、9,996から10,004までの結果が疑わしいものとして表示されます。これは、(a)このコレクションが私たちの仮説の「偽造」結果に近いこと、および(b)偽造がないという帰無仮説(法廷で有罪が証明されるまで無実である!) 、この範囲の結果は、発生する可能性が5%(実際には5.07426%)です。さらに、この見かけ上アドホックなアプローチを、観察された比率と期待された比率の間の偏差を二乗し、次に片側検定でネイマン・ピアソン補題を呼び出すだけで、カイ二乗コンテキスト(フィッシャー)に置くことができます。尾が低く、正規近似を二項分布に適用します。
そのようなテストは偽物を証明することはできませんが、その実験者からの将来のレポートに適用して、主張の信頼性を評価することができます。 これは、ベイジアンの議論を呼んで完全に無実で、たまたま運が悪かったために美しい実験結果を得た人を巻き込むよりもはるかに公平で厳格です!
あなたの直感に欠陥があると思います。単一の「非常に特別な」結果(正確には10000ヘッド)と多くの結果のセット(すべての「特別でない」ヘッドの数が10000に近い)を暗黙的に比較しているようです。ただし、「特別」の定義は、心理学に基づく任意の選択です。2進数の10000000000000(10進数の8192)またはHex ABC(10進数の2748)はどうでしょうか。Joris Meysがコメントしたように、ベイズの議論は基本的にどの頭数でも同じであり、それぞれの結果は疑わしいものであると示唆しています。
引数を少し広げるには、仮説をテストする必要があり(「実験者は偽造」)、次にテスト統計(ヘッド数)を選択します。さて、この検定統計量はあなたの仮説について何かを伝えるのに適していますか?私には、選択した検定統計量は有益ではないようです(仮説で固定値として指定されたパラメーターの関数ではありません)。これは、「不正行為」が何を意味するのかという質問に戻ります。それが実験者が自由にコインを制御することを意味する場合、これはテスト統計には反映されません。定量化できる指標を見つけるには、より正確にする必要があると思います。したがって、質問を統計的検定に適用できるようにします。
あなたが描く結論は、不正行為の可能性について選択した事前確率と、フリッパーが横になっている場合にx頭が報告される事前確率に大きく依存します。
私の意見では、P(報告された10000頭)に最も多くの質量を置くことは少し直観に反しています。レポーターがナイーブでない限り、その種の改ざんされたデータを報告する人は誰も想像できません(主に元の投稿で述べた理由で、ほとんどの人にとってそれは疑わしいものです)。コインが本当に不公平であり、フリッパーが報告する場合データが改ざんされている場合、報告された結果のより妥当な(そして非常に近似した)前は、整数{9900、...、10100}の離散均一前P(X頭|報告)= 1/201他のすべてのxについて、P(x頭の報告|横臥)= 0。嘘をつく確率が0.5だと思ったとします。次に、いくつかの事後確率は次のとおりです。
P(嘘| 9900頭の報告)= P(嘘| 9100頭の報告)= 0.70;
P(嘘| 9950頭の報告)= P(嘘| 10050頭の報告)= 0.54;
P(横になっている| 10000頭の報告)= 0.47。
公正なコインから報告された最も合理的な数のヘッドが疑いを生じます。事前確率に対する事後確率の感度を示すためだけに、不正行為の事前確率を0.10に下げると、事後確率は次のようになります。
P(嘘| 9900頭の報告)= P(嘘| 9100頭の報告)= 0.21;
P(嘘| 9950頭の報告)= P(嘘| 10050頭の報告)= 0.11;
P(横たわっている| 10000頭が報告された)= 0.09。
ですから、元の(そして非常に評価された答え)は少し拡張できると思います。以前の情報を十分に考慮せずにデータが改ざんされていると決して結論付けるべきではありません。また、これを直感的に考えると、フリッパーが横になっていると仮定すると、嘘の事後確率は、報告された頭の事前の分布よりも、横になっている事前確率の影響が大きいようです(すべての私の例のように、フリッパーが横になっていることを前提に、少数の頭部の質量が報告されています。)