20,000のトスからの10,000の頭が無効なデータを示唆する理由に関する統計的議論


11

公正なコインを繰り返し投げているとしましょう。表と裏の数はほぼ同じであることがわかっています。合計20回のトスで10の表と10の表のような結果が表示された場合、その結果を信じており、コインは公正であると考えています。

まあ、合計20000回のトスで頭が10000、尾が10000のような結果が表示された場合、実際には結果の妥当性に疑問を呈します(実験者がデータを偽造したのでしょうか)。 10093頭と9907尾。

私の直感の背後にある統計的議論は何ですか?

回答:


21

公正なコインを想定すると、10000表と10000尾の結果は、実際には10093頭と9907尾の結果よりも可能性が高くなります。

ただし、実際の実験者が同数の表と裏を取得する可能性は低いと言う場合、ベイズの定理を暗黙的に呼び出しています。実際の実験についてのあなたの以前の信念は、Prob(20000回の頭数= 10000 |実験者が偽物ではないことを考えると)は0に近いということです。したがって、「頭数= 10000」という実際の結果を見るとProb(Experimenterが偽物ではない|観察された10000ヘッドの結果)の後方も0に近くなります。したがって、実験者がデータを偽っていると結論付けます。


とてもよく説明されました!ベイズの定理アプローチの素晴らしい例です。
Tal Galili 2010年

1
@Srikant:その事前を正式に定義することはできません。いずれの場合でも、Xの値や以前の値に関係なく、N = 20000の場合、Prob(ヘッド数= X |実験者は偽物ではない)は常にほぼゼロです。したがって、任意の数の事後も常に0に近くなります。これがベイズの定理とどう関係しているのかはわかりません。
Joris Meys、2010年

これらすべては、神が存在することを証明しようとして穴をあけられた男からのものです。本当にエレガント。
Brandon Bertelsen、2010年

1
これをより一般的な観点から見ると、私が同意するポイントは、ベイズの定理がここで機能しているということです。具体的には、不正行為と正直な実験者の代替可能性(異なる生成プロセスに対応)があります。不正行為を確立することは、直感的であり、それゆえ、特定されていない不正行為プロセスに関して事後推論です。
共役

1
@Srikant @whuber:コンビナトリアル...あなたは正しい。私は、この場合はもちろんナンセンスである一律の確率から始めました。私の悪い
ヨリスMeys

12

私はスリカントの説明が好きで、ベイジアンの考えはおそらくこのような問題に取り組む最良の方法だと思います。しかし、これはベイズなしでそれを見る別の方法です:(R)

dbinom(10, size = 20, prob = 0.5)/dbinom(10000, 20000, 0.5)

私のシステムでは約31.2です。言い換えれば、どちらの場合でも、公正なコインを使用しても、20,000のうち10,000を表示するよりも、20のうち10を表示する可能性が30倍以上高くなります。この比率は、サンプルサイズが増加するにつれて制限なく増加します。

これは一種の尤度比アプローチですが、やはり、私の直感では、これは何よりもベイジアンの判断の呼びかけのように感じられます。


なぜ比率なのか?その正確な引き分けの可能性が非常に低いと単に述べないのはなぜですか?
アンディW

5
特定の確率が文脈外で低いという主張は説得力がありません。私が身長と同じくらいの高さ(それが何であろうと)である確率はゼロです。そして、はい、無限の精度で高さを定義することさえも問題があります、yada、yada、yada ...私のポイントは、存在の大渦が常に発生する無限の確率のイベントでチャーンするということです!20,000のうち10,000-コンテキスト外-まったく驚きません。その数値的確率が何であるかに関係なく。

9

subjectivistベイズ引数は、事実上、あなたの理解に取り掛かることができ(統計的観点からの)唯一の方法である直感適切に話す- -の対象となり、心理的な調査ではなく、統計的なものを。ただし、ベイジアンアプローチを使用して調査官がデータを偽造したと主張することは、明らかに不公平であり、したがって無効です。これの論理は完全に循環的です:「結果についての私の以前の信念に基づいて、私はあなたの結果が信じられないほどであるので、あなたはだまされたにちがいない」と言うことになります。このような非論理的な利己的な議論は、法廷や査読プロセスでは明らかに立たないでしょう。

代わりに、メンデルの実験に対するロナルドフィッシャーの批評からヒントを得て、正式な仮説検定を行うことができます。もちろん、結果に基づいて事後仮説をテストすることは無効です。しかし、実験は信じられるために再現されなければなりません:それは科学的方法の信条です。したがって、偽装されたと思われる1つの結果を見て、適切な仮説を立てて将来の(または追加の)結果をテストすることができます。この場合、クリティカル領域は予想に非常に近い一連の結果で構成されます。たとえば、でのテストα= 5%レベルでは、9,996から10,004までの結果が疑わしいものとして表示されます。これは、(a)このコレクションが私たちの仮説の「偽造」結果に近いこと、および(b)偽造ないという帰無仮説(法廷で有罪が証明されるまで無実である!) 、この範囲の結果は、発生する可能性が5%(実際には5.07426%)です。さらに、この見かけ上アドホックなアプローチを、観察された比率と期待された比率の間の偏差を二乗し、次に片側検定でネイマン・ピアソン補題を呼び出すだけで、カイ二乗コンテキスト(フィッシャー)に置くことができます。尾が低く正規近似を二項分布に適用します。

そのようなテストは偽物を証明することはできませんが、その実験者からの将来のレポートに適用して、主張の信頼性を評価することができます これは、ベイジアンの議論を呼んで完全に無実で、たまたま運が悪かったために美しい実験結果を得た人を巻き込むよりもはるかに公平で厳格です!


5

あなたの直感に欠陥があると思います。単一の「非常に特別な」結果(正確には10000ヘッド)と多くの結果のセット(すべての「特別でない」ヘッドの数が10000に近い)を暗黙的に比較しているようです。ただし、「特別」の定義は、心理学に基づく任意の選択です。2進数の10000000000000(10進数の8192)またはHex ABC(10進数の2748)はどうでしょうか。Joris Meysがコメントしたように、ベイズの議論は基本的にどの頭数でも同じであり、それぞれの結果は疑わしいものであると示唆しています。

引数を少し広げるには、仮説をテストする必要があり(「実験者は偽造」)、次にテスト統計(ヘッド数)を選択します。さて、この検定統計量はあなたの仮説について何かを伝えるのに適していますか?私には、選択した検定統計量は有益ではないようです(仮説で固定値として指定されたパラメーターの関数ではありません)。これは、「不正行為」が何を意味するのかという質問に戻ります。それが実験者が自由にコインを制御することを意味する場合、これはテスト統計には反映されません。定量化できる指標を見つけるには、より正確にする必要があると思います。したがって、質問を統計的検定に適用できるようにします。


+1、しかし私は確信していません。10,000の特別な点は、コインが公正であるという仮説のもとで予想される表の数と正確に等しいことです。この事実は、心理学や数表現のシステムとは無関係です。この応答の分析は、たとえば、20,005枚のコインが裏返され、10,000の頭(したがって、10,005枚の尾)が指摘され、誰かの「直感」が偽造が行われたことを示唆する状況への洞察を提供します。
whuber

私が完全に同意する-あなたがあなたの答えで指摘するように-それはすべて仮説の先験的定義に依存する:「実験を偽造する」ことによって事前にそれを定義する場合、あなたは「期待値に近い」、それが「統計の数」を検定統計量とする統計検定の基礎となります。ただし、そのような事前の説明がないと、「偽造」と「頭の数の特別な値」の意味は依然として曖昧であり、それらが互いにどう関係しているのかは明確ではありません。
カラカル

4

あなたが描く結論は、不正行為の可能性について選択した事前確率と、フリッパーが横になっている場合にx頭が報告される事前確率に大きく依存します。

私の意見では、P(報告された10000頭)に最も多くの質量を置くことは少し直観に反しています。レポーターがナイーブでない限り、その種の改ざんされたデータを報告する人は誰も想像できません(主に元の投稿で述べた理由で、ほとんどの人にとってそれは疑わしいものです)。コインが本当に不公平であり、フリッパーが報告する場合データが改ざんされている場合、報告された結果のより妥当な(そして非常に近似した)前は、整数{9900、...、10100}の離散均一前P(X頭|報告)= 1/201他のすべてのxについて、P(x頭の報告|横臥)= 0。嘘をつく確率が0.5だと思ったとします。次に、いくつかの事後確率は次のとおりです。

P(嘘| 9900頭の報告)= P(嘘| 9100頭の報告)= 0.70;

P(嘘| 9950頭の報告)= P(嘘| 10050頭の報告)= 0.54;

P(横になっている| 10000頭の報告)= 0.47。

公正なコインから報告された最も合理的な数のヘッドが疑いを生じます。事前確率に対する事後確率の感度を示すためだけに、不正行為の事前確率を0.10に下げると、事後確率は次のようになります。

P(嘘| 9900頭の報告)= P(嘘| 9100頭の報告)= 0.21;

P(嘘| 9950頭の報告)= P(嘘| 10050頭の報告)= 0.11;

P(横たわっている| 10000頭が報告された)= 0.09。

ですから、元の(そして非常に評価された答え)は少し拡張できると思います。以前の情報を十分に考慮せずにデータが改ざんされていると決して結論付けるべきではありません。また、これを直感的に考えると、フリッパーが横になっていると仮定すると、嘘の事後確率は、報告された頭の事前の分布よりも、横になっている事前確率の影響が大きいようです(すべての私の例のように、フリッパーが横になっていることを前提に、少数の頭部の質量が報告されています。)


これは非常に良い答えだと思いますが、2番目の段落には同意しません。Srikantの元の条件付き確率は直観に反するとは思いません。答えるのが難しい質問だからといって、それに対する反対ではありません。また、デモンストレーションの目的には役立ちますが、9900〜10100の範囲内にある確率はまったく意味がないと思います。
アンディW

2

ベイズの説明では、嘘のコインフリッパーによって報告された結果の事前確率分布と、嘘の事前確率が必要です。偽りの分布よりも嘘の分布の下にある可能性が非常に高い値を見つけた場合、嘘をつく可能性がはるかに高くなります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.