NYTimesでの統計的手法の誤用に関する記事


20

この記事を参照しています:http : //www.nytimes.com/2011/01/11/science/11esp.html

次の実験を検討してください。コインが頭に向かってわずかに重くなっていると信じる理由があると仮定します。テストでは、コインは1,000回のうち527回出てきます。

これは、コインが重み付けされているという重要な証拠ですか?

古典的な分析はイエスと言います。公正なコインでは、1,000回のフリップで527以上のヘッドを獲得する可能性は、従来のカットオフの20分の1、つまり5パーセント未満です。別の言い方をすれば、この実験では、「95%の信頼度で」重み付きコインの証拠を見つけます。

しかし、多くの統計学者はそれを購入しません。20分の1は、1,000スローで526を超える任意の数のヘッドを獲得する確率です。つまり、フリップする確率527、フリップする確率528、529などの合計です。

しかし、実験ではその範囲内のすべての数値が見つかりませんでした。このように、これらの専門家によると、コインに重みが付けられている場合、その数字を取得する確率を計算し、コインが同じ場合に同じ数字を取得する確率と比較する方が正確です。公正。

統計学者は、心理学者のジェフ・ルーダーとともに例を提供した統計学者のポール・スペックマンによると、この比率は約4対1より高くできないことを示すことができます。

最初の質問:これは私にとって新しいことです。誰かが正確な計算を見つけることができるリファレンスを持っていますか、および/またはあなた自身に正確な計算を与えることで私を助けることができますか、および/または同様の例を見つけることができるいくつかの資料を教えてくれますか?

ベイズは、新しい証拠が登場すると、仮説の確率を更新する方法を考案しました。

そのため、特定の発見の強度を評価する際に、ベイジアン(BAYZ-ee-unと発音)分析では、既知の確率が組み込まれています(利用可能な場合)。

「うん、正しい」効果と呼ばれることもあります。キンカンが心臓病のリスクを90%低減すること、治療により1週間でアルコール中毒が治まること、敏感な親が男の子よりも女の子を産む可能性が2倍高いことが研究でわかった場合、ベイジアンの反応はネイティブの懐疑論者:ええ、そうです。この調査結果は、世界で観察可能なものと比較検討されます。

医学の少なくとも1つの分野-診断スクリーニングテスト-では、研究者は既知の確率を使用して新しい発見を評価しています。たとえば、新しい嘘発見テストの精度は90%で、10のうそつきのうち9のうそつきに正しくフラグを立てることができます。しかし、10人の嘘つきを含むことが既に知られている100人の人口に与えられた場合、テストはそれほど印象的ではありません。

10のうそつきのうち9を正しく識別し、1つを見逃します。しかし、他の90個のうち9個が嘘であると誤って識別されます。いわゆる真陽性(9)をテストでフラグが立てられた人の総数(18)で割ると、50%の正解率が得られます。「偽陽性」と「偽陰性」は、人口の既知の割合​​に依存します。

2番目の質問:新しい発見がこの方法で「本当」であるかどうかをどのように正確に判断しますか?そして:これは、事前に設定された事前確率を使用しているため、5%バリアのようにIs意的ではありませんか?


3
公平で不公平なコインについては、これは参考になります。stat.columbia.edu
〜gelman

回答:


31

最初の質問に詳しく答えます。

公正なコインでは、1,000回のフリップで527以上のヘッドを獲得する可能性は、従来のカットオフの20分の1、つまり5パーセント未満です。

公正なコインの場合、1000回の試行における頭の数は、試行回数および確率 1/2の二項分布に従います。527頭以上の頭を獲得する確率はn=1000p=1/2

P(B(1000,1/2)>=527)

これは、任意の統計ソフトウェアパッケージで計算できます。Rは私たちに与えます

> pbinom(526,1000,1/2,lower.tail=FALSE)
   0.04684365

したがって、公正なコインを使用した場合、526ヘッドを超える確率は約0.047であり、これは記事で述べた5%カットオフに近い値です。

次の声明

別の言い方をすれば、この実験では、「95%の信頼度で」重み付きコインの証拠を見つけます。

議論の余地があります。95%の信頼度はいくつかの方法で解釈できるので、私はそれを言いたがりません。

次に

しかし、実験ではその範囲内のすべての数値が見つかりませんでした。このように、これらの専門家によると、コインに重みが付けられている場合、その数字を取得する確率を計算し、コインが同じ場合に同じ数字を取得する確率と比較する方が正確です。公正。

ここでは、2つのイベント公正なコイン、および重み付きコインを比較します。これらのイベントの確率をに代入し、二項係数がキャンセルされることに注意してくださいB(1000,1/2)=527B(1000,p)=527

P(B(1000,p)=527)P(B(1000,1/2)=527)=p527(1p)473(1/2)1000.

これは関数であるため、その最小値または最大値を見つけることができます。この記事から、最大値が必要であると推測できます。p

統計学者は、心理学者のジェフ・ルーダーとともに例を提供した統計学者のポール・スペックマンによると、この比率は約4対1より高くできないことを示すことができます。

最大化を簡単に行うには、比率の対数をとり、に関する導関数を計算し、ゼロに等しくします。解決策はp

p=5271000.

たとえば、2次微分検定を使用して、それが実際に最大値であることを確認できます。取得した式に代入する

(527/1000)527(473/1000)473(1/2)10004.3

したがって、比率は4.3対1であり、これは記事と一致します。


「今、pに関してこの量を最大化する」:あなたは最小を意味すると思います。
サイモンバーン

@mpiktas(+1)素敵な(更新された)答え。
-chl

この例は、信頼区間とは何かを示していると思います。CIを、信頼度に等しい確率パラメーターを持つベルヌーイ分布確率変数からの1つの観測として解釈するのが最も簡単だと思います。実験を繰り返し行っている場合にのみCIを使用するのは理にかなっています。別の問題は、対立仮説とは何ですか?p = 7/10、p> 0.5、p = 1050/2000ですか?p = 527/1000?もう1つの問題は、p =とはどういう意味ですか?正確にか、それともここで、は小さな数です。 112のp112εp(12±ϵ)ϵ
確率論的

@サイモン、補正が最小化されるのはなぜですか?見つかったPの値は比率を最大化しませんか?

@statnovice:回答の元のバージョンでは分子と分母が入れ替わりました。
サイモンバーン
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.