データが与えられたモデルの確率を計算するのではなく、なぜp値を使用するのですか?


43

大まかに言えば、p値は、仮説(モデル)が与えられた実験の観測結果の確率を与えます。この確率(p値)を持っているため、仮説(どれだけ可能性があるか)を判断します。しかし、観察された結果を前提として仮説の確率を計算する方が自然ではないでしょうか?

より詳細に。コインがあります。20回反転し、14個のヘッドを取得します(20個中14個を「実験の結果」と呼びます)。今、私たちの仮説は、コインが公正であるということです(頭と尾の確率は互いに等しい)。ここで、p値を計算します。これは、コイン20枚で14以上のヘッドを獲得する確率に相当します。OK、今、この確率(0.058)があり、この確率を使用してモデルを判断します(公正なコインがある可能性はどのくらいでしょうか)。

しかし、モデルの確率を推定したい場合、実験を与えられたモデルの確率を計算しないのはなぜですか?モデル(p値)を指定して実験の確率を計算するのはなぜですか?


尤度関数を計算できるようにするには、どうにかして実験をモデル化する必要があります。
ラスコルニコフ

11
Pete Dixonは1998年に「科学者がp値を重視する理由」(psychonomic.org/backissues/1631/R382.pdf)という有益な記事を書いています。適切なフォローアップは、置換メトリックとしての尤度比に関するGlover&Dixonの2004年の論文(pbr.psychonomic-journals.org/content/11/5/791.full.pdf)です。
マイクローレンス

2
マイク、それは疑い深く私の答えのように見える。コメントで何をしていますか?
マットパーカー

:ジョン・D・クックは、私はあなたが面白いと思う私の質問に優れた答えを掲載stats.stackexchange.com/questions/1164/...
ダグ

人々はp値を使用しませんが、統計学者は使用します。(これも真実だという言い回しに抵抗できませんでした。もちろん、各名詞を適切に修飾すると、その名詞は失われます。)
ウェイン

回答:


31

仮説が正しい確率を計算することは、確率のベイジアン定義の想定される主観性を避けるために採用された確率の頻度定義(長期実行頻度)にうまく適合しません。特定の仮説の真理は確率変数ではなく、真であるかそうでないかであり、長期実行頻度はありません。実際、仮説の真理の確率に興味を持つことはより自然です。これは、p値が帰無仮説が真である確率としてしばしば誤解される理由です。難しさの一部は、ベイズ規則から、仮説が真である事後確率を計算するために、仮説が真である事前確率から始める必要があることを知っています。

ベイジアン、データ(および彼/彼女の以前の信念)が与えられると、仮説が真である確率を計算します。

基本的に、頻度主義的アプローチとベイジアンアプローチを決定する際に、ベイジアンアプローチの想定される主観性が、頻度主義的アプローチが一般にあなたが実際に尋ねたい質問に直接答えないという事実よりも忌まわしいかどうかの選択です-しかし、両方。

コインが公平かどうか、つまり頭の確率が尾の確率と等しいかどうかを尋ねる場合、現実の世界では最初からほぼ間違いなく間違いであることがわかっている仮説の例もあります。コインの両側は非対称であるため、頭と尾の確率にわずかな非対称性があることを期待する必要があります。そのため、コインがテストに「合格」した場合、十分な観察ができないことを意味します。すでに真実であることがわかっていることを結論付ける-コインは非常にわずかに偏っている!


4
実際、ほとんどのコインは実際には非常に公正であり、非常にバイアスをかける物理的にもっともらしい方法を見つけるのは困難です。
Ben Bolkerを

8
公正に非常に近いということは、厳密に公正であるということと同じことではありません。これは帰無仮説です。私は、仮説検定の特異性の1つ、つまり帰無仮説が間違っていることをよく知っているが、とにかくそれを使用することを指摘していました。より実用的なテストは、コインが偏っているという重要な証拠ではなく、コインが大きく偏っているという証拠があるかどうかを検出することを目的としています。
ディクランマースピアル

1
こんにちは、私は間違っているかもしれませんが、科学では、対立仮説が真であるとは決して言えず、帰無仮説が拒否され、対立仮説を受け入れるとしか言えません。私にとってp値は、タイプ1エラーを犯す可能性、つまり対立仮説を棄却して帰無仮説を受け入れる可能性を反映しています(たとえば、p = .05または5%の時間。タイプ1を区別することが重要です)エラーとタイプ2エラー、およびイベントのモデリングでパワーが果たす役割
user2238

3
頻繁なテストでは、さらに弱いステートメントを使用します。これは、「帰無仮説を拒否する」か「帰無仮説を拒否しない」のいずれかであり、何も受け入れないというものです。重要な点は、(バイアスされたコインの場合のように)帰無仮説が真実ではないことをアプリオリに知っている場合があることです。その場合、それを「受け入れる」のは奇妙です。頻繁なテストにはタイプIとタイプIIのエラー率がありますが、OPのように特定の仮説が真である確率について話すことができるという意味ではありません。
ディクランマースピアル

2
@ user2238 p値は、帰無仮説が「単純」(複合ではない)であり、たまたま真である場合にのみ、タイプIエラーの可能性です。たとえば、コインがテール()に偏っているかどうかの片側テストでは、両頭のコインを使用することにより、タイプIエラーの確率が0であっても保証されます有限のサンプルはすべてゼロではありません。H0:p<0.5
whuber

18

本当に古い質問に答えるようなものはありませんが、ここに行きます...

p値はほぼ有効な仮説検定です。これは、Jaynesの2003年確率理論の本(反復実験:確率と頻度)から抜粋したわずかに適合した抜粋です。検定する帰無仮説あるとします。データDと事前情報Iがあります。H 0をテストする不特定の仮説H Aがあると仮定します。事後オッズ比H Aに対するH 0は次いで次式で与えられます。H0DIHAH0HAH0

P(HA|DI)P(H0|DI)=P(HA|I)P(H0|I)×P(D|HAI)P(D|H0I)

右側の最初の項はデータに依存しないため、データは2番目の項を介してのみ結果に影響を与えることができます。今、私たちは常に対立仮説発明することができますようにP D | H A I = 1 "完璧なフィット感"という仮説を- 。したがって、1を使用できますHAP(D|HAI)=1は、データがヌルに関する対立仮説をどれだけうまくサポートできるかの尺度として。データが1より大きいH0をサポートできるという対立仮説はありません1P(D|H0I)H0。代替のクラスを制限することもできます。変更は、1がそのクラス内の最大化された尤度(正規化定数を含む)に置き換えられることです。場合はPD|H0私は小さすぎなり始めるとの間に多数の代替ので、我々は、ヌルを疑うし始めH0HAは、(無視できない事前確率といくつか含む)成長します。しかし、これはp値で行われる処理に非常に近いものですが、1つの例外を除いて、tの確率を計算しません1P(D|H0I)1P(D|H0I)H0HA統計値 t D および統計値の「不良」領域の t 0Dの確率を計算します。これは、サブセットt D ))ではなく、実際に持っている情報です。t(D)>t0t(D)Dt(D)

人々がp値を使用するもう1つの理由は、それらがしばしば「適切な」仮説検定に相当するが、計算が簡単になる可能性があることです。これは、既知の分散で正規平均をテストする非常に簡単な例で示すことができます。我々は、データ持っ仮定モデルでxはINをoをR 、M L μ σ 2(事前情報の一部I)。私たちは、テストしたいH 0μ = μ 0D{x1,,xN}xiNormal(μ,σ2)IH0:μ=μ0。次に、少し計算した後、次のようにします。

P(D|H0I)=(2πσ2)N2exp(N[s2+(x¯μ0)2]2σ2)

ここで、およびs2=1x¯=1Ni=1Nxi。この表示されていることの最大値PD|H0I)が達成される場合μ0= ¯ X。最大化された値は次のとおりです。s2=1Ni=1N(xix¯)2P(D|H0I)μ0=x¯

P(D|HAI)=(2πσ2)N2exp(Ns22σ2)

したがって、これら2つの比率を取得すると、次のようになります。

P(D|HAI)P(D|H0I)=(2πσ2)N2exp(Ns22σ2)(2πσ2)N2exp(Ns2+N(x¯μ0)22σ2)=exp(z22)

z=Nx¯μ0σ|z|x¯

x¯X¯Normal(μ,σ2N)X¯x¯|X¯μ0||X¯μ0||x¯μ0|

p-value=P(|X¯μ0||x¯μ0||H0)
=1P[N|x¯μ0|σNX¯μ0σN|x¯μ0|σ|H0]
=1P(|z|Z|z||H0)=2[1Φ(|z|)]

|z|

この例では両方とも簡単に実行できますが、より複雑なケースでは必ずしもそれほど簡単ではありません。場合によっては、使用する適切な統計を選択し、そのサンプリング分布を計算する方が簡単な場合があります。その他では、代替のクラスを定義し、そのクラスを最大化する方が簡単な場合があります。

この単純な例は、非常に多くの仮説検定が「近似正常」なものであるため、大量のp値ベースの検定を説明しています。また、コインの問題に対する近似的な回答を提供します(二項式への通常の近似を使用して)。また、この場合のp値は、少なくとも1つの仮説をテストするという点で、あなたを迷わせることはありません。この場合、p値は帰無仮説に対する証拠の尺度であると言えます。

0.193.870.05196.830.12.330.052.78


4
+1。「...統計を選択することは、あなたが検討している対立仮説を定義することと同等です」と私は深い洞察を得ています。
whuber

kk

1
@faheemmitha-あなたは組み合わせ爆発については正しいですが、これは私が説明するアプローチでは発生しません(実際、ベイズアプローチが効果的に残差を定義していることを示すことができます)。これは、クラスを定義して最大化するだけでよいためです。各選択肢を評価する必要はありません。最適なものを見つけるだけです。
確率論的

なぜこの回答はコミュニティWikiなのですか?
アメーバは、モニカを復活させる

10

実践に移った元学者として、私はショットを撮ります。人々は有用であるため、p値を使用します。コインフリップの教科書的な例では見ることができません。確かに、それらは基本的にはしっかりしているわけではありませんが、学術的に考えているときに考えるほど必要ではないかもしれません。データの世界では、次に検討する可能性のある文字通り無限の数に囲まれています。p値の計算では、何がおもしろくないのか、どんなデータがおもしろいかを数値的に発見するために必要なものがすべて必要です(さらに、おもしろくないための確率モデル)。その後、個別にまたは集合的に、非常に単純なものをスキャンして、興味のない大部分を拒否することができます。p値により、「これについて考えることをあまり優先しない場合は、


10

あなたの質問は、頻繁な推論の良い例であり、実際、非常に自然です。クラスでこの例を使用して、仮説検定の性質を示しました。コインフリップの結果を予測するボランティアをお願いします。結果がどうであれ、「正しい」推測を記録します。クラスが不審になるまで、これを繰り返します。

今、彼らは頭にヌルモデルを持っています。彼らは、コインが公正であると仮定します。すべてが50%正しい場合は50%が正しいという仮定が公平であるとすると、正しい推測が続くたびに、公正なコインモデルが間違っているという疑念が高まります。いくつかの正しい推測と彼らはチャンスの役割を受け入れます。5回または10回の正しい推測の後、クラスは常に、公正なコインの可能性が低いと疑い始めます。したがって、それは、頻度モデルの下での仮説検定の性質を備えています。

これは、仮説検定の頻繁な解釈を明確かつ直感的に表現したものです。これは、nullが真である場合に観測されるデータの確率です。この簡単な実験で示されるように、実際には非常に自然です。モデルは50〜50であると当たり前のことと考えていますが、証拠が増えたため、そのモデルを拒否し、他に何か問題があると考えています。

そのため、私が仮定するモデル(p値)で、観察する確率が低い場合、仮定したモデルを拒否することに自信があります。したがって、p値は、偶然の役割を考慮に入れた私の想定モデルに対する証拠の有用な尺度です。

免責事項:私はこの忘れられた記事で、ASAのジャーナルの1つであったこの記事を忘れていました。


ブレット、これは興味深く、素晴らしい例です。ここでのモデルは、頭と尾の順序がランダムに発生することを人々が期待しているようです。たとえば、5つのヘッドが連続して表示される場合、これは非ランダムプロセスの例であると推測します。実際、ここで間違っているかもしれませんが、トインコススの確率(ランダム性を前提とする)は50%の頭と50%の尾であり、これは以前の結果とは完全に独立しています。ポイントは、我々は、コインを50000回を投げ、第25000は、ヘッドた、残り25000はテールた提供された場合、これは依然としてバイアスの欠如を反映していることである
user2238

@ user2238:あなたの最後の声明は真実ですが、それはめったにありません。実際、5回のトスで5頭のランを見るのは、コインが公正であれば3%の確率でしか起こりません。nullがtrueである可能性は常にあり、まれなイベントが発生しています。
ブレット

6

「おおまかに言えば、p値は仮説(モデル)が与えられた実験の観測結果の確率を与えます。」

しかし、そうではありません。ざっとでもありません-これは本質的な区別です。

Raskolnikovが指摘しているように、モデルは指定されていませんが、二項モデル(独立したコイントス、不明なコインバイアスの修正)を意味すると仮定しましょう。仮説は、このモデルの関連パラメーターである頭のバイアスまたは確率は0.5であるという主張です。

「この確率(p値)を持っているので、仮説を判断したい(可能性が高い)」

確かにこの判断をしたいかもしれませんが、p値はそうするのに役立ちません(そして、そうするように設計されていません)。

「しかし、観察された結果から仮説の確率を計算する方が自然ではないでしょうか?」

おそらくそうだろう。上記のベイズに関するすべての議論を参照してください。

「[...]次に、p値を計算します。これは、コイン20枚で14個以上のヘッドを獲得する確率に等しくなります。さて、この確率(0.058)があり、私たちのモデルを判断します(どのように公正なコインを持っている可能性が高いのか)。

「我々の仮説の、モデルが真であると仮定して」、しかし本質的に:はい。大きいp値は、コインの動作が公正であるという仮説と一致していることを示しています。(これらは通常、仮説が偽であることと一致していますが、真実に近いため、十分なデータがありません。「統計力」を参照してください。)

「しかし、モデルの確率を推定したい場合、実験が与えられたモデルの確率を計算しないのはなぜですか?モデル(p値)が与えられた実験の確率を計算するのはなぜですか?」

このセットアップで仮説が与えられた場合、実際には実験結果の確率を計算しません。結局のところ、仮説が真である場合、10個のヘッドが正確に見える確率はわずか0.176であり、それが最も可能性の高い値です。これは興味のある量ではありません。

また、通常はモデルの確率も推定しないことも重要です。頻繁な回答とベイジアン回答の両方は、通常、モデルが真であると仮定し、そのパラメーターについて推論します。実際、すべてのベイジアン原則としてモデルの確率、つまり、状況全体が二項分布によってうまくモデル化された確率に関心があるわけではありません。彼らは多くのモデル検査を行うかもしれませんが、実際には二項式が他の可能なモデルの空間にどれほどありそうかを尋ねることはありません。ベイズ因子に関心のあるベイジアンは興味があり、他の人はそれほど興味がありません。


2
うーん、2票。答えが非常に悪い場合は、何らかのコメントがあればいいでしょう。
共役

この答えが気に入りました。教科書とは似ていないため、人々は反対票を投じることがあり、常識や説明のような素人を含む議論のすべてのサイトを削除しようとします。
Vass

私は下票しませんでしたが、問題はあなたの主張が明確でないことだと思います。
エルビス



2

確率を定義します。私は真剣です。さらに先に進む前に、条件に合意する必要があります。

DM

P(M|D)P(M,D)、コインが回転して空中にとどまる方法にし)。

106/28109

医学的状態とその働き方に関する実際の世界の問題では、共同分布のこれらの要素のどれも思い付かない可能性があり、条件付けできません。

P(M,D)p=0.5P(p=0.5)=0B(0.5,0.5)B(1000,1000)0.528109/(28109+106)

正確なモデルが何であるかを話すのが難しいことに加えて、ベイジアンの方法ではモデルの仕様ミスに対処する方法が限られています。ガウスエラーが気に入らない場合、またはコイントスの独立性を信じていない場合(最初の10,000回程度のトスで手が疲れるので、最初の1,000回ほどトスしないでください。確率に影響を与える可能性があります)、ベイジアン世界でできることは、より複雑なモデルを構築することです-通常の混合物の破壊事前確率、経時的な確率のスプライン、その他 しかし、モデルが誤って指定されている可能性があることを明示的に認め、それを説明する準備ができているフーバーサンドイッチ標準エラーに直接類似するものはありません。

<Ω,F,P>ΩFσPAΩAFXt,t[0,1]{Xt>0,t[0,0.5]}{Xt>0,t{t1,t2,,tk}}kσ


1

しかし、モデルの確率を推定したい場合、実験を与えられたモデルの確率を計算しないのはなぜですか?

方法がわからないからです。モデルの数は無限にあり、その確率空間は定義されていません。

これが実用的な例です。米国のGDPを予測したいとしましょう。時系列を取得し、モデルに適合させます。このモデルが真である確率はどのくらいですか?

Δlnyt=μ+et
μet

ここに画像の説明を入力してください

lnyt=ct+et
c

μ

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.