Cumming(2008)は、複製で得られたp値の分布は元のp値にのみ依存すると主張しています。どうしてそれが本当ですか?


52

私はGeoff Cummingの2008年の論文Replication and Intervalsをpp p p読んでいます値は漠然と未来を予測しますが、信頼区間ははるかに優れています[Google Scholarでの200回の引用] -そしてその中心的な主張の1つに混乱しています。これは、カミングが値に反対し、信頼区間を支持する一連の論文の1つです。しかし、私の質問はこの議論に関するものではなく、値に関する特定の主張にのみ関係します。pp

要約から引用させてください:

この記事は、最初の実験の結果が両側である場合、複製からの 片側値が間隔に可能性があることを示しています。確率その、完全に確率その。注目すべきことに、間隔(間隔と呼ばれる)は、サンプルサイズが大きくてもこの幅です。p=.0580%p(.00008,.44)10%p<.0000810%p>.44p

カミングは、この「間隔」、および実際に元の実験(同じ固定サンプルサイズ)を複製するときに取得する値の全体分布は、元の値のみに依存するとそして、真のエフェクトサイズ、パワー、サンプルサイズなどに依存しません。pp p o b tpppobt

[...]の確率分布は、(またはpower)の値を知らない、または仮定せずに導出できます。[...]についての事前知識を前提とせず、 [グループ間差異の観測]がについて与える情報のみを、特定の計算の基礎として使用します。および間隔の分布の 。pδδMdiffδpobtpp

カミング2008

私はこれに混乱しています。なぜなら、値の分布はパワーに強く依存しているように見えますが、元の自体はそれに関する情報を何も与えていないからです。真の効果サイズはあり、分布は均一である可能性があります。または、本当の効果のサイズが巨大である場合、ほとんどの場合、非常に小さい値を期待する必要があります。もちろん、可能性のある効果の大きさよりも事前にいくつかを仮定して開始することができますが、カミングはこれが彼がやっていることではないと主張しているようです。P O のB T δ = 0 Pppobtδ=0p

質問:ここで何が起こっているのでしょうか?


このトピックはこの質問に関連していることに注意してください。最初の実験の95%信頼区間内で、繰り返し実験のどの部分が効果サイズを持ちますか?@whuberによる優れた答えがあります。Cummingには、このトピックに関する次のような論文があります:Cumming&Maillardet、2006、Confidence Intervals and Replication:Where the Next Mean Fall?-しかし、それは明確で問題ありません。

私もカミングの請求が2015年の自然法論文で数回繰り返されることに注意してください気まぐれ値は再現不可能な結果を生成し、Pあなた方のうちの何人かは全体来ているかもしれない(それは既にGoogle Scholarの中で〜100の引用を持っています):

[...] 繰り返される実験の値にはかなりのばらつきがあります。実際には、実験はめったに繰り返されません。次のがどの程度異なるかはわかりません。しかし、非常に異なる可能性があります。単一の複製が返された場合、例えば、にかかわらず、実験の統計的検出力の、値、存在する反復実験が戻ってくる可能性間の値をと(及び変化が[原文のまま]はさらに大きくなります)。P P 0.05 80 P 0 0.44 20 PPPP0.0580%P00.4420%P

(ちなみに、カミングの声明が正しいかどうかに関係なく、Nature Methodsの論文は不正確に引用しています。カミングによると、超える確率はすぎません。g e "。Pfff。)0.4410%0.44


8
このようなクレームは、想定される自然の状態を条件とする必要はありませんか?そして、デフォルトではそれが帰無仮説ではないでしょうか?以下のために、単純なヌル仮説と連続的に分布統計値、p値は、均一な分布を有します。すべてはその事実から流れます。
whuber

4
@whuberさて、ここで再現した図5に示す分布は明らかに均一ではありません。そのような分布は、自然の状態を条件とする必要があるように思えますが、カミングはその反対を主張するようです。したがって、私の質問:この論文で実際に何が起こっているのでしょうか?クレームを誤解していますか?論文は単に間違っていますか?隠れた仮定を理解できますか?等
アメーバは、モニカーを復活させる

私自身への注意:このarxiv.org/abs/1609.01664は明らかに関連していますが、一見しただけでは私の困惑は解決しませんでした。
アメーバは、モニカを復活させる

1
今週決勝戦を出さなかったか、それとも少し時間を費やしたいと思います。両方のサンプルサイズが同じであれば、後続のp値がべき乗に依存することは意味がありません。観察されるp値は、パラメーターの真の値と選択したnullのみに依存する必要があります。推定の有用性は電力に依存しますが、ここでは問題ではありません。
デイブ・ハリス

3
私はここでリーグから抜け出しました...しかし、論文をざっと見て、すべてが同じ既知の分散とサンプルサイズを持ち、0のnullを持つ2つのガウス集団の平均の有意差をテストするコンテキストにあるようです。 これは正しいです?(すなわち、ここで、はnullの下にあります。)または、ここの質問/コメントは示しているようですか?Z=Δμz=Δx¯σN2Nz,1z=ΔμσN2=0
GeoMatt22 16

回答:


21

概要:トリックは、隠れパラメーター(論文の付録Bの、ここでは)の前にユニフォーム(Jeffreys)を想定するベイズのアプローチのようです。 θzμθ

論文の付録Bで与えられた方程式を得るためのベイジアンスタイルのアプローチがあるかもしれないと信じています。

私が理解しているように、実験は統計ます。サンプリング分布の平均は不明ですが、帰無仮説消滅します。 θ θ |zNθ,1θθH0=0

実験的に観測された統計呼び出します。次に、前に「均一」(不適切)を仮定すると、ベイジアン事後はます。その後、辺縁化して元のサンプリング分布を更新すると、事後はます。(2倍の分散は、ガウスの畳み込みによるものです。)z^θNθ,1θ1θz^Nz^,1θz^zz^Nz^,2

少なくとも数学的には、これはうまくいくようです。そして、方程式B2から方程式B3に向かって、因子が「魔法のように」どのように見えるかを説明します。12


討論

この結果を標準の帰無仮説検定フレームワークとどのように調整できますか?考えられる解釈の1つは次のとおりです。

標準フレームワークでは、帰無仮説はある意味で「デフォルト」です(たとえば、「ヌルを拒否する」と言います)。上記のベイジアンコンテキストでは、これはを優先する非一様な事前分布になります。これをとすると、分散は以前の不確実性を表します。θ=0θN0,λ2λ2

上記の分析で事前にこれを実行すると、見つかります これから、限界我々は、上記の分析を回復します。しかし、の制限では、「事後」はヌルになります。およびなので、標準結果を復元します。

θN0,λ2θz^Nδ2z^,δ2,zz^Nδ2z^,1+δ2,δ211+λ2[0,1]
λ 0 θ | ZN 0 0 Z | ZN 0 1つのp | ZU 0 1λλ0θz^N0,0zz^N0,1pz^U0,1

(繰り返しの研究については、上記はベイジアン更新とメタ分析の「伝統的な」方法の関係について興味深い質問を示唆しています。メタ分析のテーマについては完全に無知です!)


付録

コメントで要求されているように、ここに比較のためのプロットがあります。これは、論文の式を比較的簡単に適用したものです。ただし、あいまいさがないようにこれらを書きます。

ましょう統計の片側p値表す、と表すその(後方)CDFによって。付録の方程式B3は、と同等です。 ここで、は標準の標準CDFです。対応する密度は ここで、は標準の標準PDF、はCDFフォーミュラ。最後に、で観測されたものを示すとpzF[u]Pr[puz^]

F[p]=1Φ[12(z[p]z^)],z[p]=Φ1[1p]
Φ[]
f[p]F[p]=ϕ[(zz^)/2]2ϕ[z]
Z = Z [ P ] 、P 、Z 、Z = Φ - 1 [ 1 - Pϕ[]z=z[p]p^に対応する両側 p値、そして z^
z^=Φ1[1p^2]

これらの式を使用すると、下の図が得られます。これ、質問で引用された論文の図5に匹敵するはずです。 「複製」のカミング(2008)図5掲載の式による。

(これは、次のMatlabコードによって作成されましたここで実行します。)

phat2=[1e-3,1e-2,5e-2,0.2]'; zhat=norminv(1-phat2/2);
np=1e3+1; p1=(1:np)/(np+1); z=norminv(1-p1);
p1pdf=normpdf((z-zhat)/sqrt(2))./(sqrt(2)*normpdf(z));
plot(p1,p1pdf,'LineWidth',1); axis([0,1,0,6]);
xlabel('p'); ylabel('PDF p|p_{obs}');
legend(arrayfun(@(p)sprintf('p_{obs} = %g',p),phat2,'uni',0));

1
私の希望は、基礎となる仮定(たとえば、隠れたパラメーターの均一な事前分布)を公開することにより、議論が科学的/統計的問題に焦点を当てることができることです。(上で答えた数学/確率の質問ではなく)
GeoMatt22

このトピックの古くて古くない議論をいくつか見つけました:グッドマン1992セン2002によるグッドマンへのコメント、そして最近のLazzeroni et al 2014。最後の1つはかなり役に立たないように見えますが(完全性のために言及します)、最初の2つ、特にSennのコメントは非常に適切に見えます。
アメーバは、モニカを復活させる

amoebaはこれらの参照を掘り下げてくれてありがとう、彼らは面白いようです!完全を期すために、カミングの結果と標準フレームワークを接続しようとする「ディスカッション」セクションを追加しました。
GeoMatt22 16

更新:上にリンクしたGoodmanとSennの論文を読み、現在の直観を要約するための独自の回答を投稿しました。(ところで、私はあなたの答えを受け入れ、賞金を授与することができてうれしく思いました。再びありがとう。)
アメーバは、Reinstate Monica

27

興味深い議論をありがとう!その2008年の記事を書いているとき、複製pの分布(研究の正確な複製によって与えられるp値、つまり、まったく同じであるが新しいサンプルを含む研究によって与えられるp値)が依存していることを確信するのに少し時間がかかりました元の研究によって与えられたpのみ。(論文では、正規分布人口とランダムサンプリングを想定し、私たちの研究では、集団の平均を推定することを目指していること。)したがって、Pの間隔(複製のための80%の予測区間pは)何でも、同じであるN、パワー、または元のスタディの真の効果サイズ。

確かに、それは最初は信じられないほどです。しかし、私の元の声明は元の研究からpを知ることに基づいていることに注意してください。このように考えてください。元の研究でp = .05 が見つかったと教えてください。あなたは研究について他に何も教えてくれません。サンプル平均の95%CIが正確にゼロになることを知っています(ゼロの帰無仮説に対してpが計算されたと仮定)。したがって、サンプル平均はMoE(95%CIの1つのアームの長さ)です。これは、ゼロからの距離であるためです。あなたのような研究からの平均のサンプリング分布には、標準偏差MoE / 1.96があります。それが標準エラーです。

正確な複製によって与えられる平均を考慮してください。その複製平均の分布には平均MoEがあります。つまり、その分布は元のサンプル平均に集中しています。サンプル平均と複製平均の違いを考慮してください。元のスタディと複製のようなスタディの平均の分散の合計に等しい分散があります。これは、元の研究のような研究の2倍の分散、つまり2 x SE ^ 2です。これは2 x(MoE / 1.96)^ 2です。したがって、その差のSDはSQRT(2)x MoE / 1.96です。

したがって、複製平均の分布がわかります。平均はMoE、SDはSQRT(2)x MoE / 1.96です。もちろん、水平スケールは任意ですが、元のスタディのCIに関してこの分布を知るだけで済みます。複製が実行されると、ほとんどの平均(約83%)が元の95%CIに落ち、約8%がその下(つまり、元の平均が0より大きい場合はゼロ以下)に落ち、8%高くなりますCI。元のCIに対して複製平均がどこにあるかがわかっている場合、そのp値を計算できます。このような複製手段の分布は(CIに関連して)わかっているため、複製pの分布を把握できます。値。複製に関して行っている唯一の仮定は、それが正確である、つまり、元の研究と同じ母集団から同じ効果サイズで得られたものであり、N(および実験計画)は研究と同じであったということです。

上記のすべては、写真のない、記事の議論の言い換えです。

まだ非公式ですが、元の研究のp = .05が何を意味するのかを考えると役立つかもしれません。これは、小さな効果サイズの巨大な研究、または巨大な効果サイズの小さな研究があることを意味します。どちらにしても、同じ研究(同じN、同じ母集団)を繰り返すと、間違いなく多少異なるサンプル平均が得られます。p値に関しては、膨大な研究であろうと小さな研究であろうと、「多少異なる」ということは同じであることがわかります。したがって、p値のみを教えてください。p間隔を教えます。

ジェフ


8
私の質問に答えるためにこのウェブサイトに登録してくれてありがとう!とても感謝しています。私はまだ確信していませんが、あなたの答えを熟考するのに時間がかかります。私の現在の気持ちは、あなたが有効なポイントを挙げているということですが、それをどのように定式化するかについて私は同意しません。1つの単純な異論:p = 0.05はH0が真であることと一致します。H0が真の場合、pは1%の確率で0.04〜0.05の範囲になります。この場合、複製p値の分布は0から1まで均一になります。ただし、すべての状況で初期p = 0.05の異なる分布を予測します。それについてどう考えるべきですか?
アメーバは、モニカの復活を

7
この引数の暗黙の仮定は受け入れられないように見えます。「正確な複製」の平均値はMoEに等しいということです。「完全な複製」によって同じ自然状態で実験繰り返すことを意味する場合、検定統計量の分布は不明です。自然状態に依存します。ベイズの視点を採用することは別として(つまり、事前に明示的に述べる必要があります)、進歩を達成する唯一の方法は、レプリケートを条件としてではなく、オリジナルまたはレプリケートが実行される前に確率を計算することです。
whuber

2
@ user43849私は、すべての点で、そのような人はp値が何であるか理解していないことを提出します。p値は、将来の実験についてはほとんど、または何も示しません。ここに直接適用される予測間隔の頻繁な概念があります。複製の問題は、単一の将来の実験のp値の予測間隔に関係します。答えは、古典的な統計理論に十分に根ざしており、革新的な概念を必要とせず、精神的に(間違いなく)非ベイジアンです。
whuber

2
@whuberは論文を掘り下げて、この演習の基礎をなす暗黙のベイジアン仮定があるかもしれないと信じています(私の答えを参照)。
GeoMatt22

1
@GeoMattはい、それが計算を正当化する唯一の方法のように見えます。
whuber

10

この問題は@ GeoMatt22によって明確にされており、議論に参加するために@GeoffCummingがここに来るのを楽しみにしています。私はこの解答をさらなる解説として投稿しています。


結局のところ、この議論は少なくともGoodman(1992)の複製、P値と証拠に関するコメント、および後の返信Senn(2002)Letter to the Editorにまで遡ります。これら2つの短い記事、特にStephen Sennの記事を読むことを強くお勧めします。私はセンに完全に同意します。

この質問をする前にこれらの論文を読んでいたなら、私はおそらくそれを投稿したことがなかっただろう。グッドマン(カミングとは異なり)は、ベイズの設定をフラットな事前分布で考慮すると非常に明確に述べています。彼は、カミングのように値の分布を提示せず、代わりに、複製実験で「有意な」結果を観測する確率を報告します。pp<0.05

グッドマン1992

彼の主なポイントは、これらの確率が驚くほど低いことです(でもだけです)。特に、場合、わずかです。(後者の確率は、任意のおよび同じままです。)p=0.0010.78p=0.050.51/2αp=α

Sennの回答の要点は、これは有用な観察であるが、値を決して損なうものではなく、グッドマンに反して、値が「nullに対する証拠を誇張する」ことを意味しないということです。彼は書く:pp

また、彼の[Goodman's]デモンストレーションは2つの理由で役立つと思います。第一に、これは、完了したばかりの(そしてわずかに有意な結果をもたらす)さらに類似した研究を計画している人にとって、これが2番目の研究で一致しないかもしれないという警告として役立ちます。第二に、個々の研究の結果の明らかな矛盾が一般的であると予想される可能性があり、この現象に過剰反応してはならないという警告として機能します。

Sennは、片側値は、平坦な事前分布(実際のライン全体では不適切な事前分布)の下で、ベイジアン事後確率として理解できることを思い出させます[ 短い議論については、Marsman&Wagenmakers 2016参照してくださいこの事実といくつかの引用の]pH0:μ<0μ

その場合、ある実験で特定の値を取得した場合、次の実験でより低い得られる確率はなければなりません。さもなければ、将来の複製は、実施される前に何らかの形で追加の証拠を提供する可能性があります。したがって、グッドマンは確率取得します。そして実際、カミングと@ GeoMatt22によって計算されたすべてのレプリケーション分布は、それぞれの中央値を持っています。P 1 / 2 、P = 0.05 0.5 P O bはSp p1/2p=0.050.5pobs

ただし、この複製の確率がを超えていなくても、治療の有効性が高いと考えられます。%が%レベルで有意であった長い一連の試験は、治療が効果的であるという説得力のある証拠です。50 50.5505

ちなみに、たとえば、与えられたサイズと検出力のt検定(ここを参照)の値の予測分布を見た人は、中央値を要求すると、この分布がかなり広くなることは驚くことではありません、太い尾がに向かっています。この観点から、カミングが報告した広い間隔は驚くべきものではなくなりました。p = 0.05 1pp=0.051

彼らがむしろ示唆しているのは、実験を再現しようとするとき、より大きなサンプルサイズを使用すべきだということです。実際、これは複製研究の標準的な推奨事項です(たとえば、Uri Simonsohn 、一般的に、サンプルサイズを倍に増やすことを推奨しています)。2.5


5
(+1)幸いなことに、グッドマンやセンに出くわすまでは、そうしなかった。:-)
枢機卿

6

さらに興味深い議論をありがとう。ポイントごとにコメントするのではなく、いくつかの一般的な考察を提供します。

ベイズ。私はベイジアンのアプローチにまったく反対していません。最初から、フラットまたは拡散事前分布を仮定したベイジアン分析は、同じまたは非常に類似した予測間隔を与えると予想していました。pにはパラがあります。そのことに関する2008年の記事の291で、一部はレビュアーの1人によって促されました。そのため、上記のアプローチがうまく機能していることを嬉しく思います。それは素晴らしいことですが、私が取ったアプローチとは非常に異なるアプローチです。

余談ですが、(信頼できる間隔に基づいた)推定に対するベイジアンアプローチではなく、信頼区間(新しい統計:効果サイズ、CI、メタ分析)の擁護に取り組むことを選択しました。ベイジアンは初心者に十分にアプローチします。私は、初心者と一緒に使用できると思う、または多くの研究者がアクセスして納得できると思われる、真に入門的なベイジアン教科書を見たことはありません。したがって、研究者が統計的推論を行う方法を改善する適切な機会を得たい場合は、他の場所を調べる必要があります。はい、pを超えて移動する必要があります値、および二分した意思決定から推定へのシフト、およびベイジアンはそれを行うことができます。しかし、実際の変更を達成する可能性が非常に高いのは、従来のCIアプローチです。それが、最近リリースされた私たちのイントロ統計教科書が新しい統計アプローチをとる理由です。www.thenewstatistics.comをご覧ください

反射に戻ります。私の分析の中心は、最初の研究のp値のみを知っているということです。私が行う仮定が述べられています(通常の母集団、ランダムサンプリング、既知の母集団SDなので、母集団の平均、正確な複製に関する推論を行う際に、t計算ではなくz計算を使用できます)。しかし、それは私が仮定しているすべてです。私の質問は、「最初の実験からpだけを与えた場合、どこまで行けるか?」です。私の結論は、複製実験から予想されるpの分布を見つけることができるということです。その分布から、p間隔、またはレプリケーションがpを与える確率など、関心のある確率を導出できます。<.05、またはその他の関心のある値。

議論の核心であり、おそらく最も熟考に値するステップは、記事の図A2に示されています。下半分はおそらく問題ありません。mu(通常、最初のスタディからの平均に等しいと仮定して達成される)がわかっている場合、太い線分で表される推定誤差は既知の分布(キャプションで説明されている正規、平均mu、SD)を持ちます。

次に大きなステップ:図2Aの上半分を検討します。muに関する情報はありません。情報はありません。事前確率に関する隠れた仮定はありません。しかし、これらの太い線分の分布を述べることができます:正常、平均ゼロ、SD = SQRT(2)x下半分のSD。これにより、複製pの分布を見つけるために必要なものが得られます。

結果として生じるp間隔は驚くほど長いです。少なくとも、p値が研究者によって事実上普遍的に使用されている方法と比較すると、私は驚きを感じます。研究者は通常、p値の小数点以下2桁または3桁を気にしますが、見ている値は実際には非常に簡単に異なる可能性があることを認識していません。したがって、報告について頁293から4上の私のコメントのpのあいまい認識する間隔をPを

長い、はい、しかし、それは最初の実験からのpが何も意味しないことを意味しません。初期pが非常に低いと、レプリケーションは平均してp値が小さくなる傾向があります。初期pおよび複製が高いほど、p値がいくらか大きくなる傾向があります。ページ1の表1を参照してください。292と、たとえば、最初のp = .001および.1 の右側の列のp間隔を比較します。2つの結果は、従来は数マイル離れていると考えられていました。2つのp間隔は明確に異なりますが、2つの大きな重複があります。.001実験の複製により、p.1実験の複製よりも大きい。ほとんどの場合、そうではありません。

博士研究の一環として、Jerry Laiは、いくつかの分野の出版された研究者が主観的なp間隔が非常に短いことを発見したいくつかの素晴らしい研究を報告しました(Lai、et al。、2011)。言い換えれば、研究者は、複製のp値がどの程度異なるかを大幅に過小評価する傾向があります。

私の結論は、単にp値を使用すべきではないということです。95%CIを報告および議論します。95%CIは、調査中の母集団の平均値を示すデータのすべての情報を伝えます。CIを考えると、p値は何も追加せず、誤ってある程度の確実性を示唆する可能性があります(重要!重要ではありません!効果が存在します!それはありません!)。確かに、CIとpの値は同じ理論に基づいており、一方から他方に変換できます(これについては、イントロの教科書の第6章に記載されています)。しかし、CIはpよりも多くの情報を提供します。最も重要なことは、不確実性の程度を際立たせることです。確実に把握する人間の傾向を考えると、CIの範囲を考慮することが不可欠です。

私はまたの変動強調するために試みられてきたのp「のダンスの値をp個のビデオ値」。Googleの「p値のダンス」。少なくともいくつかのバージョンがあります。

すべての信頼区間が短くなる可能性があります!

ジェフ


3
これらの追加コメントをありがとう、ジェフ。私はここでいくつかの点に同意します(「確実性」など)および他のいくつかに同意しません(「CIが与えられた場合、p値は何も追加されません」)。そこにあると思い任意の事前ベイズせずに分析を行う方法が。図A2に示されている引数には、隠された仮定としてフラット事前分布が必要です。他の事前分布を仮定して、非常に異なる結果を得ることができます。私はあなたの結論を裏付けることができる純粋に頻繁な議論があるとは思わない。上記の@whuberのコメントを参照してください。
アメーバは、モニカの復活を

@Geoff Cumming-統計教育と結果の解釈についてのあなたのコメントは大歓迎です。
rolando2
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.