p値の分布の大きな分散(Taleb 2016の議論)


16

Taleb、2016、The Meta-Distribution of Standard P-Valuesでなされた全体像の主張を理解しようとしています

その中で、Talebは(私が理解しているように)p値の信頼性について以下の議論をしています:

ある分布Xからのデータポイントを操作する推定手順は、p値を出力します。この分布からさらにn個のポイントを引き出して別のp値を出力する場合、これらのp値を平均して、いわゆる「真のp値」を限界値で取得できます。nX

この「真のp値」は非常に高い分散を持っていることが示されているため、「真のp値」分布+プロシージャは、60%の時間で<.05のp値を報告します。.12

質問値を支持して、これを従来の議論とどのように調和させることができますか。私が理解しているように、p値はあなたの手順があなたに正しい間隔(または何でも)を与える時間の割合を教えてくれるはずです。ただし、このペーパーでは、手順を再度実行するとp値が同じにならないため、この解釈は誤解を招くと主張しているようです。p

ポイントが足りませんか?


1
この「伝統的な議論」とは何か説明できますか?あなたがどのような議論を検討しているのか明確ではありません。
Glen_b-モニカを

この質問は興味深いものであり、CVにタグがあり、適切だと思われる場合に追加したいp値結合している文献に関連しています。
mdewey

1
p値の再現性について質問は、これと非常に密接に関連していると思います。おそらくここでの分析は、ここで述べた分析と類似している(あるいは同じでさえある)。
whuber

回答:


13

p値は確率変数です。

下で(少なくとも連続分布統計のため)、p値は一様な分布を有するべきですH0

一貫性のあるテストでは、サンプルサイズが無限大に近づくにつれて、の下でp値が限界で0になります。同様に、効果のサイズが大きくなると、p値の分布も0にシフトする傾向がありますが、常に「広がり」ます。H1

「真の」p値の概念は、私にとってナンセンスのように聞こえます。またはH 1の下で、それはどういう意味ですか?たとえば特定のエフェクトサイズとサンプルサイズでのp値の分布の平均」を意味すると言うかもしれませんが、スプレッドはどのような意味で収束するのでしょうか?サンプルサイズを一定に保ちながらサイズを増やすことができるというわけではありません。H0H1

以下に、1つのサンプルt検定と下の小さな効果サイズの例を示します。サンプルサイズが小さい場合、p値はほぼ均一であり、サンプルサイズが大きくなると分布はゆっくりと0に向かって集中します。H1

ここに画像の説明を入力してください

これは、p値の動作方法とまったく同じです。falsenullの場合、サンプルサイズが大きくなると、p値は低い値でより集中するはずですが、タイプIIエラーを作成します-p値が有意水準を超えている場合-どういうわけか、その有意水準に「近く」なるはずです。

α=0.05

代替案の下で使用するテスト統計の分布と、nullの下でcdfを適用する変換の両方で何が起こっているのかを考えると、しばしば役に立ちます(それにより、p値の分布が特定の代替)。これらの用語で考えるとき、その振る舞いがそのままである理由を理解することはしばしば難しくありません。

私が見る問題は、p値または仮説検定に固有の問題があるということではなく、仮説検定があなたの特定の問題に適したツールであるか、他のものがより適切であるかどうかのケースです特定の場合-それは広範論争の状況ではなく、仮説テストが対処する種類の質問とあなたの状況の特定のニーズを慎重に検討することの1つです。残念ながら、これらの問題を慎重に検討することはめったにありません。「これらのデータにどのテストを使用するのか」という形式の質問が表示されることがよくあります。関心のある質問が何であるかを考慮せずに、仮説テストがそれに対処する良い方法であるかどうかは言うまでもありません。

難点の1つは、仮説検定が広く誤解され、広く誤用されていることです。人々はしばしば、そうではないことを教えてくれると考えます。p値は、仮説検定に関して最も誤解されやすいものです。


pnm

nnn

1
H1H1

3
n

3
+1。私の頭に浮かぶ関連する興味深い分析の1つは、Geoff Cummingが「p値のダンス」と呼ぶものです。youtube.com/ watch?v = 5OL1RqHrZQ8を参照してください(「ダンス」は約9分で発生します) 。この小さなプレゼンテーションでは、基本的に、比較的高い検出力に対してp値がどの程度変動するかを強調しています。私は、信頼区間がp値よりもはるかに優れているというカミングの主な点にはまったく同意しません(そして、彼がそれを「新しい統計」と呼ぶのは嫌いです)が、この量の変動は多くの人々にとって驚くべきことだと思います「ダンス」はそれを示すかわいい方法です。
アメーバは、モニカーを復活させる

10

Glen_bの答えはスポット(+1;私の補足を考慮してください)です。Talebが参照する論文は、p値の分布の分析からどのような情報を収集できるかについての心理学および統計文献内の一連の論文(著者がp曲線と呼んでいます。 p曲線解析アプリを含む多数のリソース(こちら)。

著者は、pカーブの2つの主要な使用法を提案しています。

  1. 文献のp曲線を分析することにより、文献の証拠価値を評価できます。これは彼らが最初に宣伝したp曲線の使用法でした。基本的に、Glen_bが説明しているように、0以外のエフェクトサイズを扱う場合、p値が小さいほどp-.05の従来のしきい値よりも下に正に歪むp曲線が表示されるはずです。pに近い値= .05効果(または効果のグループ)が「本物」の場合。したがって、証拠価値のテストとして、有意な正のスキューについてp曲線をテストできます。逆に、開発者は、特定の効果セットがさまざまな疑わしい分析プラクティスの対象になっているかどうかをテストする方法として、負のスキュー(つまり、小さいものよりも境界線の有意なp値)のテストを実行できることを提案します。
  2. パブリッシュされたp値を持つp曲線を使用して、効果サイズのパブリケーションバイアスなしのメタ分析による推定値を計算できます。これは簡潔に説明するのが少し難しいので、代わりに、効果サイズ推定に焦点を合わせた論文(Simonsohn、Nelson、&Simmons、2014a、2014b)をチェックして、自分でメソッドを読むことをお勧めします。しかし本質的に、著者は、メタ分析を実行する際に、p曲線を使用してファイルドロワー効果の問題を回避できることを示唆しています。

だから、あなたのより広範な質問に関して:

これをどのようにしてp値を支持する従来の議論と調和させることができますか?

Taleb(およびその他)のようなメソッドはp値を再利用する方法を見つけたので、p値のグループを分析することで文献全体に関する有用な情報を取得できますが、1つのp値はその有用性ははるかに限られています。

参照資料

シモンソン、U。、ネルソン、LD、およびシモンズ、JP(2014a)。Pカーブ:ファイルドロワーの鍵。実験心理学のジャーナル:一般143、534から547まで。

シモンソン、U。、ネルソン、LD、およびシモンズ、JP(2014b)。Pカーブと効果サイズ:重要な結果のみを使用して出版バイアスを修正します。心理学の展望9、666から681まで。

シモンソン、U。、シモンズ、JP、およびネルソン、LD(2015)。より良いP曲線:エラー、詐欺、野心的なPハッキングに対してP曲線分析をより堅牢にする、Ulrich and Miller(2015)への返信。実験心理学のジャーナル:一般144、1146年から1152年。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.