P値ハッキング


6

P値ハッキングは、データ生成プロセスではノイズであり、真ではない「0.05」以下の「偽陽性」、つまりp値が得られるまで、さまざまな結果と仕様を調べる「技術」です。

サイズNの処理グループとサイズMK結果変数のコントロールグループがあり、pのp値をターゲットにしているとしp:少なくとも1つの偽陽性の有意な結果が有意になる前確率を計算するにはどうすればよいですか?下でp

K特性は独立して正規分布していると仮定でき、それが大幅に単純化された場合、M=Nます。


完全な開示:というかなり興味深い結果に感銘を受けましたM+N=50。それらの興味深い結果が、関心のある変数が多すぎることに起因する可能性の大まかな近似を取得したいと思います。
FooBar

帰無仮説とは正確には何ですか?与えられた特性の平均が両方のグループで同じであること?(そして、これはすべてのK変数について繰り返されます。)確信はありませんが、基礎となる確率分布のタイプについても何か言わなければならないと思います。
ギスカード

おそらく興味深く、関連する記事。記事からの引用、「藤井のその後の解雇はすぐに彼の仕事についての忌々しい証拠の洪水が続きました。3月8日、麻酔はイギリスのトーキーにあるトーベイ病院のコンサルタント麻酔医ジョン・カーライルによる分析を発表しました。藤井の論文は、「限りなく小さい可能性」という結果をもたらしました。"要約:ある男が統計を使用して、藤井佳孝の複数の結果が偽物であることを示しました
cc7768

1
トピック外=> stats.stackexchange.com

2
Foobar、ええ、それが関連する可能性のあるハハを言った理由です-それはまったく直接的な関係ではありませんが、あなたの質問はそれを思い出させました。あなたの記事はもう少し関連しているように見えます:) @AndréPeseur、私たちのウェブサイトとクロスバリデーションの間にトピックの重複があると思います。私は、計量経済学はここで話題になるべきだと思う-SEのプロでも何でもない。同意できない場合は、メタポストを開始してさらに議論することもできます。
cc7768

回答:


9

iid Normal特性の仮定の下で、説明されている状況は、異なるサンプルサイズと異なる分散を考慮する可能性のある別個のウェルチのt検定によって処理されます。これらのテストの統計の意味。それぞれに関連付けられたp値はtj,j=1,...,K

pj=Pr|tj|tαH0

ここで、は、処理されたグループと制御されたグループ間の母集団の平均が等しいという仮説であり、は有意水準依存します。 T 1 - αH0t1α

対応する累積分布関数の観点から確率を書くことができます。

Pr|tj|tαH0=1F|tj|

だから

pj=1F|tj|1pj=F|tj|

データを見る前に状況を先験的に考えると、p値は将来存在し、ランダム変数としてモデル化できます。確率変数として見た場合、確率積分変換はが一様分布に従うことを示し、この分布の特性によりも同様になります。 U 0 1 のP J1pjうん01pj

すべての収集すると、独立したユニフォームのサイズのサンプルがあります。それらの少なくとも1つが特定の値(など)よりも小さい確率は、それらの最小値がこのしきい値よりも低い確率に等しくなります。これは次のように理解できます。 K U 0 1 P *pjKうん01p

Pr(At least one pjp)=Pr(Not all pj>p)

=1Pr(All pj>p)=1j=1KPr(pj>p)

独立性などのため、それらは同一に分散されているため、

Pr(At least one pjp)=1[1Pr(pp)]K=1[1Fうんp]K

しかし、これは最小の iidランダム変数の累積分布関数です。K

この最小ます。p1

最小のCDF 独立U 0 1 変数でありますKうん01

Fp1p1=1[1p1]K

確率が欲しい

Prp1p=1[1p]K

指示値:

ここに画像の説明を入力してください


おそらく異なるサンプルサイズと異なる分散を説明するウェルチのt検定」。これまでに返信をざっと見る時間しかありませんでしたが、サンプルサイズNが写真に入る場所を見つけることができません。最後の表はサンプルサイズによってどのように異なりますか?MN
FooBar

2
そうではありません。確率変数として、p値は状況の他の側面が何であれ、均一(0,1)です。重要なのはのサイズだけです。K
アレコスパパドプロス

それは奇妙だ。このリンクは何か他のことを主張しています:「少数の人々について多くのことを測定する場合、「統計的に有意な」結果を得ることがほぼ保証されます。レベル、睡眠の質、健康など、15人から。」ここで異なる結果につながる根本的な前提は何ですか?
FooBar

1
K

そうですか。だから、彼の処方「少数の人々についてのものの大多数が」間違ったことを意味し、それは、「人々の数が少ない」なしでなければなりません
FooBarの

3

Prp1p=1[1p]K
nMNM

μσNμσ2/nNμσ2/M

N0σ2/n+σ2/m

σμバツ1バツ2sバツ1バツ2

t=バツ¯1バツ¯2sバツ1バツ21n+1m
sバツ1バツ2=n1sバツ12+m1sバツ22n+m

NM2


1
確かに標本サイズは検定統計量に入りますが、OPが求める特定の確率(つまり、所定のしきい値よりも低いp値を少なくとも1つ取得するアプリオリ確率)には影響しません。
アレコスパパドプロス

適切に指定されたテストは、サンプルのサイズと自由度と同じように多重比較を組み込みます--そうですか?これは、多重比較ディメンションのみに沿って誤った検定統計量を使用することに関する質問ですが、個々の比較ディメンションで適切に指定されていますか?なぜなら、検定統計量にmとnが存在するのは、サンプルサイズが小さいほど帰無仮説の下で大きな差がある可能性が高いためです。
–BKay

1
ここでの重要な点は、アプリオリ、a)p値が他のもの(サンプルサイズなど)に関係なく、限界U(0,1)分布を持つことです。これは、あらゆる種類の状況で一般的な結果です。これは直感的である必要があります。p値にアプリオリな不均一な分布があった場合はどうなりますか?CONTD
アレコスパパドプロス

1
CONTD 状況の詳細に関係なく、その値の一部が他の値よりも高い可能性があることを意味します。しかし、これはテスト手順全体を無効にします。まさに、「テストの対象、サンプルサイズなどは関係ありません。p値のこの値は他の値よりも高い可能性がある」ことを意味するからです。
アレコスパパドプロス

長い議論をありがとうございました。これについてさらに学ぶ必要があり、これは間違いなく大学院研究カリキュラムの一部であると思います。
FooBar

2

他の答えは良いですが、私はわずかに異なる焦点を持つ別の答えが良い補完になるかもしれないと思いました。

サンプルサイズは通常、偽陽性率に影響しますか?

コメントから判断すると、質問はこの記事によって促されたと思います。この記事には、いくつかの間違い(または少なくとも誤解)が含まれています。

第一に(そして最も心配なことに)p値を誤って定義しますが、より適切には、「少数の人々について多数のことを測定すると、「統計的に有意な」結果を得ることがほぼ保証されます。 」

p値は、帰無仮説が真であると仮定した場合に、実際に観測された結果と同じくらい極端な結果を観測する確率です。他の回答で指摘したように、これは、サンプルサイズ、基礎となる分布などに関係なく、0〜1の間で均一に分布する必要があることを意味します。

したがって、文は少数の人々について多数のことを測定する場合、「統計的に有意な」結果を得ることがほぼ保証されているはずです。」

記事で正しく計算されているように、チョコレートがまったく何もしなくても、重要な結果が得られる可能性は60%でした(独立性など)。

彼らは実際に3つの重要な結果を得ましたが、これは非常に驚くべきことです(おそらく非現実的な独立性の仮定の下でp = 0.06)。

サンプルサイズは誤検知率に影響しますか?

実際には時々そうなりますが、サンプルサイズが本当に小さい場合にのみ実際に違いが生じます。

(帰無仮説が真であると仮定して)私は、p値が均一に分布する必要があると言いました。しかし、均一な分布は連続的であり、多くのデータは離散的であり、結果は限られています。

バイアスがかけられているかどうかを確認するためにコインを数回投げると、可能な結果はわずかであり、したがってp値も考えられるため、潜在的なp値の分布は均一分布の非常に悪い近似です。ひっくり返す回数が少ないと、大きな結果を得ることができないかもしれません。

以下は、実際にそれが起こった場合の例です。

したがって、「十分に少数の人々について特定のタイプのことを測定する場合、何回試行しても「統計的に有意な」結果が得られることはありません。」

これは、結果が正の場合、サンプルサイズについて心配するべきではないということですか?

いいえ。肯定的な結果の中には偽陽性であり、いくつかは真陽性です。上記で説明したように、通常、偽陽性率は固定されていると想定するのが安全です(通常5%)。ただし、サンプルサイズが小さいと、常に真陽性が発生する可能性が低くなります(サンプルサイズが小さいということは、テストの出力が低くなることを意味します)。また、同じ数の偽陽性があり、真陽性が少ない場合、無作為に選択された陽性結果は偽である可能性が高くなります。


私はあなたの最後の2つの段落に混乱しています。それは正しいですサンプルサイズが小さくなると、陽性の確率が減少し、真陽性の確率は偽陽性の確率よりも小さくなりますか?もしそうなら、どのようにその試合はでない「小さなサンプルは、偽陽性が多いことはできませんが、それは彼らが少ないことができます。
FooBarの

漠然と妥当なサンプルサイズの場合、偽陽性率は5%に固定されていると想定しても安全です。しかし、サンプルがどれほど大きくても、人を追加すると真陽性率が増加します。今はあまり時間がないので、非常に簡単な編集しかできませんが、機会があればすぐに言葉遣いを改善しようと思います。
ラウル

2

上記の優れた答えに追加する価値があると思われるものが1つあります。それは、本質的にメタナンバーゲームも同様に進行しているということです。20人の科学者全員が、「チョコレートは心臓発作を引き起こす」など、弱相関の可能性があるものを探して同じ一連の実験を行い、率直に言ってはいけないp値<0.05を受け入れます。累積確率は、1人の科学者が重要な発見を得るということです。これは、否定的な結果がめったに受け入れられないため、公開される1つの実験です。その結果、この発見がこの世界のビルト・ツァイトゥングスに取り上げられ、誤報される可能性が100%あります。

残念ながら、調査結果がないことを報告していないため、私たちは幸運になるすべての実験を間違った意味で報告するという惑星規模の演習に本質的に従事しています。

強力な理論的基礎を持つ被験者の場合、優れた実験計画はこれに対してある程度の保護を提供します-主に観測データで作業し、経済学のように理論​​を実行しようとする被験者は大きな問題です。

追加:問題全体に関する広範な(そして非常によく書かれた)議論については、最近の議論を始めた論文を参照してください。

偽発見率とp値の誤解の調査David Colquhoun


これは非常に良い発言です。この問題は、以前の論文にも基づいた調査結果とメタ調査結果を悩ませています。しかし、思考実験は個々のハック科学者がチャンスを測定しているように見えるので、おそらくこの特定の質問とは同期していないと思いますか?
ギスカード

私は同意しませんが、Foobarは彼が見ている論文の文脈で尋ねていたので、最悪のケースの分析を投げても害はないと思いました。
ルミ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.