P値ハッキングは、データ生成プロセスではノイズであり、真ではない「0.05」以下の「偽陽性」、つまりp値が得られるまで、さまざまな結果と仕様を調べる「技術」です。
サイズの処理グループとサイズ、 結果変数のコントロールグループがあり、pのp値をターゲットにしているとし:少なくとも1つの偽陽性の有意な結果が有意になる前確率を計算するにはどうすればよいですか?下で?
特性は独立して正規分布していると仮定でき、それが大幅に単純化された場合、ます。
P値ハッキングは、データ生成プロセスではノイズであり、真ではない「0.05」以下の「偽陽性」、つまりp値が得られるまで、さまざまな結果と仕様を調べる「技術」です。
サイズの処理グループとサイズ、 結果変数のコントロールグループがあり、pのp値をターゲットにしているとし:少なくとも1つの偽陽性の有意な結果が有意になる前確率を計算するにはどうすればよいですか?下で?
特性は独立して正規分布していると仮定でき、それが大幅に単純化された場合、ます。
回答:
iid Normal特性の仮定の下で、説明されている状況は、異なるサンプルサイズと異なる分散を考慮する可能性のある別個のウェルチのt検定によって処理されます。これらのテストの統計の意味。それぞれに関連付けられたp値は
ここで、は、処理されたグループと制御されたグループ間の母集団の平均が等しいという仮説であり、は有意水準依存します。 T 1 - α
対応する累積分布関数の観点から確率を書くことができます。
だから
データを見る前に状況を先験的に考えると、p値は将来存在し、ランダム変数としてモデル化できます。確率変数として見た場合、確率積分変換はが一様分布に従うことを示し、この分布の特性によりも同様になります。 U (0 、1 )のP J
すべての収集すると、独立したユニフォームのサイズのサンプルがあります。それらの少なくとも1つが特定の値(など)よりも小さい確率は、それらの最小値がこのしきい値よりも低い確率に等しくなります。これは次のように理解できます。 K U (0 、1 )P *
独立性などのため、それらは同一に分散されているため、
しかし、これは最小の iidランダム変数の累積分布関数です。
この最小ます。
最小のCDF 独立U (0 、1 )変数であります
確率が欲しい
指示値:
他の答えは良いですが、私はわずかに異なる焦点を持つ別の答えが良い補完になるかもしれないと思いました。
サンプルサイズは通常、偽陽性率に影響しますか?
コメントから判断すると、質問はこの記事によって促されたと思います。この記事には、いくつかの間違い(または少なくとも誤解)が含まれています。
第一に(そして最も心配なことに)p値を誤って定義しますが、より適切には、「少数の人々について多数のことを測定すると、「統計的に有意な」結果を得ることがほぼ保証されます。 」
p値は、帰無仮説が真であると仮定した場合に、実際に観測された結果と同じくらい極端な結果を観測する確率です。他の回答で指摘したように、これは、サンプルサイズ、基礎となる分布などに関係なく、0〜1の間で均一に分布する必要があることを意味します。
したがって、文は「少数の人々について多数のことを測定する場合、「統計的に有意な」結果を得ることがほぼ保証されているはずです。」
記事で正しく計算されているように、チョコレートがまったく何もしなくても、重要な結果が得られる可能性は60%でした(独立性など)。
彼らは実際に3つの重要な結果を得ましたが、これは非常に驚くべきことです(おそらく非現実的な独立性の仮定の下でp = 0.06)。
サンプルサイズは誤検知率に影響しますか?
実際には時々そうなりますが、サンプルサイズが本当に小さい場合にのみ実際に違いが生じます。
(帰無仮説が真であると仮定して)私は、p値が均一に分布する必要があると言いました。しかし、均一な分布は連続的であり、多くのデータは離散的であり、結果は限られています。
バイアスがかけられているかどうかを確認するためにコインを数回投げると、可能な結果はわずかであり、したがってp値も考えられるため、潜在的なp値の分布は均一分布の非常に悪い近似です。ひっくり返す回数が少ないと、大きな結果を得ることができないかもしれません。
以下は、実際にそれが起こった場合の例です。
したがって、「十分に少数の人々について特定のタイプのことを測定する場合、何回試行しても「統計的に有意な」結果が得られることはありません。」
これは、結果が正の場合、サンプルサイズについて心配するべきではないということですか?
いいえ。肯定的な結果の中には偽陽性であり、いくつかは真陽性です。上記で説明したように、通常、偽陽性率は固定されていると想定するのが安全です(通常5%)。ただし、サンプルサイズが小さいと、常に真陽性が発生する可能性が低くなります(サンプルサイズが小さいということは、テストの出力が低くなることを意味します)。また、同じ数の偽陽性があり、真陽性が少ない場合、無作為に選択された陽性結果は偽である可能性が高くなります。
上記の優れた答えに追加する価値があると思われるものが1つあります。それは、本質的にメタナンバーゲームも同様に進行しているということです。20人の科学者全員が、「チョコレートは心臓発作を引き起こす」など、弱相関の可能性があるものを探して同じ一連の実験を行い、率直に言ってはいけないp値<0.05を受け入れます。累積確率は、1人の科学者が重要な発見を得るということです。これは、否定的な結果がめったに受け入れられないため、公開される1つの実験です。その結果、この発見がこの世界のビルト・ツァイトゥングスに取り上げられ、誤報される可能性が100%あります。
残念ながら、調査結果がないことを報告していないため、私たちは幸運になるすべての実験を間違った意味で報告するという惑星規模の演習に本質的に従事しています。
強力な理論的基礎を持つ被験者の場合、優れた実験計画はこれに対してある程度の保護を提供します-主に観測データで作業し、経済学のように理論を実行しようとする被験者は大きな問題です。
追加:問題全体に関する広範な(そして非常によく書かれた)議論については、最近の議論を始めた論文を参照してください。