能力不足の研究では、誤検知の可能性が増加していますか?


23

この質問はここここで以前に尋ねられましたが、答えが質問に直接対処するとは思いません。

能力不足の研究では、誤検知の可能性が増加していますか?いくつかのニュース記事がこの主張をしています。以下の場合の例

低い統計的検出力は悪いニュースです。能力不足の研究は、本物の効果を見逃す可能性が高く、グループとしては、偽陽性の割合が高い可能性が高くなります。つまり、現実ではなくても統計的有意性に達する効果です。

私が理解しているように、テストの力は次のように高めることができます。

  • サンプルサイズを増やす
  • エフェクトサイズが大きい
  • 有意水準を上げる

有意水準を変更したくないと仮定すると、上記の引用はサンプルサイズの変更に言及していると思います。ただし、サンプルを減らすことで誤検出の数がどのように増えるかはわかりません。簡単に言えば、研究の力を弱めると、質問に答える偽陰性の可能性が高まります。

P拒否しない H0|H0 間違っている

それどころか、誤検知は質問に応答します。

P拒絶する H0|H0 本当です

条件が異なるため、両方とも異なる質問です。パワーは、(逆に)偽陰性に関連していますが、偽陽性には関連していません。何か不足していますか?


4
統計的な検出力に依存するのは偽陽性率ではなく、「偽発見率」:PH0本当です|拒絶するH0
Jake Westfall

2
はい、それは有線の記事の声明の正しい解釈のようです。
ロバートスミス

回答:


30

サンプルサイズがパワーに影響する(つまり、1-タイプIIエラー)が、タイプIエラーではないという点で正しい。サンプルサイズが小さい場合、p値自体(正しく解釈された)の信頼性や有効性が低いというのはよくある誤解です。Friston2012の非常に面白い記事はそれについておもしろい見解を持っています[1]。

とはいえ、力不足の研究の問題は現実的であり、引用はおおむね正しいと思いますが、その文言は少し不正確です。

能力不足の研究の基本的な問題は、仮説検定の誤検知率(タイプIエラー)は固定されているが、真の検知率(パワー)が低下することです。したがって、肯定的な(=有意な)結果は、力不足の研究では真の肯定的である可能性は低くなります。この考えは、誤発見率[2]で表されます。[3]も参照してください。これは引用が指すものと思われます。

能力不足の研究に関してしばしば命名される追加の問題は、それらが過大評価された効果の大きさにつながることです。その理由は、a)パワーが低い場合、真の効果の推定値は真の値の周りでより変動(確率的)になり、b)パワーが低い場合、これらの効果の中で最も強いもののみが有意フィルターを通過するためです。ただし、これは重大な影響だけでなく、すべてを議論して報告することで簡単に修正できる報告の問題であると付け加えてください。

最後に、能力不足の研究に関する重要な実用的問題は、低電力により統計的問題(推定量の偏りなど)が増加するだけでなく、変数や同様のPハッキング戦術をいじる誘惑が増えることです。これらの「研究者の自由度」を使用することは、電力が低いときに最も効果的であり、これは結局タイプIエラーを増加させる可能性があります。たとえば、[4]を参照してください。

したがって、これらすべての理由から、私は力不足の研究については本当に懐疑的です。

[1] K. Friston(2012)非統計的レビューア向けの10の皮肉なルール。NeuroImage、61、1300-1310。

[2] https://en.wikipedia.org/wiki/False_discovery_rate

[3]ボタン、KS。ヨアニディス、JPA; モクリズ、C .; ノセック、BA; フリント、J .; Robinson、ESJ&Munafo、MR(2013)停電:小さいサンプルサイズが神経科学の信頼性を損なう理由。Nat。Rev. Neurosci。、14、365-376

[4]シモンズ、JP; Nelson、LD&Simonsohn、U.(2011)偽陽性心理学:データ収集と分析の非公開の柔軟性により、あらゆるものを重要なものとして提示できます。Psychol Sci。、22、1359-1366。


ありがとうございました。優れたリファレンス。完全を期すために、[1]はここにあり、[3]はここにあります。偽発見率について話すとき、それは正しい概念ですか?[3]に基づいて、多分あなたは力不足の研究が低いPPVを持っている正の予測値(PPV)を意味した(つまり、真の陽性は高力の研究にあるべきほど頻繁ではありません) PPVの補数。
ロバートスミス

私の理解では、これらの概念は同一であり、PPV = 1-FDRです。私はFDRの使用を好みます。なぜなら、この言葉は直感的に理解しやすいからです。
フロリアンハーティグ


2
Tal Yarkoniは、ここで Fristonの記事について間違ったことをすべて指摘しています
ジョナ

1
@jona-Tal Yarkoniは彼のブログ投稿でいくつかの良い点を挙げていると思います。1文の要約は「低電力は問題です」と思われますが、これはまさに上記のとおりです。Fristonのレビュアーのコメントの風刺画はおもしろいと思います。なぜなら、レビュアーは、計算された検出力を必要とする説得力のある議論なしに「サンプルサイズが小さすぎる」ということが起こるからです。
フロリアンハーティグ

6

見方によっては、特定のシナリオで低消費電力誤検知率を高める可能性があります。

次のことを考慮してください。研究者が治療をテストします。テストが取るに足らないものとして戻ってきた場合、彼らはそれを放棄し、次の治療に移ります。テストが重要に戻った場合、彼らはそれを公開します。また、研究者が有効な治療法とそうでない治療法をテストすることを考えてみましょう。研究者の能力が高い場合(もちろん、効果のある治療法をテストしている場合を指します)、効果的な治療法をテストした後、研究者は停止する可能性が非常に高くなります。一方、低出力では、彼らは本当の治療効果を見逃し、他の治療に移行する可能性があります。彼らがテストするヌル治療が多ければ多いほど、彼らはタイプIエラーを犯す可能性が高い(この研究者は多重比較を考慮していない)。低電力の場合、彼らはより多くのヌル治療をテストすることが期待されています。

「まあ、これは単なる多重比較を悪用している研究者です!」と言うかもしれません。まあ、それは本当かもしれませんが、それは最近多くの研究が行われている方法でもあります。まさにこれらの理由から、研究者が同じ実験を何度も繰り返す余裕がないほど十分に大きいサンプルサイズを持たない限り、私は個人的に出版された作品にほとんど信頼を持ちません。


1
ありがとうございました。でも、(適切な修正なし)多重比較の場合を無視して、私が説明するように、あなたがPPVの別のインスタンスを記述していると思いますここに。段落を貼り付けることはできませんが、(For example, suppose that we work in a scientific field in which one in five of the effects we test are expected to be truly non-null)で始まる
ロバートスミス

1
ああ、それは私が言及していたことを非常に詳しく説明しています。最小の違いは、「特定の実験手順では、真の効果の各テストで個別の低電力を使用すると、実験手順全体でタイプIエラーを使用する可能性が高くなる」ということです。もちろん、これは、各統計テストでタイプIエラー率を増やすこととは異なります。また、PPVとは最も技術的な意味でのみ異なります。しかし、これはメディアの声明「低電力でタイプIのエラーが増加する」が意味をなす唯一の方法です(そして、それは非常に理にかなっていると思います)。
クリフAB

4

低電力はタイプ1エラー率に影響を与えることはできませんが、タイプ1エラーである公開結果の割合に影響を与える可能性があります。

その理由は、電力が低いとH0(タイプ2エラー)が正しく拒否される可能性が減りますが、H0(タイプ1エラー)が誤って拒否される可能性は減らないからです。

一瞬、2つの文献があると仮定します... 1つは非常に低い電力(ゼロに近い)で行われ、もう1つは適切な電力で行われます。両方の文献で、H0が偽の場合でも、しばらくの間はまだ偽陽性になると想定できます(たとえば、alpha = .05の場合は5%)。研究者の仮説が常に正しいとは限らないと仮定すると、両方の文献に同様のNUMBERのタイプ1エラーがあり、良い力があるかどうかは推測できます。これは、他の人が言ったように、タイプ1エラーの割合が電力の影響を受けないためです。

ただし、低消費電力の文献では、多くのタイプ2エラーも発生します。言い換えれば、低消費電力の文献はH0の拒絶を修正し、タイプ1のエラーを文献のより大きな割合にする必要があります。ハイパワーの文献では、H0の正しい拒否と誤った拒否が混在している必要があります。

それで、低電力はタイプ1エラーを増加させますか?いいえ。ただし、真の効果を見つけるのが難しくなり、タイプ1のエラーが公表された発見の大部分を占めるようになります。


1
ありがとうございました。PPVはどうですか?Florian Hartigが参照した論文には、タイプIのエラーが与えられた場合、パワーが低いほどPPVが低いという主張があります。PPVが低い場合、つまり、真の主張された発見の数が少ない場合、偽の主張された発見(誤検出)の数は増加するはずです。
ロバートスミス

0

他の回答に加えて、通常、サンプルサイズが小さい場合、研究の能力は低下します。漸近的にのみ有効で、小さなnに対して楽観的または保守的すぎるテストが多数あります。

他のテストは、特定の条件が満たされている場合に小さなサンプルサイズに対してのみ有効ですが、大きなサンプルサイズではより堅牢になります(t検定など)。

どちらの場合も、サンプルサイズが小さく、仮定が満たされていない場合、タイプIのエラー率が高くなる可能性があります。これらの状況は両方とも頻繁に発生するので、あなたの質問に対する本当の答えは、理論上ではなく実際上です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.