研究が過剰に行われるとはどういう意味ですか?


11

研究が過剰に行われるとはどういう意味ですか?

私の印象では、サンプルサイズが非常に大きく、ごくわずかな効果サイズを検出できるということです。これらの効果サイズはおそらく非常に小さいため、変数間の(必ずしも直接ではない)因果関係よりも、サンプリングプロセスのわずかなバイアスから生じる可能性が高くなります。

これは正しい直感ですか?もしそうなら、結果がそのように解釈され、見積もられた効果サイズが「意味のある」ほど十分に大きいかどうかを手動でチェックして確認する限り、私は大したことが何であるかわかりません。

何か不足していますか?このシナリオで何をすべきかについてより良い推奨事項はありますか?


この用語を直感的に理解したように聞こえます。
Henrik

回答:


11

あなたの解釈は間違っていると思います。

「これらの効果サイズはおそらく非常に小さいため、変数間の(必ずしも直接ではない)因果関係よりも、サンプリングプロセスのわずかなバイアスから生じる可能性が高い」と言います。 studyは、「適切に」駆動されたstudyからのP値と同じ種類のものではありません。それは間違いです。どちらの場合も、P値は、観測されたデータと同じくらい極端なデータを取得する確率、または帰無仮説が真の場合はさらに極端な確率を取得します。

Neyman-Pearsonアプローチを好む場合、「過剰パワー」調査から得られる偽陽性エラーの率は、両方に同じアルファ値が使用されている場合、「適切に」パワー調査のそれと同じです。

必要な解釈の違いは、過度に強力な研究の統計的有意性と科学的有意性の間に異なる関係があることです。実際には、効果がごくわずかであり、したがって重要性が疑わしいとしても、効果が高すぎる研究は、有意性を得る大きな可能性をもたらします。

「過大な」研究の結果が適切に解釈される限り(そして効果サイズの信頼区間がそのような解釈に役立つ)、「過大な」研究に統計的な問題はありません。その観点から、研究が実際に圧倒され得る唯一の基準は、他の回答で提起された倫理的およびリソース割り当ての問題です。


おかげで、これは非常に有益です。p値の定義は変更されないことを理解しています。確かに統計的な観点から見ると、タイプIのエラーの発生率は増加していません。
フランクバリー

1
定義により、p値のしきい値を設定する際にタイプIのエラー率を修正しています。ただし、ここでは「統計的」と「実用的」の重要性の違いに問題があるようです。サンプルサイズが予想される効果サイズよりもはるかに細かい違いを検出できる場合、統計的に正確に区別できる違いは実際には意味がありません(「エンドユーザー」の観点からは、これは事実上「誤検出」です。統計的なものではありません)。しかし、あなたが言うように、これは統計の領域の外に出始めます。
フランクバリー

1
すなわち、私は同意すると思います-「必要な解釈の違いは、統計的有意性と科学的有意性の間に異なる関係があることです」
フランクバリー

4

医学研究では、あまりにも多くの患者を募集する場合、治験は非倫理的であるかもしれません。たとえば、目標がどちらの治療法がより優れているかを決定することである場合、劣った治療法が確立された後で、より悪い治療法の患者を治療することはもはや倫理的ではありません。もちろん、サンプルサイズを大きくすると、効果のサイズをより正確に見積もることができますが、「サンプリングプロセスのわずかなバイアス」などの要因の影響が現れる前に十分に停止する必要がある場合があります。

十分に確認された研究の公的資金を使うことも非倫理的かもしれません。


1

あなたが言ったことはすべて理にかなっていますが(私があなたが何を言っているのかはわかりませんが)、私は特にそうです。統計的有意性とは対照的に、効果サイズに関するあなたのポイントのように。もう1つの考慮事項は、一部の調査では、各ケースの参加を得るために希少なリソースの割り当てが必要であるため、無理にやりすぎないようにすることです。


申し訳ありませんが、「大したこと」は編集上のコメントでは多すぎます。それが私が考えているよりも「大きな取引」であるかどうかの問題は、基本的に、私が無知である可能性がある追加の考慮事項があるかどうかの問題です。
フランクバリー

0

私の経験は、オンラインでのA / B実験から来ています。問題は通常、不十分な研究や間違ったものの測定です。しかし、圧倒的な研究では、比較可能な研究よりも信頼区間が狭く、p値が低く、分散が異なる可能性があるように思えます。これは同様の研究を比較することを難しくすることができると思います。たとえば、適切な検出力を使用して過剰検出研究を繰り返した場合、効果を正確に再現しても、p値は高くなります。大きなサンプルに現れる可能性が高い外れ値がある場合、サンプルサイズを大きくすると、ばらつきが生じたり、ばらつきが生じたりする可能性があります。

また、私のシミュレーションでは、関心のある効果以外の効果が、より大きなサンプルで大きくなる可能性があることを示しています。したがって、p値は結果が実際である確率を正確に示しますが、たとえば、偶然、制御できなかった一時的な影響、およびおそらく他のいくつかの組み合わせなど、考えている以外の理由で実際の値である可能性があります気づかずに導入した小さな効果。研究が少し圧倒されている場合、これのリスクは低いです。多くの場合、問題は適切なパワーを知ることが難しいことです。たとえば、ベースラインメトリックと最小ターゲット効果が推測であるか、予想とは異なることが判明した場合などです。

また、サンプルが多すぎると、適合度テストが重要ではない偏差に敏感になりすぎて、直観に反する結果になる可能性があると主張する記事にも出会いました。

とはいえ、低電力よりも高電力の方を優先するのが最善だと私は信じています。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.