The problem with fishing expeditions is this: if you test enough hypotheses, one of them will be confirmed with a low p value. Let me give a concrete example.
Imagine you have are doing an epidemiological study. You have found 1000 patients that suffer from a rare condition. You want to know what they have in common. So you start testing - you want to see whether a particular characteristic is overrepresented in this sample. Initially you test for gender, race, certain pertinent family history (father died of heart disease before age 50, …) but eventually, as you are having trouble finding anything that "sticks", you start to add all kinds of other factors that just might relate to the disease:
- is vegetarian
- has traveled to Canada
- finished college
- is married
- has children
- has cats
- has dogs
- drinks at least 5 glasses of red wine per week
…
今ここにあるものです。十分な「ランダム」仮説を選択すると、これらの少なくとも1つが0.05未満のp値をもたらす可能性が高くなります。これは、p値の本質は効果はありません」。別の言い方をすると、平均して、テストする20の偽の仮説ごとに、そのうちの1つが<0.05のapを与えます。
これはXKCD漫画http://xkcd.com/882/に非常によく要約されています。
悲劇は、個々の著者が重要性を探すためにサンプルに対して20の異なる仮説検定を実行しなくても、同じことをしている他の19人の著者が存在する可能性があるということです。そして、相関関係を「発見」する人は、興味深い論文を書くことができ、出版物として受け入れられる可能性があります...
これは、再現性のない結果をもたらす不幸な傾向につながります。個々の著者としてこれを防ぐ最善の方法は、水準を高く設定することです。個々の要因をテストする代わりに、「N個の仮説をテストした場合、少なくとも1つの誤検知が発生する確率はどれくらいか」を自問してください。「釣り仮説」を実際にテストしているときは、Bonferroni補正を行うことを考えることができます。、これを防ぐを -しかし、人々はしばしばそうしません。
Ioannides博士による興味深い論文がいくつかありました。このテーマについては、特に大西洋マンスリーで紹介されました。
いくつかの洞察に富んだ回答とともに、この以前の質問も参照してください。
質問のすべての側面によりよく対応するように更新します。
「釣り」をしているのではないかと心配しているのに、どのような仮説を立てるべきかわからない場合は、データを「探索」、「複製」、「確認」のセクションに確実に分割できます。原則として、これにより前述のリスクへのエクスポージャーが制限されます。探索データのp値が0.05で、複製データと確認データで同様の値を取得した場合、誤ったリスクが低下します。「正しく行う」ことの良い例は、British Medical Journal(17以上のインパクトファクターを持つ非常に尊敬されている出版物)に示されました。
未産婦の合併症のない妊娠に関連する要因の調査と確認:前向きコホート研究、チャペルら
関連する段落は次のとおりです。
5628人の女性のデータセットを3つの部分に分割しました。オーストラリアとニュージーランドの女性の残り3分の1のローカル複製データセット(n = 1067)。英国とアイルランド共和国からの2432人のヨーロッパの女性の外部の地理的に明確な確認データセット。
文献を少し遡ると、Altmanらによる「予後と予後の研究:予後モデルの検証」という題名の良い論文があります。このエラー。記事の「主なポイント」:
未検証モデルは臨床現場では使用しないでください予後モデルを検証する場合、キャリブレーションと差別を評価する必要がありますモデルの開発に使用したデータとは異なるデータ、できれば他の施設の患者からの検証を行う必要がありますモデルは実際にはうまく機能しない可能性があります開発方法の不備、または新しいサンプルが元のサンプルとあまりにも異なるため
特に、他のソースからのデータを使用して検証を行うという提案に注意してください。つまり、データを任意にサブセットに分割するだけでは十分ではありませんが、1セットから「学習」することを証明するためにできることを行う必要があります実験セットは、異なる実験セットのデータに適用できます。それは高い水準ですが、セットアップの体系的な偏りが独立して検証できない「結果」を作成するリスクをさらに減らします。
これは非常に重要なテーマです-質問してくれてありがとう!