観測データ(釣り遠征)と一致するように仮説を変更し、タイプIエラーの増加を回避することは可能ですか?


32

研究者は、仮説を形成し、その仮説を検証するためにデータを収集する前に、既存のデータと研究の観察と調査に時間を費やす必要があることはよく知られています(帰無仮説有意性検定を参照)。多くの基本的な統計の本は、仮説を先験的に形成する必要があり、データ収集後に変更できないことを警告します。そうしないと、方法論が無効になります。

私は1つの理由はなぜ観測データを合わせて仮説を変更する問題があることを理解しては理由による偽データにタイプIエラーを犯すの大きなチャンスであるが、私の質問は:であることだけで行くと、他の根本的な問題がある理由か釣り遠征で?

おまけの質問として、潜在的な落とし穴にさらされることなく釣り遠征に行く方法はありますか?たとえば、十分なデータがある場合、データの半分から仮説を生成し、残りの半分を使用してそれらをテストできますか?

更新

私の質問への関心に感謝しますが、答えとコメントは、私が背景情報として確立したと思ったものを主な目的としています。スプリアス結果の可能性が高いこと以外に悪い理由がにあるかどうか、そしてデータを最初に分割するなど、仮説を事後に変更するがタイプIエラーの増加を避ける方法があるかどうかを知りたい思っています。

質問の趣旨をうまく反映してタイトルを更新しました。

ありがとう、そして混乱してごめんなさい!



1
すでに言われたことに対する別の観点をとる:科学的方法の本質は、仮説を立て、それからそれらが理論になる可能性があるためにそれらを偽造することです(偽造が失敗した場合)。釣りの遠征に行くことは、後の実験で改ざんする価値のある仮説を見つけるための有効な方法ですが、一度に仮説を立てて改ざんすることはできません。特に、仮説を調整することに心を開いている場合、それを改ざんしようとはしていません。代わりに、調整すると、未調整の仮説を偽造して、新しい仮説を作成します。
Wrzlprmft

@jona、これは素晴らしい論文です。私はすでにイオアニディスとスクーラーの両方の論文を読んでいますが、シモンズ は問題を素晴らしく説明しています。
ポストホック

1
stat.columbia.edu/~gelman/research/published/multiple2f.pdfの質問に関連するこの論文も見つかるかどうか疑問に思っています。まったく同じテーマではありませんが、その1つの側面に対応しています。
a11msp

1
データによって仮説が変わる可能性があります...しかし、その場合は、新しい仮説を確認するためにゼロから新しいデータの収集を開始する必要があります。
ケシュラム

回答:


54

釣り遠征であることを認め、そのように扱う限り、釣り遠征に行くことができます。このようなより良い名前は「探索的データ分析」です。

より良い例えは、ターゲットを撮影することです。

あなたは標的を撃ち、雄牛の目を打ったかどうかを祝うことができます。

銃の特性をテストするために、ターゲットなしで撃つことができます。

しかし、壁を撃ち、銃弾の穴の周りにターゲットをペイントするのはごまかしです。

これに関する問題のいくつかを回避する1つの方法は、トレーニングデータセットで調査を行い、それを別の「テスト」データセットでテストすることです。


13
ピーターの答えを改善するのは難しいです。データdrの多くに伴う不幸な問題は、仮説が完全に事前に指定されていなかった、つまり「探索的」という用語を使用していなかったという著者による承認の欠如です。多くの多くの研究者は、出版可能な論文を得るためにデータをdrしており、検証の試みをフォローアップしていません(失望することが多い)。
フランクハレル

2
Taking Frank Harrell's comment a step further: it's legitimate to explore some data and publish an intriguing finding... as an intriguing, exploratory finding that's subject to being reproduced/validated. The downside is: if someone else confirms your findings they may well get the glory, and if others do not confirm your results you were fooled by a spurious correlation. Bad if you have a big ego. Not to mention you would need to make your data and procedures publicly available, which many practitioners in many fields wont't do. And you should follow up with new data rather than moving on.
Wayne

11
+1 But it's cheating to shoot at a wall and then paint a target around the bullet hole.
WernerCD

3
@post-hoc well, it shouldn't raise eyebrows, but it might. Depends on whose eyes are under the brows!
Peter Flom - Reinstate Monica

2
Texas Sharpshooter Fallacy..
smci

25

The problem with fishing expeditions is this: if you test enough hypotheses, one of them will be confirmed with a low p value. Let me give a concrete example.

Imagine you have are doing an epidemiological study. You have found 1000 patients that suffer from a rare condition. You want to know what they have in common. So you start testing - you want to see whether a particular characteristic is overrepresented in this sample. Initially you test for gender, race, certain pertinent family history (father died of heart disease before age 50, …) but eventually, as you are having trouble finding anything that "sticks", you start to add all kinds of other factors that just might relate to the disease:

  • is vegetarian
  • has traveled to Canada
  • finished college
  • is married
  • has children
  • has cats
  • has dogs
  • drinks at least 5 glasses of red wine per week

今ここにあるものです。十分な「ランダム」仮説を選択すると、これらの少なくとも1つが0.05未満のp値をもたらす可能性が高くなります。これは、p値の本質は効果はありません」。別の言い方をすると、平均して、テストする20の偽の仮説ごとに、そのうちの1つが<0.05のapを与えます

これはXKCD漫画http://xkcd.com/882/に非常によく要約されています。

enter image description here

悲劇は、個々の著者が重要性を探すためにサンプルに対して20の異なる仮説検定を実行しなくても、同じことをしている他の19人の著者が存在する可能性があるということです。そして、相関関係を「発見」する人は、興味深い論文を書くことができ、出版物として受け入れられる可能性があります...

これは、再現性のない結果をもたらす不幸な傾向につながります。個々の著者としてこれを防ぐ最善の方法は、水準を高く設定することです。個々の要因をテストする代わりに、「N個の仮説をテストした場合、少なくとも1つの誤検知が発生する確率はどれくらいか」を自問してください。「釣り仮説」を実際にテストしているときは、Bonferroni補正を行うことを考えることができます。、これを防ぐを -しかし、人々はしばしばそうしません。

Ioannides博士による興味深い論文がいくつかありました。このテーマについては、特に大西洋マンスリーで紹介されました

いくつかの洞察に富んだ回答とともに、この以前の質問も参照してください。

質問のすべての側面によりよく対応するように更新します。

「釣り」をしているのではないかと心配しているのに、どのような仮説を立てるべきかわからない場合は、データを「探索」、「複製」、「確認」のセクションに確実に分割できます。原則として、これにより前述のリスクへのエクスポージャーが制限されます。探索データのp値が0.05で、複製データと確認データで同様の値を取得した場合、誤ったリスクが低下します。「正しく行う」ことの良い例は、British Medical Journal(17以上のインパクトファクターを持つ非常に尊敬されている出版物)に示されました。

未産婦の合併症のない妊娠に関連する要因の調査と確認:前向きコホート研究、チャペル

関連する段落は次のとおりです。

5628人の女性のデータセットを3つの部分に分割しました。オーストラリアとニュージーランドの女性の残り3分の1のローカル複製データセット(n = 1067)。英国とアイルランド共和国からの2432人のヨーロッパの女性の外部の地理的に明確な確認データセット。

文献を少し遡ると、Altmanらによる「予後と予後の研究:予後モデルの検証」という題名の良い論文があります。このエラー。記事の「主なポイント」:

未検証モデルは臨床現場では使用しないでください予後モデルを検証する場合、キャリブレーションと差別を評価する必要がありますモデルの開発に使用したデータとは異なるデータ、できれば他の施設の患者からの検証を行う必要がありますモデルは実際にはうまく機能しない可能性があります開発方法の不備、または新しいサンプルが元のサンプルとあまりにも異なるため

特に、他のソースからのデータを使用して検証を行うという提案に注意してください。つまり、データを任意にサブセットに分割するだけでは十分ではありませんが、1セットから「学習」することを証明するためにできることを行う必要があります実験セットは、異なる実験セットのデータに適用できます。それは高い水準ですが、セットアップの体系的な偏りが独立して検証できない「結果」を作成するリスクをさらに減らします。

これは非常に重要なテーマです-質問してくれてありがとう!


7
これが思い浮かびます:xkcd.com/882
イェンス

2
@jens-それは私が与えたものよりもはるかに雄弁な説明です...そのリンクをありがとう。いつものように- 行う少しジンガーのための漫画の上にマウスをホバー。
フローリス

ヨアニデスとレーラーの記事は、私をここに連れてきた道でした。あなたの例は、@ jona 言及したSimmons et alの例に似ています。タイプIエラーの増加する可能性を説明する非常に良い方法ですが、それが悪い理由は他にもありますか?
ポストホック

1
一般的なデータdrの問題は、「相関」と「原因」を交絡させるリスクがあることです。最初に合理的な仮説を考え出し、それが観察の説明に役立つことを確認することにより、2つを混同するリスクを制限します。「ビッグデータ」は、多くの場合、他の道を行く-彼らの手口は、「私は十分なデータを分析する場合、私は過去に真開催され、それが将来的に開催していきますパターンが表示されます」です。時には機能することもあれば、機能しないこともあります。統計は、思考と理解の代わりになることは決してありません- 確認のみです。
フローリス

6
主な問題は相関関係と因果関係ではないと思います。関連付けがレプリケートされないことを見つけるためだけに、お粗末な相関分析を行うのは簡単です。
フランクハレル

5

質問は、釣りの遠征に伴うタイプIのエラーインフレ以外の問題があるかどうかを尋ねます。

帰無仮説(通常は効果がない)が真である場合に拒否すると、タイプIエラーが発生します。タイプIのエラーに関連する一般化は、まったく同じではありませんが、nullが偽(つまり、何らかの効果がある)であっても、釣りの遠征は見つかった効果の大きさ(したがって重要性)を過大評価することになります。言い換えると、特定の変数を見ていないが、すべてを見て、最大の効果に注意を向けると、見つけた効果が0, but are biased to appear larger than they are. An example of this can be seen in my answer to: Algorithms for automatic model selection.

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.