少量サンプル研究での探索的データ分析とデータdrへの対処方法


25

探索的データ分析(EDA)は、多くの場合、必ずしも初期の仮説セットに属するとは限らない他の「トラック」を探索することにつながります。サンプルサイズが限られており、さまざまなアンケート(社会人口統計データ、神経心理学的または医学的尺度-精神的または身体的機能、うつ/不安レベル、症状チェックリストなど)で収集された多くのデータがある研究の場合、私はそのような状況に直面します)。EDAは、追加の質問/仮説に変換されるいくつかの予期しない関係(「予期しない」ことは初期分析計画に含まれていなかったことを意味します)を強調するのに役立ちます。

過剰適合の場合と同様に、データのedは一般化しない結果につながります。ただし、大量のデータが利用可能な場合、限られた仮説セットを仮定することは非常に困難です(研究者または医師にとって)。

小サンプル研究の場合、EDAの輪郭を描くのに役立つ、よく知られた方法、推奨事項、または経験則があるかどうかを知りたいです。


サンプルのサイズが重要な理由はよくわかりません。小さいnの方が大きいnの場合と違うと思う理由について、もう具体的な推論を提供できますか?
アンディW

2
@Andyその場合、非常に限られたサンプルサイズ()でホールドアウトサンプルやクラスの不均衡を考慮することは非常に難しくなるため、CVを適用する場合、一般に分類エラー率が大きくなります。一部の個人は、二変量分布を研究する際に外れ値と見なされる場合があります。また、独自の測定誤差を持つ機器で収集された測定値は、信頼性が低くなります(小さいn、大きいσ)。ある意味では、アーティファクトから予期しない関係を解くのが難しい場合があります。13<n<25nσ
chl

あなたが興味を持っているのが単に分類であるなら、私はその感情を理解できると思います。因果推論の場合、データスヌーピングの問題は同じだと思います(つまり、関係を特定する力を強化しても問題は解決されません)。私はこの意見を答えに定式化しようとします。その間、メインフォーラムで因果推論にクロスバリデーションを使用することについて質問する場合があります。これを行う分野の仕事に出くわしたことはありません。
アンディW

1
@アンディありがとう。うまくいけば、あなたの質問が多くの興味深い答えを受け取ることになるでしょう。
chl

回答:


10

主なことは、それらがEDAからの予想外の発見であり、先験的な仮説に基づく初期分析計画の一部ではないような結果を報告するとき、正直であることだと思います。以下のような一部の人々は、このような結果「仮説生成」ラベルを付ける:例えば最初のヒットからGoogleニュースでこのフレーズを検索すると、その抽象の結論部分では、以下が含まれます。

これは「探索的」分析であったため、この効果は仮説を生成し、他の試験で前向きに評価されるものと考えるべきです...

ただし、これは事後のサブグループ分析でしたが、問題が悪化する観察研究ではなく、無作為化対照試験からのものであることに注意してください。フィリップコールは、観察的(「疫学的」)研究が、意図的に挑発的だが面白い解説で仮説を生成できるという考えに軽cornを注ぎました。

Pコール。仮説生成マシン。 疫学 1993; 4:271-273。


+1リンク(および再タグ付け)に感謝します。この方向を検討します。
chl

13

興味のある読者のために、データdr臨床研究に関するいくつかの参照を削除します。これは@onestopの細かい答えを拡張することを目的としています。複数のエンドポイントを用いた研究は、挑戦的で議論の余地のある議論を続けていますが、無駄な調整についてのロスマンの主張、疫学 1990、1:43-46、またはBMCでの Feiseのレビューを参照しながら、多重比較または設計問題のみに焦点を当てた記事を避けようとしましたMedical Research Methodology 2002、2:8)。

私の理解では、探索的データ分析について話しましたが、私の質問は、一般的に仮説に基づくテストと並行して、潜在的な落とし穴を伴うデータマイニングの使用に対処しています。

  1. Koh、HCおよびTan、G(2005)。医療におけるデータマイニングアプリケーションJournal of Healthcare Information Management、19(2)、64-72。
  2. ヨアニディス、JPA(2005)。公表された研究結果のほとんどが偽である理由PLoS Medicine、2(8)、e124。
  3. アンダーソン、DR、リンク、WA、ジョンソン、DH、バーナム、KP(2001)。データ分析の結果を提示するための提案Journal of Wildlife Management、65(3)、373-378。-これは、仮説の初期セットを超えてデータ駆動型の探査/モデリングを承認する必要があるという事実に関する@onestopのコメントをエコーし​​ます
  4. ミシェルズ、KBおよびロスナー、BA(1996)。データのトロール:釣りをするかしないかランセット、348、1152-1153。
  5. 主、SJ、ゲブスキー、VJ、およびキーチ、AC(2004)。臨床試験における複数の分析:健全な科学かデータのdrか?オーストラリア医学雑誌、181(8)、452-454。
  6. スミス、GDおよびエブラヒム、S(2002)。データのed、バイアス、または交絡BMJ、325、1437-1438。
  7. Afshartous、DおよびWolf、M(2007)。マルチレベルおよび混合エフェクトモデルでの「データスヌーピング」の回避Journal of the Royal Statistical Society A、170(4)、1035-1059
  8. アンダーソン、DR、バーナム、KP、グールド、WR、チェリー、S(2001)。実際に偽の効果を見つけることへの懸念Widlife Society Bulletin、29(1)、311-316。

これは、これまでに読んだことの単なる要約です。明らかに、私は自分の答えを受け入れません。他の考えは大歓迎です。
CHL

ご自身の参照リストははるかに優れており、最新のものですが、私の答えchiを受け入れてくれてありがとう。私は...私は私のハードドライブ上にそれらを持っているとして、実際にそれらのカップルの自分自身を考えている必要があり、さらにはそれらの部分を読んだこと
ワンストップ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.