実験計画の落とし穴:死んだ実験の回避


27

私はこの引用に何度も出くわしました:

実験が終了した後に統計学者に相談することは、多くの場合、単に死後検査を行うように彼に求めることです。彼はおそらく実験が何で死んだかを言うことができます。- ロナルドフィッシャー(1938)

私には、それはおそらく少し誇張されているようです。優れたデザインなしで実験がどのように死ぬかを説明した唯一の例は、コントロールの欠如またはコントロールの悪さです。たとえば、肥料の散布を制御するが、散布に必要な環境を制御できない実験。多分それは私だけかもしれませんが、フィッシャーの設計原則に関するウィキペディアのセクションを一読するだけでほとんどの基盤がカバーされるようです。

統計学者として、データに関する実験関連の問題の設計をどのくらいの頻度で見ますか?フィッシャーが言及したこれらの少数の要因に常に関係しているのか、それとも統計的に訓練されていない科学者が注目すべき重大な落とし穴があるのか​​?


4
頻度:非常に頻繁。実験を「死んだ」と呼ぶのは通常行き過ぎですが、私が見た多くの実験は、設計をわずかに変更するだけではるかに改善された可能性があります。
mark999

3
いくつか見ました。それはでは素晴らしいかもしれませんが、フィッシャーがそれを言ったとき、あなたはウィキペディアを調べることができなかったことを思い出してください。率は初期の頃にはるかに高かったかもしれません。
Glen_b-モニカを復活

4
この点を上げていただければ嬉しいです。また、4人の予選を見たのは初めてかもしれませんが、「私にとっては、おそらく少し誇張されているように思われます」。:-)
rolando2

1
@ rolando2:へえ、それはフィッシャーです。彼これらすべての予選を獲得しました:D
naught101

5
私はこれまでに、文字通り何千ものデータセットを見てきました(そして、統計学者によってレビューされた設計によれば、それらのデータセットはほとんど収集されませんでした)。それらのほとんどは、規制要件を満たすなどの正式な目的のために収集されました。私は思い出すことができない単一のもの(時には、これらはマイナーだったが)いくつかの設計上の問題を持っていませんでした。これは、データセットが役に立たなかった、または「死んだ」と言っているわけではありません。しかし、ほとんどすべての場合、私の仕事は(可能な場合)最初にデータセットを蘇生し、それを意図した目的に適用することでした(医学的な類推を続けること)。
whuber

回答:


14

フィッシャーが彼の有名な引用で意味したことは、「我々は研究のために完全な要因計画を行う」または別の設計アプローチを言うことを超えていると信じています。実験を計画するときに統計学者に相談することは、研究の目的、関連する変数、それらの収集方法、データ管理、落とし穴、実験の進行状況の中間評価など、問題のあらゆる側面をインテリジェントに考えることを意味しますもっと。多くの場合、困難がどこにあるのかを本当に理解するために、提案された実験のあらゆる側面を実際に見ることが重要であると思います。

私の経験は主に医療アプリケーションからです。私が遭遇したいくつかの問題は、事前に統計学者に相談することで防ぐことができました。

  • 不十分なサンプルサイズは、もちろん、このリストの1位です。多くの場合、以前の研究からのデータが利用可能であり、必要なサンプルサイズの合理的な推定値を提供することは容易でした。これらの場合、唯一の手段は多くの場合、データの純粋に記述的な分析を行い、論文でのさらなる研究を約束することです(医師が貴重な時間を投資した後、通常、出版しないことは選択肢ではありません)。
  • 実験の実行は、設計ではなく利便性とチャンスに任されています。現在取り組んでいる例には、時間の経過とともに測定値が収集されています。測定時間、測定頻度、監視期間の終了はすべて個人によって大きく異なります。個人ごとの測定数を増やし、測定日とモニタリング期間の終了を修正することは、この場合はほとんど追加の作業がなく、研究にとって非常に有益でした。
  • 簡単に制御できたかもしれない迷惑要因の不十分な制御。たとえば、測定はサンプル収集の日に行われることもあれば、後で行われることもあり、サンプルが劣化する可能性が残っていました。
  • 私の個人的なお気に入り「コンピューターの測定前にデータを丸めたのです。マシンの測定値が不正確だからです」など、データ管理が不十分です。多くの場合、関連するデータは収集されず、事後に取得することは不可能です。

多くの場合、研究の問題は、研究の最初の概念にまでさかのぼります。

  • データは、明確な目的とそれが何らかの形で役立つという仮定なしに収集されることがあります。仮説と「重要な結果」の生成は統計学者に任されています。
  • そしてその逆:データと、それによって実際に証明できるものに関係なく、PIが頭に持っている特定のポイントを証明する目的で、データが一緒にスクレイピングされます。今回、統計学者は、データに直面して結論が調整されることなく、事前に書かれた結論に重要性の印を付けるだけである。

これまでのところ、これは主に統計学者が苦しんでいるように聞こえますが、PIがデータによってサポートされていない結論をプッシュしようとすると、科学的完全性が苦しむかもしれません(常に楽しい議論)しかし、実験段階でも不必要な余分な作業を行う(必要な作業を行わない)ため、実験チームは同様に苦しむことになります。そしてもちろん、最終論文はさらに悪くなり、結論が少なくなり(そして「推測」が増える)、PIが望んでいたインパクトの高いジャーナルには掲載されないでしょう。


2番目の箇条書きの2番目の点に関して、研究の通常の理論的根拠は、特定の点を証明することを目的としてデータを収集することだと思います。
ロバートジョーンズ

1
もちろん、あなたは完全に正しいです。私は少し短すぎました。私が言及したいのは、ポイントを証明しようと非常に決心しているPIと、そのポイントを証明できない低品質のデータ(多くの場合、基本的な設計上の問題が原因)が集まるシナリオです。
ロブ・ホール

12

2つの単語:サンプルサイズ...消費電力解析は必須です。有能な統計学者を最初からチームに含めることで、原稿やレポートの結果とディスカッションのセクションを書くときに、かなりのフラストレーションを省くことができます。

主任研究者が、30人未満の被験者のサンプルから「予測モデル」または「因果関係」を期待して統計学者と相談する前にデータを収集することは、あまりにも一般的です。データを収集する前にPIが統計学者と相談した場合、統計学者は適切な分析を行った後、PIに通知し、より多くのデータ/被験者を収集したり、分析計画/プロジェクトの目標を再構築したりすることができただろう。


1
「電力解析は必須です」には同意しません。多くの人が電力分析の重要性を誇張していると思います。
mark999

3
@ mark999:可能性はありますが、実験を行う前に何らかのパワー分析を実行することの重要性を否定するものではありません。これはマットのポイントだと理解しています。
Scortchi-モニカの復職

3
@ mark999:もちろん有用であることがわかります。しかし、実験を行う前に、どのような状況でも、何らかの種類の検出力分析(信頼区間の予想幅の推定を含む)を実行することをお勧めしませんか?考えられるのは、(1)プロトコルを実行してエラーを大まかに推定することにのみ関心があるパイロット研究、および(2)何らかの理由でサンプルサイズを選択できない実験、電力解析は冗長です。
Scortchi-モニカの復職

2
@ mark999:そうだと思います。あなたのケース(B)については、パイロット研究->電力分析->実験をお勧めします。
Scortchi -復活モニカ

3
サンプルサイズが固定されていても、頭を砂に埋めてパワー分析を避ける理由はわかりません(リソースの制約と無知に対する合理的な応答は別として)。
アンディW

11

「デザイン」という言葉をどれだけ厳密に解釈するかにかかっていると思います。完全にランダム化されたブロックとランダム化されたブロックなどを意味すると解釈されることもあります。それで死んだ研究を見たことはないと思います。また、他の人が言ったように、私は「死んだ」が強すぎると思うが、それはあなたが用語をどのように解釈するかに依存する。確かに、私は「重要ではない」研究を目にしました(そしてその後、研究者は結果として公開しようとしませんでした)。これらの研究が異なる方法で行われた場合(私が与えた明白なアドバイスに従って)、「公表された」場合、「有意」であった可能性があるという仮定の下で、「死亡」とみなされる可能性があります。この概念に照らして、@ RobHallと@MattReichenbachの両方が提起した電力の問題は非常に簡単です。しかし、サンプルサイズよりも強力なものがあり、それらは「デザイン」というより緩やかな概念に該当する可能性があります。次に例を示します。

  • 情報
    収集/記録/破棄することなく、特定の特性が癌に関連しているかどうかに研究者が興味を持っている研究に取り組みました。彼らは、1つの系統が他の系統よりも多くの特性を持つと予想される2つの系統(つまり、遺伝系統、特定の特性のために飼育された系統)からマウスを取得しました。ただし、問題の特性は実際には測定されていませんでした。この状況は、連続変数の二分法またはビニングに似ており、電力を削減します。ただし、結果が「有意」であったとしても、各マウスの形質の大きさを知っている場合よりも情報量が少なくなります。

    この同じ見出しの別のケースは、明らかな共変量について考えたり収集したりしないことです。

  • アンケートの設計が貧弱
    私は最近、患者満足度調査が2つの条件下で実施された研究に取り組みました。ただし、どの項目にも逆スコアは付けられていません。ほとんどの患者はリストをたどり、すべての5をマークしたようです(強く同意します)。他にもいくつか問題がありましたが、これはかなり明白です。奇妙なことに、調査の実施担当者は、私たちが無料で便利に相談できるにもかかわらず、統計学者と最初に調査を吟味しないように彼女の出席が明示的に奨励したと私に言った。


おっと...最初のもので、何がなかった彼らが測定しますか?それは少し、ええと、明らかです。または、彼らは、特性が異なるラインで異なるという事前の保証を与えられましたか?2番目の例はクールです。これは、ほとんどの人が考えることのない一種のランダム化です。
naught101

5
1つの菌株と他の菌株をテストするだけでした。問題の特性は実際にはいずれかのラインで高くなる傾向がありますが、いくつかのオーバーラップがあります-分布は完全に分離されていません。
GUNG -復活モニカ

ポイント1と同様の経験がありました。特定の種類の細胞を認識するためにマイクロ流体デバイスがセットアップされました。認識されるセルとコントロールセルの混合物が注入され、認識に使用されるビデオストリーム+信号ストリームが取得されました。残念ながら、ビデオストリームは特定の瞬間に検出器にセルがあるかどうかの基準として使用できますが、セルが実際にどのタイプであったかを知る方法がなかったため、信号が真陽性かどうかを判断する方法はありませんでした偽陰性またはシグナルなしが真陰性または偽陽性
でした

8

私は調査のような実験や心理実験でこの種の問題を見てきました。

ある場合には、実験全体を学習体験に合わせてチョークで書かなければなりませんでした。複数のレベルで問題が発生し、結果がごちゃ混ぜになりましたが、仮説を支持する結果が得られたようです。結局、私はより厳密な実験を計画するのを手伝うことができました。それは本質的に仮説を拒否するのに十分な力を持っていました。

他のケースでは、私はすでに設計され実行された調査を手渡され、いくつかの関心領域が影響を受ける複数の問題がありました。たとえば、ある重要な分野では、顧客が到着時に満員になったために、顧客が何回イベントから退席したかを尋ねました。問題は、質問に時間範囲がないため、4回出席しようとして4回退席した人と40回出席しようとして4回だけ退席した人との違いがわからないことです。 。

私は訓練を受けた首都の統計学者ではありませんが、もし彼らが事前に私に来ていれば、これらの問題を解決し、より良い結果を得るのを手伝うことができたでしょう。最初のケースでは、「申し訳ありませんが、あなたの仮説は非常に低いと思われます」が、それでも期待はずれでしたが、2回目の実験を保存できたかもしれません。2番目のケースでは、いくつかの重要な質問に対する回答が得られ、結果がより鮮明になります。(彼らが抱えていた別の問題は、彼らが時間の経過とともに複数の場所を調査したことであり、少なくとも一部の人々は「この調査を他の場所で受けましたか?」

おそらく統計的な問題自体ではないかもしれませんが、どちらの場合も、賢明で教育の行き届いた分野の専門家が欠陥のある機器を作成し、結果は死んだ実験と手足を切断した実験でした。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.