データの「探査」とデータの「s索」/「拷問」


30

多くの場合、「データスヌーピング」に対する非公式の警告に遭遇しました(ここに1つの面白い例があります)。おおよそ、それが何を意味するのか、なぜそれが問題になるのかについて直感的な考えを持っていると思います。

一方、「探索的データ分析」は、少なくともそのタイトルのが依然として古典として敬意を表して引用されているという事実から判断すると、統計学において完全に立派な手順であるように思われます。

私の仕事では、頻繁に「データスヌーピング」のように見えるものに出くわします。あるいは、「データの拷問」と表現する方が良いかもしれません。「。

典型的なシナリオは次のとおりです。コストのかかる実験が行われ(その後の分析についてあまり考慮されず)、元の研究者は収集されたデータの「ストーリー」を容易に識別できず、誰かが「統計的魔法」を適用するために連れてこられます。 、あらゆる方法でデータをスライスおよびダイシングした後、最終的にそこから発行可能な「ストーリー」を抽出します。

もちろん、統計分析が最新のものであることを示すために、通常、最終レポート/論文にいくつかの「検証」がスローされますが、その背後にある露骨な公開コストの態度はすべて私を疑わしいものにしています。

残念ながら、データ分析のすべき点と悪い点についての私の限られた理解は、私がそのような曖昧な疑いを超えないようにしているので、私の保守的な対応は基本的にそのような発見を無視することです。

私の希望は、探検とbetween索/拷問の区別をよりよく理解するだけでなく、さらに重要なことには、その線が交差したときを検出するための原理と技術をよりよく把握することで、そのような発見を評価できるようになることです最適とは言えない分析手順を合理的に説明できる方法であり、それにより、私の現在のかなり単純なブランケット不信の反応を超えることができます。


編集:非常に興味深いコメントと回答をありがとうございました。彼らの内容から判断すると、私の質問を十分に説明できなかったのではないかと思います。このアップデートで問題が明確になることを願っています。

ここでの私の質問は何そんなにない懸念私は拷問を避けるために行う必要があり、私の(これも私に興味という質問ですが)データを、ではなく、:どのように私は考えて(または評価)する必要があることの結果、私は事実を知っているが通過到着されましたそのような「データ拷問」。

状況は、それらの(よりまれな)ケースでさらに興味深いものになります。さらに、そのような「調査結果」について、出版に向けて提出される前に意見を述べる立場にあります。

この時点で、ほとんどの私にできることは、のようなものと言っている「私は私がそれらを得るに行きました仮定や手続きについて知っていることを考えると、これらの知見に与えることができますどのくらい信憑知りませんが。」 これはあいまいすぎて、言う価値さえありません。 このような曖昧さを超えたいと思ったことが、私の投稿の動機でした。

公平を期すために、ここでの私の疑問は、一見疑問のある統計的手法以上のものに基づいています。実際、後者は、より深い問題の結果であると考えています。実験設計に対する無頓着な態度と、結果をそのままの状態で(つまり、さらなる実験なしで)公開するというカテゴリー的なコミットメントの組み合わせです。もちろん、フォローアッププロジェクトは常に構想されていますが、たとえば「100,000個のサンプルで満たされた冷蔵庫」から1枚の紙が出てくるということは、まったく問題ではありません。

統計は、この最高の目標を達成するための手段としてのみ登場します。統計にラッチする唯一の正当化(シナリオ全体の二次的)は、「すべてのコストでの出版」の前提に対する正面からの挑戦は無意味であるということです。

実際、このような状況で効果的な応答は1つだけだと考えることができます。分析の品質を真にテストする統計テスト(追加の実験を必要としない)を提案することです。しかし、私はそれについて統計のチョップを持っていません。私の希望(振り返ってみると素朴)は、私がそのようなテストを思いつくことができるかもしれないことを研究することができるかを見つけることでした...

私がこれを書いているとき、もしそれがまだ存在していなければ、世界は「データ拷問」を検出して公開するためのテクニックに専念する統計の新しいサブブランチを使用できることを知っています。(もちろん、「拷問」のメタファーに夢中になることを意味するものではありません。問題は「データ拷問」そのものではなく、それがもたらす偽の「発見」です。)


1
@BabakPこの引用は、stats jokesやstats quotes threadsなど、6つの回答に含まれています。(後者は、何かを探している場合に関連する引用の良い情報源です。)
whuber

7
「データスヌーピング」と「探索的データ分析」で使用される手法に違いはないと思います。前の用語の軽use的な使用は、確認的分析として誤解を招くような探索的分析のためです。
スコルチ-モニカの復職

8
ファインマンは、あなたが参照する本の中で、すでにこの質問に答えています:「もし彼がこの仮説を(探査を通じて発見した)テストしたいなら...彼は別の実験をしなければなりません。」ファインマンが極端すぎるかもしれないのではないかと懸念しているように思われます(「少し誇張している」):同じデータを調査することで、仮説の正式なテストが開発された場合、どの程度正当化できますか?
whuber

2
@whuber:実際にはそれはさらに劇的です。異なるデータでテストすることが多いのですが、同じ実験のセットアップまたは実験のタイプが誤って同様の結果をもたらすためです。
1

1
@January:それはあなたのデータ/実験に依存すると思います。生物学的/医学的研究などを検討してください。私が見るデータについては、最大の変動は通常、患者(被験者)間です。新しい患者で実験を繰り返すことで同様の結果が得られることを期待していますが、実際にはそうではない場合がほとんどです(つまり、最初の患者セットで開発されたモデルの予測結果は予想よりもはるかに悪いため、過剰適合が発生したため、最初の実験のデータは「拷問を受けた」)
cbeleitesはモニカをサポートしています

回答:


22

十分な注意が得られない場合があります。つまり、仮説生成と仮説検定、または探索的分析と仮説検定です。あなたはあなたのアイデア/仮説を思い付くために世界のすべての汚いトリックを許可されています。ただし、後でテストするときは、最愛の人を容赦なく殺す必要があります。

私は常に高スループットデータを扱う生物学者であり、はい、この「スライスとダイシング」を非常に頻繁に行っています。実験が実施したほとんどのケースは慎重に設計されていません。または、それを計画した人々がすべての可能な結果を​​説明しなかったかもしれません。または、計画時の一般的な態度は「そこにあるものを見てみましょう」でした。最終的には、高価で価値のある興味深いデータセットになり、それを何度も繰り返してストーリーを作成します。

しかし、それは単なる物語です(可能性のある就寝時間)。いくつかの興味深い角度を選択したら(ここが重要なポイントです)、独立したデータセットまたは独立したサンプルだけでなく、独立したアプローチ(独立した実験システム)でテストする必要があります。

この最後のことの重要性は、測定またはサンプルの独立したセットだけでなく、独立した実験セットアップであることがしばしば過小評価されています。ただし、30,000個の変数の有意差をテストすると、同じコホートから同じメソッドで分析された類似の(ただし異なる)サンプルが、前のセットに基づいた仮説を棄却しないことがよくあります。しかし、その後、別のタイプの実験と別のコホートに目を向けると、私たちの発見は方法論的バイアスの結果であるか、適用性が制限されていることが判明しました。

そのため、仮説やモデルを実際に受け入れるには、複数の独立した研究者による複数の論文が必要になることがよくあります。

したがって、この区別を念頭に置いて、自分が何をしていて、科学プロセスのどの段階にいるのかを覚えている限り、そのようなデータの拷問はうまくいくと思います。データの独立した検証がある限り、ムーンフェイズを使用するか、2 + 2を再定義できます。写真にそれを置くには:

ここに画像の説明を入力してください

残念ながら、いくつかの実験が行われた後、マイクロアレイを注文して論文を切り上げるように命じた人がいますが、ハイスループット分析が何かを示すことを期待しています。または、仮説テスト全体と生成物について混乱しています。


私が「仮説生成」と見たものを解釈できると思いますが、私が話している操作の目的は、「拷問された」データから得られた結果を公開し、最高の状態でそれを行うことです。 -論文を受け入れるインパクトジャーナル。言うまでもなく、そのような論文は、彼らの発見の拷問された起源の示唆を決して持ちません。実際、AFAICT、著者はこれにまったく悩まされていません。それでも、そのような論文の読者の大部分は、どれだけの量のデータ拷問が行われたかを正確に知っていれば、調査結果を大幅に割り引くと思います
...-kjo

1
@kjo:仮説生成は科学プロセスの一部であり、確実に公開できます。理由はありません。
cbeleitesは、モニカをサポートします

@January:DoEに言及するのを忘れた「私たちが得ることができるすべてのサンプルを取りなさい-それらはとにかく少なすぎるだろう」-これは私が遭遇する最も頻繁なDoEです。
cbeleitesは、

@cbeleites:まあ、私は一般にこの態度を批判することを夢見ていません。通常、実験はより多くの複製の恩恵を受けることができます。しかし、多くの場合、実験者は物理的に可能な限り多くの条件(サンプルタイプ、株、バリアント、クラスなど)を含める傾向があり、分析を悪夢にし、時には疑問を完全に曖昧にします。
1

12

大学院で私のお気に入りの教授であるハーマン・フリードマンは、かつてこう言っていました

「驚かない限り、何も学んでいない」

先験的に定義された仮説の最も厳密なテスト以外のあらゆるものの厳格な回避は、驚かされるあなたの能力を厳しく制限します。

重要なことは、私たちがやっていることに対して正直であることだと思います。高度な探索モードにいる場合は、そう言うべきです。反対に、私が知っているある教授は、元の仮説が重要であることが分からなかったので、彼女の仮説を変えるように彼女の学生に言った。


4
厳密に定義された先験的仮説をテストすると何も間違っていると、次のアプリオリに定義仮説を提案するために同じデータをスヌーピングは、厳密にテストされます。そして、私たちがさらに少し探索的なモードにいる場合、私たちはそう言うべきです-私たちが実際にやったことを言ってください自分自身。正直さを強調するために、この答えを複数回投票したいと思います。
Scortchi-モニカの復職

7

いくつかポイントを追加します。

  • まず第一に、仮説の生成は科学の重要な部分です。また、予測不可能な(探索的/記述的な)結果公開できます。

  • 私見では、問題はそれ自体、データ探索がデータセットで使用され、それらの調査結果の一部のみが公開されることではありません。問題は

    • どれだけ試されたかを説明しない
    • その後、あたかもその研究が何らかの予測モデルの検証研究/仮説検定研究であるかのように結論を導きます
  • 科学と方法の開発は、単なる仮説生成よりもはるかに一般的な反復プロセスです-テスト-新しい仮説の生成-テスト....私見では、どの段階でどのような適切な行動が必要かを判断します(例を参照)以下)。

私がやること:

  • 結果として生じる楽観的な偏見を人々に気付かせてください
    機会があれば、どの程度の違いが生じるかを示します(ほとんど同じレベルの同じ問題で実現可能です。たとえば、患者に依存しない検証データと内部パフォーマンスを比較しますSVMパラメーターのグリッド検索、PCA-LDAなどの「結合モデル」などのハイパーパラメーター最適化ルーチンの推定値。これまでのところ、誰も私に利益をもたらしてくれなかったので、実際のデータreallyには現実的ではありません。賢明な規模の研究の真の複製...)
  • 私が共著者である論文の場合:結論の限界の議論を主張します。結論が研究で許可されているより一般的な方法で定式化されていないことを確認してください。
  • コストのかかる(適切に行う必要があるサンプルサイズに関して)代わりに、研究の主題とデータ生成のプロセスに関する専門知識を使用してデータを処理する方法を決定するよう同僚に奨励します。モデル-「ハイパー」パラメータ(使用する前処理の種類など)。
  • 並行して:Beleites、C.、Neugebauerなど、この最適化ビジネスが適切に行われた場合のコストの高さを人々に認識させます(これが探査と呼ばれるかどうかは関係ありません。 、U。とBocklitz、T。とKrafft、C。とPopp、J .:分類モデルのサンプルサイズ計画。アナルチムアクタ、2013、760、25-33。DOI:10.1016 / j.aca.2012.11.007
    はarXivの原稿を受け入れました:1211.1323
  • ここでは、このブラインドは、周りにもしようとして見つけた研究では、例えば、無益なことが多いですよ
    前処理の動向を壊す?:J.エンゲル、J. Gerretzen、E.Szymańska、JJヤンセン、G.ダウニー、L.ブランシェ、LMC Buydens TrAC Trends in Analytical Chemistry、2013、50、96-106。DOI:10.1016 / j.trac.2013.04.015
    (多くの前処理ステップの組み合わせを試しましたが、前処理をまったく行わないよりも優れたモデルにつながるものはほとんどありませんでした)

  • 必要以上にデータを拷問していないことを強調してください:

    すべての前処理は、分光学的知識のみを使用して排他的に決定され、データ駆動型の前処理は実行されませんでした。

    フォローアップ紙(異なる)理論の開発のための例と同じデータを使用して読み取り

    すべての前処理は分光学的知識によって決定され、データ駆動型のステップは含まれず、パラメーターの最適化も実行されませんでした。ただし、LRトレーニングの前処理として25の潜在変数にスペクトルをPLS投影[45]しても、予測にわずかな変化しか生じないことを確認しました(補足図S.2を参照)。

    その間、モデルをPLS前処理と比較するように(ジャーナルCILSの編集者による会議で)明示的に依頼されたためです。

  • 実用的な観点から:例えば、上記の星状細胞腫の研究では、もちろん、データを見た後、いくつかの点を決定しました(サンプルの外部から取得した測定値に対応する強度のしきい値などは、その後破棄されます)。私が重要でないと知っている他の決定(線形対二次ベースライン:そのタイプのデータの私の経験は、これは実際にはあまり変わらないことを示唆しています-これは同様のタイプの異なるデータでJasper Engelが見つけたものと完全に一致しています、データを見ることでベースラインのタイプを決定することから大きな偏りが生じるとは思わないでしょう(この論文はなぜそれが賢明なのかという議論を与えています)。
    行った研究に基づいて、次に取り組むべきことと変更すべきことを言うことができます。また、メソッド開発の比較的初期の段階(ex-vivoサンプルを見る)にいるため、メソッドをin-vivoで使用する前に最終的に必要となるすべての「宿題」を検討する価値はありません。たとえば、星細胞腫のグレーディングの現在の段階では、リサンプリングの検証は外部テストセットよりも賢明な選択です。一部のパフォーマンス特性はそのようにしか測定できないため、ある時点で真に外部検証の研究が必要であることを強調します(たとえば、機器のドリフトの影響/これらを修正できることの証明)。でも今はex-vivoで遊んでいる間サンプルおよび大きな問題の他の部分を解決している(リンクされた論文:ボーダーラインのケースに対処する方法で)、適切なex-vivo検証研究からの有用な知識の獲得は、努力する価値があるには低すぎる(IMHO:データdrによるバイアスを測定するために行われました)。

  • 私はかつて統計基準と報告基準についての議論を読み、それを私に納得させるジャーナルに必要かどうかを判断すべきかどうかを覚えています(どちらを覚えていないか):そこに表明されたアイデアは、編集者が試してみる必要がないいくつかの標準に同意し、強制します(これは多くの無駄な議論を引き起こします):

    • 適切な技術を使用している人は通常、そのことを非常によく知っている/誇りに思っているため、何が行われたかを詳細に報告します。
    • 特定のポイント(データのed、患者レベルに依存しない検証など)が明確に記述されていない場合、レビューア/リーダーのデフォルトの仮定は、調査がその質問の適切な原則を遵守していないことですもっとよく知っている)

4

「データの拷問」と見なされるものは、実際にはそうではありません。あなたがそれを見るまで、あなたが実験の真の結果であると信じるものを与えるためにあなたがデータで何をしようとしているのかを常に正確に事前に明確にするわけではありません。

たとえば、決定タスクの反応時間データでは、決定に関する時間ではない時間を拒否したいことがよくあります(つまり、非常に速く進んでいる場合、明らかに推測しているだけで決定をしていない)。RTに対して決定の精度をプロットして、推測が一般的に行われている場所を確認できます。しかし、その特定のパラダイムをテストするまで、カットオフがどこにあるかを知る方法はありません(時間ではなく、正確さではありません)。一部のオブザーバーにとって、このような手順はデータを拷問するように見えますが、仮説検定と直接関係がない限り(テストに基づいて調整しない)、データを拷問しません。

実験中のデータスヌーピングは、正しい方法で行われていれば問題ありません。実験をブラックボックスに固定し、計画された数の被験者が実行されたときにのみ分析を行うことは、おそらく非倫理的です。データを確認するまで、実験に問題があることを伝えるのが難しい場合があります。できるだけ早く確認する必要があります。データピークは、p <0.05であるかどうかを確認し、続行することを決定することに等しいため、強く非難されます。ただし、エラー率に悪影響を及ぼさない収集を続行することを決定できる多くの基準があります。

分散推定値が既知の可能性のある範囲内にあることを確認したいとします。小さなサンプルでは、​​分散の推定値がかなり大きくなる可能性があるため、サンプルがより代表的であることがわかるまで、追加のデータを収集します。次のシミュレーションでは、各条件の分散が1になると予想しています。10個のサンプルについて各グループを個別にサンプリングし、分散が1に近づくまで被験者を追加します。

Y <- replicate(1000, {
    y1 <- rnorm(10)
    while(var(y1) < 0.9 | var(y1) > 1.1) y1 <- c(y1, rnorm(1))
    y2 <- rnorm(10)
    while(var(y2) < 0.9 | var(y2) > 1.1) y2 <- c(y2, rnorm(1))
    c( t.test(y1, y2, var.equal = TRUE)$p.value, length(y1), length(y2) )
    })
range(Y[2,]) #range of N's in group 1
[1]   10 1173
range(Y[3,]) #range of N's in group 2
[1]   10 1283
sum(Y[1,] < 0.05) / ncol(Y)
[1] 0.045

そのため、サンプリングを行って、分散を予想に近づ​​けましたが、アルファにはあまり影響しません(0.05未満です)。Nのようないくつかの制約は各グループで等しくなければならず、30を超えることはできず、アルファは0.05でほぼ正しいです。しかし、SEはどうですか?代わりにSEを特定の値にしようとした場合はどうなりますか?私は順番にCIの幅を事前に設定しているので、実際には非常に興味深いアイデアです(ただし、場所ではありません)。

se <- function(x) sqrt(var(x) / length(x))
Y <- replicate(1000, {
        y1 <- rnorm(10)
        y2 <- rnorm(10)
        while(se(y1) > 0.2 | se(y2) > 0.2) {
            y1 <- c(y1, rnorm(1)); y2 <- c(y2, rnorm(1))
        }
        c( t.test(y1, y2, var.equal = TRUE)$p.value, length(y1) )
        })
range(Y[2,]) #range of N's in group 1 and 2 (they're equal now)
[1] 10 46
sum(Y[1,] < 0.05) / ncol(Y)
[1] 0.053

ここでも、データスヌーピングに基づいてNが元の10から46までローミングできるようにしたにもかかわらず、アルファは少し変更されました。さらに重要なことは、各実験でSEがすべて狭い範囲に収まることです。懸念がある場合は、それを修正するために小さなアルファ調整を行うのは簡単です。要点は、一部のデータスヌーピングが害をほとんどまたはまったくもたらさず、利益をもたらすことさえあるということです。

(ところで、私が示しているのは魔法の弾丸ではありません。これを行う長期的には被験者の数を実際に減らすことはありません。変動するNのシミュレーションのパワーは平均的なNのシミュレーションのパワーとほぼ同じです)

上記のいずれも、実験開始後に被験者を追加することに関する最近の文献と矛盾しません。これらの研究では、p値を低くするために仮説検定を行った後に被験者を追加したシミュレーションを検討しました。それはまだ悪いことであり、アルファを非常に膨張させる可能性があります。さらに、私は1月とPeter Flomの回答が本当に好きです。収集中にデータを見たり、収集中に計画されたNを変更したりしても、必ずしも悪いことではないことを指摘したかっただけです。


これらのことは、テスト統計のサンプリング分布に影響を与えないという意味で「すばらしい」ということはありません。もちろん、驚きに対する完全に賢明な反応(@Peterの回答を参照)ですが、実験の確認的な性質をやや弱め、「研究者の自由度」を高めます。プロトコルを修正するパイロット試験を行い、分析で考慮して停止ルールを事前に定義することは、驚きを避けるためです。目標は、結果の妥当性を示すために独立して複製できる明確に定義された手順です。
スコルチ-モニカの復職

シミュレーションを自分で自由に実行できますが、分散ベースの停止ルール(合理的な最小Nを超える)はアルファに影響を与えず、予想される出力を生成します。SEベースの停止ルールを設定して、一貫したSEを取得することもできます。これらはアルファまたはベータに影響しません。pベースの停止ルールを設定することはできません。Nを変更するという批判はすべて、仮説検定の後にNを変更することに関するものです(他の項目も含める必要があります)。これが誘惑を引き起こす可能性があります...しかし、私はそれを無視しています。
ジョン

反応時間の分布については、各被験者がロジスティック回帰に基づいて推測し、独自のカットポイントを使用する時期を把握するのではなく、パイロットに基づいて固定カットポイントを選択することをお勧めしますか?(もちろん、正確なカットポイントは固定されており、反応時間ではありません)。
ジョン

(1)分散ベースの停止ルール:分散推定に影響するため、サンプルサイズが事前に固定されているかのように実験を分析するときにエラー率に影響を与える可能性があります。コメントに記載されている「合理的な最小Nを超える」という警告と、回答に記載されている「小さなサンプルサイズ」の間に緊張があります。疑いなく、どの近似が十分であるかを知るための統計的知識を持っていますが、誰もがそうではありません。より一般的には、実行不可能なアプローチは、実験の前に停止規則を明確に定義することです。
Scortchi -復活モニカ

(2)反応時間分布:いいえ(私は確かにそのようなことを念頭に置いていましたが); 信頼性の低い観測値を除去するために使用する方法が何であれ、パイロット研究からより良く開発し、確認実験に適用することを提案していました。
Scortchi-モニカの復職

0

これは本当に不均衡な思考の文化的問題であり、出版バイアスは肯定的な結果を好む結果となり、競争の性質上、編集者や研究者は、例えば、他の人の結果に反論する。医学研究では、試験の強制登録と、放棄された試験の記録も結果として公表することにより、この問題を解決するためにかなりの進展が見られます。失敗した研究のためにジャーナルに掲載するのは実用的ではないかもしれないので、それらの公開されたデータベースを保持する計画があることを理解しています。再現できない異常な結果は、おそらく50の場合のように、必ずしも軽犯罪の結果ではありません。

異なる方法を使用することも、必ずしも解決策ではありません。たとえば、どの化学者が異なる条件で異なる方法で試薬を混合し、当然のこととして同じ結果を期待しますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.