非公式/視覚的な「複数比較」に複数比較の修正は必要ですか?


9

多重比較の修正がいつ必要かについて、一種の哲学的な質問があります。

連続した時間変化信号を(離散時間点で)測定しています。個別のイベントが時々発生し、これらのイベントが測定された信号に大きな影響を与えるかどうかを確認したいと思います。

したがって、イベントに続く平均信号を取得でき、通常、特定のピークでいくつかの効果を確認できます。そのピークの時間を選択し、t検定でイベントが発生していない場合と有意であるかを判断する場合、多重比較補正を行う必要がありますか?

私はこれまで1つのt検定(計算された1の値)しか実行しませんでしたが、最初の目視検査で、プロットした(たとえば)15の異なるポスト遅延時間ポイントから最大の潜在的効果を持つものを選択しました。では、これまでに実行したことがない15のテストに対して、複数の比較修正を行う必要がありますか?

目視検査を使用せずに、各イベントラグでテストを実行して最も高いものを選択した場合、間違いなく修正する必要があります。テスト自体以外の基準(たとえば、視覚的な選択、最高の平均など)によって「最良の遅延」の選択が行われるかどうかについて、私は少し混乱しています。

回答:


11

技術的には、テストを行う場所を事前に視覚的に選択する場合は、すでにそれを修正する必要があります。目と脳はすでにデータの一部の不確実性を迂回しており、その時点で単にテストを実行する場合は考慮しません。 。

あなたの「ピーク」が本当にプラトーであり、「ピーク」の差を手で選び、それに対してテストを実行すると想像してみてください。テストを少し左または右に実行すると、結果が変わる可能性があります。このようにして、事前選択のプロセスを説明する必要があります。あなたが述べる確実性はかなりありません!あなたはしている使用して選択を行うためのデータを、あなたが効果的に二回、同じ情報を使用しています。

もちろん、実際には、厳選プロセスのようなものを説明することは非常に困難ですが、それは、あなたがすべきでないことを意味するわけではありません(または、少なくとも得られた信頼区間/粒子の細かいテスト結果を取る/述べる)。

結論:複数の比較を行う場合は、それらの比較の選択方法に関係なく、常に複数の比較を修正する必要があります。データが表示される前に選択されなかった場合は、さらに修正する必要があります。

注:手動による事前選択を修正する代わりに(たとえば、実際に不可能である場合)は、おそらく結果に手動による選択への参照が含まれるように結果を示すことです。しかし、それは「再現可能な研究」ではないと思います。


1
ただし、常に修正を行うと、タイプIIエラー率が増大します。修正前にすべての重要な結果がある場合、すべての重要な結果を取得する低いオッズを考慮せずに、修正後にそれらをすべて失う可能性があります。これは、コンテキスト内のタイプIまたはタイプIIエラーのコストに依存する場合があります。
エティエンヌローデカリ

ニックが私が最初に応答した場合に与えたいと思った答えを出しました。ただし、初期設定であなた(mkpitas)は、実際に15のテストを実行した場合、多重度の補正を行う必要はないと述べました。なぜそう言うのか分かりません。その場合、多重度補正の必要性がより明らかになると思います。@etienneあなたの指摘は、タイプIのエラーを制御するのに非常に厳しいFWER修正に適用されます。FDRを使用する場合、それほど多くのパワーを犠牲にすることはありません。
マイケルR.チェニック

8

ずっと前に、私の最初の統計学のクラスの1つで、私はこれについてテキストで読んでいました(これはコーエンの再帰に関する本の古い版だったと思います)、「これは合理的な人々がどのように異なるかについての質問です」と書いてありました。

誰もが複数の比較を修正する必要があることも、修正する場合は、どの期間または一連の比較を修正する必要があるかについても明確ではありません。各記事?各回帰または分散分析?彼らが主題について発表するすべて?他の人が公開するものはどうですか?

最初の行に書いているように、それは哲学的です。


4
比較がいくつ行われているのかという質問があるのはあなたの言うとおりですが、それがあなたの結論を示唆しているとは思いません。合理的な人々は、可能な結果に対して異なる目的と異なる評価(損失関数)を持っているため、異なる場合があります 複数の比較を修正する必要がある場合、これは期待される損失が改善されるためです。したがって、これは単なる「哲学」ではなく、非常に実用的な問題であり、合理的な人々が同意できる、それを解決する合理的な方法があります。
whuber

2
@whuberあなたは確かにいくつかの状況で正しいです。明確に述べることはしばしば困難ですが、賢明な損失関数があることもあります。しかし、他の場合、たとえば探索的作業では、損失関数がどのように可能であるかを確認するのに苦労しています。もちろん、全体の損失関数のアイデアは、p = .05の杯のような身長から私たちを遠ざけ、power = .8または.9の典型的な仮定は十分であり、(私の心に)より賢明なアイデアですこれらをより実質的な根拠に基づいて確立します。
ピーターフロム-モニカの復活

1
ピーター、返信の範囲と精神を明確にしていただきありがとうございます。
whuber

4
人々が多重度テストは重要ではないと言うとき私は激怒します。この態度は医学研究で頻繁に表現されているのがわかります。多重度が無視されたために誤った結論に達した多くの論文を指摘できます。それは患者の治療方法や生命が危機に瀕している方法に影響を与えるので、医学で間違った結論で論文を公開しないことが重要です。多重性は出版バイアスに寄与します(問題が何度も調査される場合、有意な結果のある研究のみが発表されるため)これはメタ分析の深刻な問題です
Michael R. Chernick

1
@MichaelChernick、同意します-人々が複数のテスト修正を無視すると非常に問題があります。しかし、ピーターは良い点を持ち出していると思います-複数のテストの範囲はどうあるべきですか?すべてのテストは単一のペーパーで行われますか?すべてのテストは単一のデータセットで行われましたか?すべてのテストは最初から行われていますか?明確な正解はないようです。
マクロ

4

現実について1回限りの決定を行おうとしていて、帰無仮説を誤って棄却する率を制御したい場合は、帰無仮説有意性検定(NHST)を使用し、複数の比較に修正を使用することになります。しかし、ピーターフロムが彼の回答で指摘しているように、修正を適用する比較のセットを定義する方法は不明です。最も簡単な選択は、特定のデータセットに適用される比較のセットであり、これが最も一般的なアプローチです。

ただし、科学はおそらく、1回限りの決定が不要であり、実際には証拠蓄積の効率を下げる(取得した証拠を1ビットの情報に減らす)ためにのみ役立つ累積システムとして最もよく考えられています。したがって、統計分析への適切な科学的アプローチに従い、尤度比などのツール(おそらくベイジアンアプローチも)を避けてNHSTを回避すると、多重比較の「問題」がなくなります。


1

質問に応じて、修正の可能な代替手段は、p値の合計の有意性をテストすることです。その後、高いp値を追加することで行われないテストに対してペナルティを課すこともできます。

(独立性を必要としない)フィッシャーの方法(テストの独立性を必要とする)の拡張を使用できます。

例えば。コストの方法


これらは、個々の研究がp値のみを提供する場合、またはデータを組み合わせることができないが、各研究がp値を計算している場合にメタ分析で使用される手順の例です。また、フィッシャーの組み合わせ法と逆法線は、適応設計で停止規則を構築する方法です。
Michael R. Chernick

1

覚えておくべき非常に重要なことの1つは、複数のテスト修正では独立したテストを想定していることです。分析するデータが独立していない場合は、実行するテストの数を単に修正するよりも少し複雑になります。分析するデータ間の相関関係を考慮する必要があります。そうしないと、修正があまりにも慎重すぎるため、タイプIIエラー率が高い。相互検証、順列テスト、またはブートストラップは、適切に使用すれば、複数の比較を処理する効果的な方法であることがわかりました。他の人はFDRの使用について言及しましたが、p値がnullの下のすべてのテストで均一であると想定しているため、データに多くの非独立性がある場合、これは誤った結果をもたらす可能性があります。


2
p
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.