「複数のテストの修正」と「結合テスト」の何が問題になっていますか?


7

複数のテスト修正が「任意」であり、それらが以下の一貫性のない哲学に基づいていると言われているのはなぜでしょうか。

1つのステートメントの真実性は、他のどの仮説が楽しまれるかに依存します

Bonferroniの調整の何が問題になっているのかなどの回答やコメントを参照してください特に@FrankHarrellと@Bonferroniの間の議論。

(説明を簡単にするために)説明を簡単にするために、2つの(独立した)正規母集団があり、独立しており、標準偏差は既知であるが、手段は不明であると仮定します。(例として)これらの標準偏差がそれぞれであるとしましょう。。σ1=2,σ2=3

共同テスト

仮説H_0をテストしたいとします:\ mu_1 = 2 \&\ mu_2 = 2H0:μ1=2&μ2=2H_1:\ mu_1 \ ne 2 | \ mu_2 \ ne 2 \ alpha = 0.05のH1:μ12|μ22有意水準(記号\&は「and」を意味し、|は「or」を意味します)。α=0.05&|

また、最初の母集団からのランダムな結果x1と2番目の母集団からのx2があります。

場合真である最初確率変数及び第1我々は独立性を仮定したようにそれが保持しています確率変数は、。このを検定統計量として使用できます。観測された結果およびについて、が成り立つ場合、を受け入れH0X1N(μ1=2,σ1=2)X2N(μ2=2,σ2=3)X2=(X1μ1)2σ12+(X2μ2)2σ22χ2df=2X2H0x1x2(x1μ1)2σ12+(x2μ2)2σ22χα2。言い換えると、このテストの許容領域は(μ1,μ2)を中心とする楕円であり、この楕円の上に1α '' 密度''の密度質量があります。

複数のテスト

複数のテストでは、2つの独立したテストを実行し、有意水準を「調整」します。したがって、2つの独立したテストを実行します対と2番目のテスト対が、調整された有意水準とそのようなことである又は またはまたはは、を生成します。H0(1):μ1=2H1(1):μ12H0(2):μ2=2H1(2):μ22αadj.1(1αadj.)2=0.05(1αadj.)2=0.951αadj.=0.95αadj.=10.95αadj.=0.02532057

この場合、ときはいつでもとを受け入れ(両方とも、「元の」)。およびH0(1)H0(1)H0:μ1=2&μ2=2x1μ1σ1zαadj.x2μ2σ2zαadj.

したがって、複数のテストにより、受け入れ領域は中心長方形になり、その上に確率質量があると付けます。x1,x2(μ1,μ2)1α

結論

したがって、ジョイント()テストの場合、受け入れ領域の幾何学的形状は楕円であり、複数のテストでは長方形であることがわかります。許容領域の「上の」密度質量は、どちらの場合も0.95です。χ2

ご質問

それでは、複数のテストの問題は何ですか?そのような問題が存在する場合(上記を参照)、共同テストでも同じ問題が存在する必要がありますか?私たちが長方形よりも楕円を好むという理由はできませんか?

回答:


3

ここに@FrankHarrellのポイントが足りないと思います(私は現在、リンクされたスレッドで説明されているPernegerの論文にアクセスできないため、コメントできません)。

議論は数学ではなく、哲学です。ここで書いたものはすべて数学的に正しいものであり、ボンフェローニ補正を使用すると、「結合テスト」と同様に、家族ごとのタイプIのエラー率を制御できます。議論はボンフェローニ自体の詳細についてではなく、一般に複数のテスト調整についてです。

有名なXKCD ジェリービーンズコミックに示されているように、誰もが複数のテスト修正の議論を知っています。

ここに画像の説明を入力してください

ここに反論があります。もし私が特に緑色のジェリービーンズがにきびを引き起こすべきだと予測する本当に説得力のある理論を開発したなら。そして、私がそれをテストするために実験を実行し、うまくいった場合はです。そして、そのようなことが起こった場合、何らかの理由で同じ実験室の他の博士課程の学生が、他のすべてのジェリービーンズの色について19回のテストを実行し、毎回になりました。そして今、私たちのアドバイザーがそれらすべてを1つの論文にまとめたいと思っているなら; - その場合、値をから「調整」することに全面的に反対します。p=0.003p>05p=0.003p=0.00320=0.06

引数と反対引数の実験データはまったく同じになる可能性があることに注意してください。しかし、解釈は異なります。これは問題ありませんが、すべての状況で複数のテスト修正行う義務を負うべきではないことを示しています。それは最終的に判断の問題です。重要なことに、実際のシナリオは通常、ここほど明確ではなく、#1と#2の中間にある傾向があります。フランクの回答の例も参照してください。


私はここで完全に理解することはできませんが、私は本当に理解したいと思いますので、私は私の主張をします。それはすべて、あなたがテストしているというあなたの仮説に依存していると思います、あなたの例で「他の博士課程の学生」のためにテストされている正確な仮説はわかりません、そして私の意見ではそれはすべてそれに依存しています。私は私のポイントを作るために、私はミスター・ハレルの例を取り上げ、この答えは、の下部にある「編集」セクションに私のポイントを説明してみてみました:stats.stackexchange.com/questions/120362/...

1
確かにそれは仮説に依存します、@ fcop。問題は、現実の世界では、仮説が数学ほど明確ではないということです。誰かが治療Aが治療Bよりも優れているという「仮説」を立てることができます。しかし、パフォーマンスのさまざまな測定値が収集され、通常の分岐路の庭が始まります。私が愚かに10のメジャーを記録し、それらすべてを試している場合、それは明らかに私の答えのシナリオ1です。私がアプリオリの選択を明確にしているなら、それは#2です。しかし、通常私はいくつかの直感的な好みを持っていますが、本当に確かではありません、そして私のアドバイザーは他の手段も試すことを
勧め

はい、しかし「実生活」では、黄色い豆の例には完全に健全な説明があると思います。コメントを入れるのは長すぎますが、答えに入れてもいいですか?

私は私の意見を述べるために回答を投稿しました。本当に理解したいので、批判的に反応してください。

1
@fcop私はここでアメーバに同意します。私にとってあなたの質問についての問題は、それが抽象的な言葉で独占されているということです。「統計は数学の一部ですか、それとも科学の一部ですか?」あなたが私と同じように=科学の終わりから来る連続体あなたの質問は重要なすべてのものを除外します
mdewey

2

@amoeba:ジェリービーンズの例では、次のように議論したいと思います(注、ただ理解したいだけです):

ジェリービーンズには20の異なる色があるとしましょう。これらをと呼び、「緑」の色とします。c1,c2,,c20c10

したがって、例では、色 p値(これをと表記します)は、および場合、になります。ip(i)p(i)>0.05i10p(10)=0.003

  1. 理論1:緑色のジェリービーンズはニキビを引き起こす

    緑のジェリービーンズがにきびを引き起こすという理論を開発したなら、あなたは仮説をテストするべきです

    H0: ''色のジェリービーンズはニキビに影響を与えません ''対: ''色のジェリービーンズはニキビを引き起こします。これは明らかにされていないあなたはp値を調整する必要はありませんので、複数の試験問題。c10H1c10

  2. 理論2:緑のジェリービーンズだけがにきび​​を引き起こす

    その場合は、「:緑色のジェリービーンズがにきびの原因であり、色がジェリービーンズですはニキビを引き起こしません」であり、は「緑色のジェリービーンズがにきびを引き起こさないか、またはは、色の豆がニキビを引き起こすような」H1ci,i10H0i|i10ci

    これは複数のテストの問題であり、p値を調整する必要があります。

  3. 理論3:ジェリービーンズ(何色でも)にきびの原因

    その場合、: ''色のジェリービーンズはにきびを引き起こします '' ''色のジェリービーンズはにきびを引き起こしますAND .... AND ''色のジェリービーンズはにきびを引き起こします ''であり、はその反対です。 H1c1c2c20H0

    これも、複数のテストの問題です。

  4. 理論...

結論

とにかく、これらの理論は根本的に異なりp値の調整が必要かどうかは「哲学」ではなく、それ依存していることがわかります。少なくともそれは私の理解です。

PS @FrankHarrellの例に対する反応については、Bonferroni調整の何が問題になっているのかに対する私の回答の下部にある「編集」を参照してください


1
あなたが書くことはすべて正しいですが、が事前に正確に定式化されている理想的な教科書の状況にのみ当てはまります。実際には、ほとんどの場合これは当てはまりません。ジェリービーンズの例は少しばかげていますが、ここに行きます:緑がかった豆がにきびを引き起こすという理論です。あいまいなことに注意してください。あなたは緑のジェリービーンズを試します。あなたの上司はオリーブとエメラルドグリーンも試してみるように言っています。あなたは従います ここで、p = 0.02、p = 0.3、およびp = 0.3が見つかります。職業はなんですか?3つのテストを修正しますか?か否か?代わりに、0.3、0.02、0.3の場合はどうしますか?H0
amoeba

あなたの上司は言う:私たちは3つの実験を行った、私たちはボンフェローニを使用する必要があります、何も重要ではありません。あなたは言う:しかし、私はオリーブとエメラルドをテストしたくなかったので、何の修正も必要ないので、私は重要な結果を得た。研究の仮説は、「緑」または「緑+オリーブ+エメラルド」のどちらについて話しているのかを示すのに十分正確ではなかった(「緑がかった」)ことに注意してください。すべては、エメラルドだけが重要になった場合に何をしたかによって決まります。う、あなたは、単に(の一部ではない、それを無視して、あなたの仮説)、または(それをサルベージしようとする)、ボンフェローニを使うのか?事前に言うのは難しい!
amoeba

繰り返しになりますが、このジェリービーンズの例は今では少しばかげています(この例はおそらくもっと賢明です。私はそれを詳しく説明するために私の回答を編集するかもしれません)。しかし、それがほとんどの研究が行われている方法です。そのほとんどは、確認と探索の間のちょっとしたものです。
amoeba

1
@amoeba:しかし、私たちはそれがもはや「哲学」についてではないことに同意しているようです?私の上司がグリーンオリーブとエメラルドを試してみると言った場合、統計学者としての私は上司に尋ねる必要があります。にきび?PSリンク「この例」は機能していないようですか?探索的研究では、仮説検定の代わりにFDRを使用する必要があると思いますか?

1
@amoeba:「新しい理論」の検索でデータマイニングを実行できると思いますが、新しい理論を発見したら、データマイニングに使用したサンプルとは別のサンプルを使用して、その確認を見つける必要があります。どう思いますか?

1

最後に私の古い答えを残して、コメントのコンテキストを提供します。

あなたの長方形対楕円体の思考実験は、複数の比較に関する問題の興味深いヒントを与えているようです:あなたの複数のテストの例は、ある意味で、情報を次元数で下に投影し、バックアップして、プロセスで情報を失います。

つまり、2つのガウス分布があり、2つの分布の相対的な分散によって真円度が決定され、2つの相関によって主軸の傾きが決定される楕円体が共同で生成されるため、結合確率は正確に楕円体になります。データのセット。2つのデータセットが独立していることを指定するため、主軸はx軸またはy軸に平行です。

一方、2つのテストの例では、ガウス分布を1次元の範囲に射影し、2つのテストを1つの2次元のグラフに結合すると(逆投影)、情報が失われ、結果として95 %面積は、適切な楕円体ではなく長方形です。また、2つのデータセットが相関している場合、状況はさらに悪化します。

したがって、これは、複数のテストで情報が失われていることを示している可能性があるように思われます。したがって、結果の疑似ジョイント密度の形状は正しくなく、Boneferroniのようなものを介してその軸をスケーリングしようとしても、それを修正できません。

ですから、あなたの質問に答えて、私はそうだと思います。私たちは、疑似ジョイント分布の不正確な(情報の損失のため)長方形ではなく、ジョイント分布の楕円を好んでいます。または、問題は、最初に疑似ジョイント密度を作成したことです。

しかし、あなたの質問はそれよりも哲学的であり、私はそれが単に数学の問題ではないというアメーバの答えを支持しなければなりません。たとえば、ジェリービーンの実験を、不正確な「緑がかった」ではなく、仮説の一部として正確な「緑のジェリービーンズ」に事前登録した場合はどうなるでしょうか。実験を行っても、統計的に有意な影響はありません。次に、ラボアシスタントは、ジェリービーンのすべての線量の前で彼らが撮った自分の写真を表示します。そしてあなたが言う何かはあなたが部分的に色覚異常であることをアシスタントに気付かせます。

あなたが「グリーン」と呼んだものは、実際にはグリーンとアクアのジェリービーンズです。写真の助けを借りて、アシスタントは結果を適切にコード化し、緑色のジェリービーンズが重要であることがわかります!あなたのキャリアが救われます!多重比較を行ったばかりの場合を除いて、データを2回スワイプし、そもそも重要性を見つけたとしても、誰も違いを知らなかったでしょう。

これは、p値ハッキングの問題ではありません。それは正直な修正でしたが、あなたの動機はここでは関係ありません。

正直に言うと、「緑」は「緑がかった」以上のものではありません。最初に、実際の色に関して、次に、緑が他の成分の代理である可能性が最も高いという事実に関して。

また、エラーを発見したことがなく、何らかの理由でアシスタントが実験を再現した場合、2番目の結果が有意だったとしたらどうでしょう。基本的に同じケースですが、2つのデータセットを収集しました。この時点で、私はさまよい始めています。要約すると、アモエバはそれが正しく、あなたの「数学のせいかそうでないか」という考えは技術的には正しいですが、現実の世界では扱いにくいと思います。

古い答え:この質問は実際に相関関係についてですか?私はマハラノビス距離の種類の問題についてもっと考えています。95%x1と95%x2を個別に見ると長方形が得られますが、これはx1とx2が相関していないことを前提としています。マハラノビス距離(x1とx2の間の相関に基づいて形作られる楕円)を使用している間は優れています。楕円は長方形の外側に伸びているため、長方形の外側にあるいくつかの点を受け入れますが、長方形の内側の点も拒否します。x1とx2がある程度相関していると仮定します。

それ以外の場合、x1とx2の相関が0であると想定すると、それぞれにどの分布が想定されますか?均一の場合は長方形の領域が得られ、通常の場合は楕円の領域が得られます。繰り返しますが、これは複数のテスト修正とは無関係です。


1
試していただきありがとうございます。これは複数のテストに関するものです(Bonferroniなど)。回答で述べたように、私たちは独立性を前提としているので、この質問の相関関係についてではありません。依存性は問題の興味深い拡張ですが、私はまず、独立性を前提としたいくつかの回答を得ようとします。

私は要点を理解していません、私は緑がかったことについて何か言ったことはありませんか?そして、もし私たちが「あなたが色覚異常であるなら」から始めるなら、私が色覚異常であることをアシスタントが何らかの方法で見つけた場合、それが哲学的になることに同意します。色覚異常はアシスタントではなく私と一緒ですか?

@fcop:Re:「緑がかった」、あなたはそれについて言及しないかもしれませんが、アメーバは彼のコメントであなたとの彼の相互作用で行います。私は彼に同意し、彼の場合よりもさらに悪いと言っています。色盲は誰でもかまいません。私は、複数の比較が他のものになりすます可能性のある、より現実的なシナリオを作ろうとしていました。
ウェイン

仮説検定の後に研究者が色覚異常であると発見したアシスタントは、「より現実的なシナリオ」ですか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.