同じデータに適用された異なる統計的検定からのp値を組み合わせる


8

質問のタイトルは取るに足らないように見えますが、同様のデータセットで同じ統計的検定を適用して、完全帰無仮説(メタ分析)に対して検定するという問題とは異なるという意味では、それほど簡単ではないことを説明したいと思います。たとえば、p値を組み合わせるためにフィッシャーの方法を使用します)。私が探しているのは、2つの異なる統計検定(t検定とu検定など)のp値を組み合わせる方法(存在する場合、および質問が統計的に有効である場合)です。 2つの母集団からの2つのサンプリングの中心を比較するために適用されます。これまでのところ、明確な答えがなくても、ウェブで多くの検索を行ってきました。私が見つけた最良の答えは、David Bickel(http://arxiv.org/pdf/1111.6174.pdf)によるゲーム理論の概念に基づいていました。

非常に単純な解決策は、投票方式です。観測の2つのベクトルとあり、いくつかのtのような統計(t検定、 u-test、one-way ANOVA)は、2つの過酷な分布の中心(平均、中央値など)が有意水準0.05で等しくないという仮説に対して等しいという仮説を検定します。5つのテストを実行するとします。5つのテストのうち3つでp値が0.05未満の場合、null分布を拒否する十分な証拠があると言うのは正当でしょうか?B = [ B 1B 2b n ]A=[a1,a2,...,an]B=[b1,b2,...,bn]

別の解決策は、全確率の法則を使用することでしょうか、これは完全に間違っていますか?たとえば、がnull分布が拒否されるイベントであるとします。次に、3つのテスト、、(つまり、、可能な値はなります、ここでは、null分布がテストし。T 1 T 2 T 3 P T 1= P T 2= P T 3= 1 / 3 P A P A = P A | T 1P T 1+ P A | T 2P T 2AT1T2T3P(T1)=P(T2)=P(T3)=1/3P(A)P A | T iT iP(A)=P(A|T1)P(T1)+P(A|T2)P(T2)+P(A|T3)P(T3)P(A|Ti)Ti

答えが明白であるか、質問が愚かすぎる場合、私は謝罪します


全確率計算の法則では何を表していますか?P(Ti)
Glen_b-2013

あなたが探しているものの数学的説明を提供できないのは残念ですが、私たちのラボで開発したソフトウェアにはこの機能が実装されていることがわかります。その方法については、こちらをご覧ください:gitools.org/documentation/UserGuide_Combinations .htmlとここでの実装:github.com/gitools/gitools/blob/…。元の論文で式を見つけたら、またチェックします。
dmeu 2013年

@Glen_b P(Ti)は、統計的検定Tiを使用する「確率」を表します。これは厳密には確率ではないことを知っています。同じデータセットに対してn個のテストを使用したと言うのは、むしろ重みです。
Panos 2013年

@dmeuありがとうございます!しかし、あなたのソフトウェアは私の質問ではなく、些細な部分(上記、単一のテストを使用した複数のデータセットの組み合わせを参照)に答えると思います。そうでない場合は申し訳ありません。
Panos 2013年

@Panosあなたは正しいかもしれません。違うのは「同じ種類の2つの独立したテスト(異なる)」と読みました。希望を叶えて申し訳ありません。
dmeu 2013年

回答:


5

Coroneによって提唱されているように複数のテスト補正を使用することは問題ありませんが、オメル補正を使用しても、p値は一般によく相関しているため、膨大な電力が必要になります。

p1,p2,,pnp p=min(p1,,pn)p

観測値の値を計算する必要があります(これをと呼びます)。たとえば、帰無仮説のもとで100 000個のデータセットをシミュレートし、そのようなデータセットごとに計算できます。これにより、帰無仮説の下での経験的分布が得られます。あなたの値は、であるシミュレートされた値の割合です。p p o b s p p p < p o b spppobsppp<pobs

帰無仮説の下でデータセットをどのようにシミュレートしますか?あなたのケースでは、私が推測すると、ケースとコントロール、そして発現レベルを推定するためのRNS-seqデータがあります。nullの下のデータセットをシミュレートするには、通常、ケース/コントロールのステータスをランダムに並べ替えます。


2
+1はい、これは私が「より多くの仕事」で意味していたアプローチの1つです。ただし、ここでは、p値を最小にすることが最善のアプローチであるとは限らないことに注意してください。0.5に近い99のp値と0.02の値は、0.02に近い99のp値とは大きく異なります。ヌルのリサンプリングへの扉を開いたら、「投票」方法を検討する価値があります。テスト間の一貫性が、単一のテストで低いp値を変動させることよりも(さらに)重要になる可能性があるためです。
Korone 2013年

はい、そうです。しかし、ほとんどの連想テストでは、分を取ることは良い考えだと思います。さらに多くの作業を行うと、「最大効率のロバストテスト」を別のテストから構築できますが、これは実際にテストに取り組む必要があります...
Elvis

1
うん、いくつかのテストが他のテストよりも強力になるという事実を心配し始めると、言うまでもなく、物事は本当に毛深い/刺激的/楽しいものになります-理想的な世界では、最も強力なテストに最も耳を傾けたいです...
Korone 2013年

@Elvisこのようなものは、私が考えていた全確率の法則(間違っていることが証明されました)に関係するものに最も近い代替手段です。私はリサンプリング手順について考えていましたが、あなたはそれを完全に形式化しました!この時点では、計算能力は問題になりません(幸いなことに!)。投票に関しては、メタ分析のためのウィットロックの方法(ncbi.nlm.nih.gov/pmc/articles/PMC3135688)のようなものを組み込むことができますが、統計的検定に重みを与えます。このような情報は、関連する出版物(たとえばbiomedcentral.com/1471-2105/14/91)から取得できます。
Panos 2013年

うん!各に関して減少しない限り、値の任意の関数を取ることができます。p p ip=f(p1,,pn)ppi
Elvis

4

この種のことは通常、複数の仮説検定でカバーされますが、それは典型的な状況ではありません。

これはメタ分析とは異なり、同じデータを複数のテストに使用していますが、その状況は複数の仮説テストでカバーされていることに注意してください。ここで少し奇妙なのは、複数回テストしているのとほぼ同じ仮説であり、それらすべての共通部分であるグローバルな帰無仮説が必要なことです。なぜこれを行う必要があると思うのか疑問に思われるでしょう。 、しかし正当な理由があるかもしれません。

より分析的に扱いやすい一連のテストを実行している場合、Union-Intersectionのテストルートをたどることができますが、それでどこにも行かないと思うので、すぐに使える多重度補正を使用することをお勧めします。

まず、ウィキペディアでこの件について述べていることを確認することから始めることをお勧めします

したがって、多重度の修正を使用し、Union-Intersectionを除外する必要があります。おおよそのオプションは次のとおりです。

  • Bonferonni-歴史的にのみ興味があるHolm-Bonferroniが完全に支配
  • Holm-Bonferroni-あなたのために働くでしょうが、あなたの力がかかります(あなたの場合は多分)
  • Sidak -BHよりも強力ですが、p値が相関するため、これを使用することはできません
  • Hommel -BHよりも強力であり、p値は間違いなく正の相関があるため、問題ないはずです。

最大の問題は、さまざまなテストで非常に類似したp値を取得する可能性が非常に高いことです。Hommelは、これに対してあまり多くのことを罰すべきではありません。

たとえば、Rのp値を使用して調整できます。 p.adjust

p = c(0.03, 0.034, 0.041)
p.adjust(p, method = "bonferroni")
p.adjust(p, method = "holm")
p.adjust(p, method = "hommel")

> p.adjust(p, method = "bonferroni")
[1] 0.090 0.102 0.123
> p.adjust(p, method = "holm")
[1] 0.09 0.09 0.09
> p.adjust(p, method = "hommel")
[1] 0.041 0.041 0.041

これらの方法はすべて、ファミリーごとのエラー率を制御します。つまり、しきい値を超える値に基づいて各p値を順番にテストすると、1つ以上のエラーの確率は制御されます。これは、1つ以上のサブ仮説を棄却し、テストのサイズが制御されている場合に、グローバル仮説を棄却できることを意味します。ααα

私が最初に親しみましたように、これはあなたが行うことができる最も強力な攻撃ではありませんが、より洗練されたものははるかに多くの作業を必要とするでしょう。


これが制御する理由α

グローバル帰無仮説は、すべての子帰無仮説が真であるということです。

単一のテストの結果を、ヌルが拒否された場合は、値が1の場合は0、それ以外の場合は0とします。Xi

は間違いなく正の相関があるので、Hommelを使用してFWERを制御できます。Xi

この制御は、1つ以上のテストが誤って拒否する確率がで制御されることを意味しますα

したがって、 P((Xi)>0)α

したがって、1つ以上の子仮説が拒否された場合にグローバル仮説を拒否すると、グローバルテストのサイズはα


早々に返事をくれてありがとう!主なアイデアは、RNA-Seqデータを使用して差次的遺伝子発現を検出するいくつかの統計アルゴリズムを組み合わせることにあり、p値を乗算するよりも洗練された方法で、いずれにしても正しくありません。あなたが提案することは、researchgate.net / publication /で見つけたものと似ています。しかし、このコンテキストでは、投票スキームまたは全確率の法則が意味を持っているのでしょうか。
Panos 2013年

その場合は@Panos、そうですね、私は間違いなくこのようなものを提案します。欠点は、コントロールが保守的であることです。これは、P(All Selected is False)ではなくP(1またはMore SelectedがFalse)を制御しているためです。ただし、アルゴリズムはかなり正の相関があるため、差はおそらくありません巨大になる。
Korone 2013年

言うまでもないことですが、特定のサイズのしきい値にあまり慣れないでください。0.05や0.01について特に特別なことは何もないということはよくあることです。
Korone 2013年

@Panos投票スキームの正しい確率を算出する方向に向かう場合、最終的に、私が提案したさまざまな多重度テストを導き出します。正確なものは、途中で行う仮定に応じて異なります。
Korone 2013年

1
@Benjamin私もそれについて読むことを提唱しますが(それは重要です!)、ここではまったく適切ではないと思います。FDRは、いくつかの選択からの誤検知の予想される割合を制御しています。すべてのパノスのテストは同じグローバルな仮説について彼に通知しようとしているので、特に相関関係がある場合は、誤ったテストの予想される割合を制御することはほとんど意味がありません。彼は複数の異なる質問から選択するのではなく、同じ質問に答える多くの方法を試みています。
Korone 2013年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.