私は遺伝子発現研究について何も知りませんが、私は多重推論にいくらか興味があるので、とにかく質問のこの部分の答えを危険にさらすでしょう。
個人的には、私はその方法で問題に取り組みません。元の研究のエラーレベルを調整し、新しいオーバーラップを計算し、最後にテストをそのままにします。差次的に発現する遺伝子の数(および使用している他の結果)がすでに調整済みテストに基づいている場合は、何もする必要はないと私は主張します。
元のデータに戻ることができず、実際にp値を調整したい場合は、実際にテスト数を掛けることができますが、なぜリスト2のサイズと関係があるのかわかりません。両方の研究で実行されたテストの総数(つまり、母集団の2倍)を調整する方が理にかなっています。しかし、これは残忍なことになるでしょう。
Rのp値を調整するp.adjust(p)
にp
は、を使用できます。ここで、はp値のベクトルです。
p.adjust(p, method="bonferroni") # Bonferroni method, simple multiplication
p.adjust(p, method="holm") # Holm-Bonferroni method, more powerful than Bonferroni
p.adjust(p, method="BH") # Benjamini-Hochberg
ヘルプファイルに記載されているように、BonferroniよりもHolm-Bonferroniを使用しない理由はありません。これは、いずれにせよ、ファミリー全体のエラー率を強力に制御しますが、より強力だからです。Benjamini-Hochbergは、それほど厳しくない基準である誤検出率を制御します。
以下のコメントの後に編集:
問題について考えるほど、多重比較の修正は不要であり、この状況では不適切であると私は思います。ここで、仮説の「ファミリー」という概念が始まります。最後のテストは、以前のすべてのテストと比較することができません。「偶然に資本を獲得する」リスクや重要な結果を選択するリスクはありません。興味のあるテストであり、これに通常のエラーレベルを使用することは正当です。
以前に実行された多くのテストを積極的に修正しても、主な問題に直接対処することはできません。これは、両方のリストの一部の遺伝子が、異なって発現されていると偽って検出された可能性があるという事実です。以前のテスト結果は依然として「標準」であり、ファミリごとのエラー率を制御しながらこれらの結果を解釈したい場合は、それらすべても修正する必要があります。
しかし、帰無仮説が本当にすべての遺伝子に当てはまる場合、重要な結果はすべて偽陽性となり、同じ遺伝子に次のサンプルで再びフラグが立てられることは期待できません。したがって、両方のリスト間の重複は偶然にのみ発生し、これがまさに超幾何分布に基づくテストがテストしているものです。したがって、遺伝子のリストが完全にジャンクであったとしても、その最後のテストの結果は安全です。直感的には、その間のすべて(真と仮説の混合)も問題ないはずです。
たぶん、この分野でより多くの経験を積んだ人が重さを感じるかもしれませんが、調整が必要になるのは、検出された遺伝子の総数を比較したい場合、またはどの遺伝子が異なって発現しているかを調べたい場合、つまり、何千もの個人を解釈したい場合のみです。各試験で実施された試験。