RNA seqとChIPチップデータセット間の遺伝子リストの重複確率の計算
うまくいけば、これらのフォーラムの誰かが、遺伝子発現研究におけるこの基本的な問題について私を助けてくれることを願っています。 実験組織と対照組織のディープシーケンスを行いました。次に、コントロール上の実験サンプルの遺伝子の倍濃縮値を取得しました。リファレンスゲノムは約15,000の遺伝子を持っています。15,000遺伝子のうち3,000は、対象となるサンプルの特定のカットオフを超えて、コントロールと比較して濃縮されています。 つまり、A =遺伝子集団の総数= 15,000 B = RNA-Seq濃縮亜集団= 3,000。 以前のChIPチップ実験で、ChIPチップによって濃縮された400遺伝子を発見しました。400個のChIPチップ遺伝子のうち、100個の遺伝子が3,000種類の濃縮RNA-Seq転写産物のグループに含まれています。 したがって:C = ChIPチップが強化された遺伝子の総数= 400。 私の100個のChIPチップ遺伝子が偶然だけでRNA-Seqによって濃縮される確率はどのくらいですか?言い換えると、BとC(100遺伝子)の間で観察された重複が、偶然だけで得られたものよりも優れているかどうかを計算する最も賢明な方法は何ですか?これまで読んだことから、これをテストする最良の方法は、超幾何分布を使用することです。 オンライン計算機(stattrek.com)を使用して、次のパラメーターで超幾何分布テストを設定しました。-ポップサイズ= 15,000-母集団での成功数= 3,000-サンプルサイズ= 400 超幾何確率P(x = 100)= 0.00224050636447747について次の結果が得られます BとCの間で重複している遺伝子の実際の数=100。これは、たまたまだけの場合よりも優れていますか?1つの遺伝子が濃縮される可能性が1:5(15,000のうち3,000)である場合は、そうではありません。そのため、上記で計算したP(x = 100)が0.0022になる理由がわかりません。これは、偶然に発生するオーバーラップの0.2%の確率に相当します。これはもっと高くないでしょうか? 15,000の大きなリストから400個のランダムな遺伝子をサンプリングした場合、これらの遺伝子の80個が偶然だけで濃縮されると予想されます(1:5)。実際に重複している遺伝子の数は100であるため、偶然よりもわずかに優れています。 私はまた、Rのdhyper関数またはphyper関数を使用して(別の投稿で見たものを使用して)解決策を考え出しました:A =ゲノム内のすべての遺伝子(15,000)B = RNA-Seq濃縮遺伝子(3,000)C = ChIP -チップ濃縮遺伝子(400)これがRの入出力です(以前のstackexchangeポストから変更)。 > totalpop <- 15000 > sample1 <- 3000 > sample2 <- 400 > dhyper(0:2, sample1, totalpop-sample1, …