RNA seqとChIPチップデータセット間の遺伝子リストの重複確率の計算


13

うまくいけば、これらのフォーラムの誰かが、遺伝子発現研究におけるこの基本的な問題について私を助けてくれることを願っています。

実験組織と対照組織のディープシーケンスを行いました。次に、コントロール上の実験サンプルの遺伝子の倍濃縮値を取得しました。リファレンスゲノムは約15,000の遺伝子を持っています。15,000遺伝子のうち3,000は、対象となるサンプルの特定のカットオフを超えて、コントロールと比較して濃縮されています。

つまり、A =遺伝子集団の総数= 15,000 B = RNA-Seq濃縮亜集団= 3,000。

以前のChIPチップ実験で、ChIPチップによって濃縮された400遺伝子を発見しました。400個のChIPチップ遺伝子のうち、100個の遺伝子が3,000種類の濃縮RNA-Seq転写産物のグループに含まれています。

したがって:C = ChIPチップが強化された遺伝子の総数= 400。

私の100個のChIPチップ遺伝子が偶然だけでRNA-Seqによって濃縮される確率はどのくらいですか?言い換えると、BとC(100遺伝子)の間で観察された重複が、偶然だけで得られたものよりも優れているかどうかを計算する最も賢明な方法は何ですか?これまで読んだことから、これをテストする最良の方法は、超幾何分布を使用することです。

オンライン計算機(stattrek.com)を使用して、次のパラメーターで超幾何分布テストを設定しました。-ポップサイズ= 15,000-母集団での成功数= 3,000-サンプルサイズ= 400 超幾何確率P(x = 100)= 0.00224050636447747について次の結果が得られます

BとCの間で重複している遺伝子の実際の数=100。これは、たまたまだけの場合よりも優れていますか?1つの遺伝子が濃縮される可能性が1:5(15,000のうち3,000)である場合は、そうではありません。そのため、上記で計算したP(x = 100)が0.0022になる理由がわかりません。これは、偶然に発生するオーバーラップの0.2%の確率に相当します。これはもっと高くないでしょうか?

15,000の大きなリストから400個のランダムな遺伝子をサンプリングした場合、これらの遺伝子の80個が偶然だけで濃縮されると予想されます(1:5)。実際に重複している遺伝子の数は100であるため、偶然よりもわずかに優れています。

私はまた、Rのdhyper関数またはphyper関数を使用して(別の投稿で見たものを使用して)解決策を考え出しました:A =ゲノム内のすべての遺伝子(15,000)B = RNA-Seq濃縮遺伝子(3,000)C = ChIP -チップ濃縮遺伝子(400)これがRの入出力です(以前のstackexchangeポストから変更)。

> totalpop <- 15000    
> sample1 <- 3000    
> sample2 <- 400    
> dhyper(0:2, sample1, totalpop-sample1, sample2)    
[1] 4.431784e-40 4.584209e-38 2.364018e-36    
> phyper(-1:2, sample1, totalpop-sample1, sample2)    
[1] 0.000000e+00 4.431784e-40 4.628526e-38 2.410304e-36    

これらの数値の解釈方法がわかりません。2.36e-36は偶然だけでBとCが完全にオーバーラップする確率だと思いますか?しかし、その確率は1:5に非常に近いため、これは意味がありません。15,000の遺伝子から始めると、3,000が濃縮されます。同様に、400個のChIPチップ遺伝子から始めた場合、そのデータセットでは1:5の濃縮の可能性があるため、80個はRNA-Seqのみで濃縮されるはずです。

BとCのオーバーラップについて、超幾何分布に従ってp値を計算する適切な方法は何ですか?

回答:


14

あなたは、あなたの使用して、接近しているdhyperphyper、私はどこ理解していない0:2と、-1:2から来ています。

必要なp値は、サイズ400のサンプルで、3000個の白いボールと12000個の黒いボールのある壺から100 個以上の白いボールを得る確率です。これを計算するには4つの方法があります。

sum(dhyper(100:400, 3000, 12000, 400))
1 - sum(dhyper(0:99, 3000, 12000, 400))
phyper(99, 3000, 12000, 400, lower.tail=FALSE)
1-phyper(99, 3000, 12000, 400)

これらは0.0078を与えます。

dhyper(x, m, n, k)正確に描く確率を与えるx。最初の行では、100〜400の確率を合計します。2行目では、1から確率0から99の合計を引いたものを使用しています。

phyper(x, m, n, k)取得xまたはそれ以下の確率を与えるのでphyper(x, m, n, k)、と同じsum(dhyper(0:x, m, n, k))です。

これlower.tail=FALSEは少し混乱します。 phyper(x, m, n, k, lower.tail=FALSE)はと同じ1-phyper(x, m, n, k)であり、x+1それ以上の確率も同じです。[私はこれを覚えていないため、常に再確認する必要があります。]

max(dhyper(0:400, 3000, 12000, 400))

この場合の超幾何分布の写真を次に示します。中心が80(400の20%)であり、100が右端からかなり離れていることがわかります。 ここに画像の説明を入力してください


あなたの助けをたくさんありがとう。私はあなたの答えの背後にある論理を理解しています。しかし、これは偶然のために観察された重複よりも大きいことを、多くの生物学者にどのように説明しますか?彼らは私がオーバーラップする1:5のチャンスがあると言うでしょう。(合計15,000ボールのうち)400ボールのサンプルサイズでは、より少ない母集団(15,000全体ではない)をサンプリングしているため、白いボールを取得する可能性は実際には1:5よりも低いので、私の重複は重要ですか?400 <15,000であるにもかかわらず、白と黒の比率が1:5であるため、これは意味がありません。これは理にかなっていますか?
stlandroidfan 2011年

@stlandroidfan-何が混乱しているのか理解できません。図を追加しました。これは役に立ちますか?
Karl、

0

このように見てください。2項式であると想定した場合、正しくない可能性がありますが、かなり近似しているはずです。sigma^ 2は.8 * .2 * 400 = 64であり、sigma = 8です。 80から100にかけて、2.5の標準偏差を達成しました。これはかなり重要です。小さなp値が必要です。


ご回答有難うございます。超幾何分布は、私が文献で見たものからの遺伝子リストの重複に対してより頻繁に使用される傾向があります。問題は、サイズ400のサンプルで、3000個の白いボールと12000個の黒いボールのある壺から100個以上の白いボールを得る確率はどのくらいかということです。私はこれを多くの生物学者に説明する方法にまだ困惑していると思いますか?彼らが3000:12000であると彼らが見る方法は、白:黒の1:5の確率です。したがって、400のサンプリングでは、80は白になります。では、100以上になる確率がどうして20%(1/5)を下回るのでしょうか。
stlandroidfan 2011年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.