塩基対の特定のシーケンスを見つける確率


10

確率について考えると、いつも自分が数えるのがどれほど悪いのかがわかります...

基本文字Aのシーケンスを考えますn、それぞれが等しく可能性が登場します。このシーケンスは、長さの関心のベースペアの特定のシーケンスが含まれている確率は何である R nがA,T,C, and Grn

ある異なるが(等しく可能性)の可能な配列。完全なシーケンスの先頭にある目的のシーケンスから始めます。このような4つのn rシーケンスが可能です。n + 1 rの異なる場所で目的のシーケンスを開始できます。したがって、私の答えはn + 1 r / 4 rです。4n4nrn+1r(n+1r)/4r

この確率はで増加しており、私には理にかなっています。しかし、n > 4 r + r 1の場合、この確率は1を超えます。しかし、それはできません。確率は制限内で1に近づくはずです(私には思えます)が、それを超えてはなりません。nn>4r+r1

私は何かを二重に数えていると思います。何が欠けていますか?ありがとう。

(FYI、宿題ではなく、試験準備のためのおもちゃの例。分子生物学者の友人からの質問。)


:それは確率の公理に違反するので、それが1を超えないようにしてくださいについての正しいだとbooks.google.com/...
クリスSimokat

回答:


5

この問題の小さなバージョンを考えてみましょう。5文字のシーケンスにターゲットA C G T が含まれる可能性はどのくらいですか?これは簡単です:4 - 4全配列のこの文字列を、別で始まる4 - 4それで終わり、無シーケンスを開始し、この文字列との両端。したがって、可能性は2 × 4 4です。n=5ACGT44442×44

一方、可能性は何ですか?もう一度、4 - 4の配列は、この文字列は、この文字列と同じ割合の終わり、及びで始まる4 - 5すべてのシーケンスの両方を行います。したがって、包含-除外の原則により、答えは2 × 4 44 5です。AAAA44452×4445

一般に、答えは部分文字列の構造に依存します。具体的には、文字列を(左から右に)スキャンして検索する場合、最初のAが表示されるまですべての文字を無視します。その後、三つの可能性があります。次の文字がの一致であるCは、次のものがのための不一致であるCが、ではありませんA(あなたが戻って待ちAN-であるので、Aの状態)、または次のものは不一致ですが、それはAであり、見ただけでA状態になります。対照的に、A C T A C Gの検索を検討してください。ACGTACCAAAAACTACG。接頭辞を見たとします。Gの場合、次の文字が一致します。それが不一致の場合、(i)Cはあなたを最初のA待ち状態にします、(ii)ACに気をつけています、そして(iii)Tはあなたがすでに見たことを意味しますA C T、あなたは(第二を探している途中で試合にすでにだA)。 関連する「構造」は明らかに、ターゲットのプレフィックスに一致するターゲット内のサブストリングのパターンで構成されています。 そのため、可能性はターゲット文字列に依存します。ACTACGCAACTACTA

一連のコイン投げで表と裏のパターンを打つために取られたTime at Timeの返信で私が主張するFSA図は、この現象を理解するのに役立ちます。


3

粗近似であろう。特定の場所でシーケンスが発生しない確率を使用して、それを場所の数で累乗します(誤って独立性を仮定)。これはn rではなくn r + 1であり、これはその近似値です。発生しないため、これを1から減算する必要があります。 1(11/4r)nr+1nr+1nr1

正確な計算は、探している正確なパターンに依存します。 は、A T C G Tよりも発生しにくい傾向があります。AAAAAATCGT


多分それは私だけですが、式を構築した方法を理解の面で少し明確に思えます。1(1(1/4)r)n(r1)

300400400300+1=101400(3001)=101

(a(b(c1+d)))ab+c1+d

2

たとえば、位置Aと位置B!= Aの両方で、ターゲットサブシーケンスの数倍を含むシーケンスを二重にカウントしています。これが、誤った確率が1を超える可能性がある理由です


非常によくやりました !+1
マイケルR.

1

問題のマルコフ連鎖表現を使用することにより、特定のサブシーケンスの正確な確率を取得することが可能です。チェーンを構築する方法の詳細は、対象となる特定のサブシーケンスによって異なりますが、これを行う方法の例をいくつか示します。


A,T,C,GknWHaaa<kk+1 考えられる関心のある状態:

State 0W¯H0,   State 1W¯H1,   State 2W¯H2,   State 3W¯H3,   State k1W¯Hk1,State kW.  

θA+θT+θC+θG=1State 0n=0(k+1)×(k+1)上記の状態を使用して遷移の確率を表す行列。対象の部分文字列に到達していない場合、各遷移により、部分文字列に1ステップ近づくか、特定の部分文字列に依存する以前の状態に戻ることができます。サブストリングに到達すると、これはチェーンの吸収状態であり、対象のイベントが発生したという事実を表します。

AAAAAA

P=[1θAθA000001θA0θA00001θA00θA0001θA000θA001θA0000θA01θA00000θA0000001.]

ACTAGC

P=[1θAθA00001θAθCθAθC00001θAθTθA0θT0001θA000θA001θAθCθGθAθC00θG01θAθCθA0000θC0000001.]

nP(W|n)={Pn}0,kn<k


Rn

#Create function to give n-step transition matrix for n = 1...N
#We will use the example of the substring of interest "AAAAAA"

#a is the probability of A
#t is the probability of T
#c is the probability of C
#g is the probability of G
#N is the last value of n
PROB <- function(N,a,t,c,g) { TOT <- a+t+c+g;
                              a <- a/TOT; 
                              t <- t/TOT; 
                              c <- c/TOT; 
                              g <- g/TOT; 

                              P <- matrix(c(1-a, a, 0, 0, 0, 0, 0,
                                            1-a, 0, a, 0, 0, 0, 0,
                                            1-a, 0, 0, a, 0, 0, 0,
                                            1-a, 0, 0, 0, a, 0, 0,
                                            1-a, 0, 0, 0, 0, a, 0,
                                            1-a, 0, 0, 0, 0, 0, a,
                                              0, 0, 0, 0, 0, 0, 1),
                                          nrow = 7, ncol = 7, 
                                          byrow = TRUE);
                              PPP <- array(0, dim = c(7,7,N));
                              PPP[,,1] <- P;
                              for (n in 2:N) { PPP[,,n] <- PPP[,,n-1] %*% P; } 
                              PPP }

#Calculate probability for N = 100 for equiprobable outcomes
N <- 100;
a <- 1/4;
t <- 1/4;
c <- 1/4;
g <- 1/4;
PROB(N,a,t,c,g)[1,7,N];

[1] 0.01732435

AAAAAAn=1000.01732435

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.