塩基対の特定のシーケンスを見つける確率

10

確率について考えると、いつも自分が数えるのがどれほど悪いのかがわかります...

基本文字シーケンスを考えます $n$ 、それぞれが等しく可能性が登場します。このシーケンスは、長さの関心のベースペアの特定のシーケンスが含まれている確率は何である？ $A,\; T, \; C, \text{ and } G$ $r\leq n$

ある異なるが（等しく可能性）の可能な配列。完全なシーケンスの先頭にある目的のシーケンスから始めます。このようなシーケンスが可能です。異なる場所で目的のシーケンスを開始できます。したがって、私の答えはです。 $4^n$ $4^{n-r}$ $n+1 -r$ $(n+1-r)/4^r$

この確率はで増加しており、私には理にかなっています。しかし、場合、この確率は1を超えます。しかし、それはできません。確率は制限内で1に近づくはずです（私には思えます）が、それを超えてはなりません。 $n$ $n>4^r +r-1$

私は何かを二重に数えていると思います。何が欠けていますか？ありがとう。

（FYI、宿題ではなく、試験準備のためのおもちゃの例。分子生物学者の友人からの質問。）

probability combinatorics

— チャーリー
ソース

：それは確率の公理に違反するので、それが1を超えないようにしてくださいについての正しいだとbooks.google.com/...

— クリスSimokat

1

（漠然と）関連：stats.stackexchange.com/questions/12174/…–

— 枢機卿

5

この問題の小さなバージョンを考えてみましょう。5文字のシーケンスにターゲットが含まれる可能性はどのか？これは簡単です：全配列のこの文字列を、別で始まるそれで終わり、無シーケンスを開始し、この文字列との両端。したがって、可能性はです。 $n=5$ $\ldots A C G T\ldots$ $4^{-4}$ $4^{-4}$ $2 \times 4^{-4}$

一方、可能性は何ですか？もう一度、の配列は、この文字列は、この文字列と同じ割合の終わり、及びで始まるすべてのシーケンスの両方を行います。したがって、包含-除外の原則により、答えはです。 $\ldots A A A A \ldots$ $4^{-4}$ $4^{-5}$ $2 \times 4^{-4} - 4^{-5}$

一般に、答えは部分文字列の構造に依存します。具体的には、文字列を（左から右に）スキャンして検索する場合、最初のが表示されるまですべての文字を無視します。その後、三つの可能性があります。次の文字がの一致である、次のものがのための不一致であるが、ではありません（あなたが戻って待ちAN-であるので、状態）、または次のものは不一致ですが、それは、見ただけで状態になります。対照的に、検索を検討してください。 $ACGT$ $A$ $C$ $C$ $A$ $A$ $A$ $A$ $ACTACG$ 。接頭辞を見たとします。場合、次の文字が一致します。それが不一致の場合、（i）はあなたを最初の待ち状態にします、（ii）はに気をつけています、そして（iii）はあなたがすでに見たことを意味します、あなたは（第二を探している途中で試合にすでにだ）。 関連する「構造」は明らかに、ターゲットのプレフィックスに一致するターゲット内のサブストリングのパターンで構成されています。 そのため、可能性はターゲット文字列に依存します。 $ACTAC$ $G$ $C$ $A$ $A$ $C$ $T$ $\ldots ACT$ $A$

一連のコイン投げで表と裏のパターンを打つために取られたTime at Timeの返信で私が主張するFSA図は、この現象を理解するのに役立ちます。

— whuber
ソース

3

粗近似であろう。特定の場所でシーケンスが発生しない確率を使用して、それを場所の数で累乗します（誤って独立性を仮定）。これはではなくであり、これはその近似値です。発生しないため、これをから減算する必要があります。 $1-(1-1/4^r)^{n-r+1}$ $n-r+1$ $n-r$ $1$

正確な計算は、探している正確なパターンに依存します。は、よりも発生しにくい傾向があります。 $AAAAA$ $ATCGT$

— ヘンリー
ソース

多分それは私だけですが、

式を構築した方法を理解の面で少し明確に思えます。

1 - (1 - (1 / 4)^{r})^{n - (r - 1)}

$1-(1-(1/4)^r)^{n-(r-1)}$

300

$300$

400

$400$

400 - 300 + 1 = 101

$400-300+1=101$

400 - (300 - 1) = 101

$400-(300-1)=101$

(a - (b - (c - 1 + d)))

$(a-(b-(c-1+d)))$

a - b + c - 1 + d

$a-b+c-1+d$

2

たとえば、位置Aと位置B！= Aの両方で、ターゲットサブシーケンスの数倍を含むシーケンスを二重にカウントしています。これが、誤った確率が1を超える可能性がある理由です

— ユーザー145136
ソース

非常によくやりました！+1

— マイケルR.

1

問題のマルコフ連鎖表現を使用することにより、特定のサブシーケンスの正確な確率を取得することが可能です。チェーンを構築する方法の詳細は、対象となる特定のサブシーケンスによって異なりますが、これを行う方法の例をいくつか示します。

$A,T,C,G$ $k$ $n$ $\mathscr{W}$ $\mathscr{H}_a$ $a$ $a < k$ $k+1$ 考えられる関心のある状態：

\begin{matrix} State 0 & \bar{W} \cap H_{0}, \\ State 1 & \bar{W} \cap H_{1}, \\ State 2 & \bar{W} \cap H_{2}, \\ State 3 & \bar{W} \cap H_{3}, \\ ⋮ & ⋮ \\ State k - 1 & \bar{W} \cap H_{k - 1}, \\ State k & W . \end{matrix}

$\begin{matrix} \text{State 0} & & & \bar{\mathscr{W}} \cap \mathscr{H_0}, \text{ } \text{ } \text{ } \\[6pt] \text{State 1} & & & \bar{\mathscr{W}} \cap \mathscr{H_1}, \text{ } \text{ } \text{ } \\[6pt] \text{State 2} & & & \bar{\mathscr{W}} \cap \mathscr{H_2}, \text{ } \text{ } \text{ } \\[6pt] \text{State 3} & & & \bar{\mathscr{W}} \cap \mathscr{H_3}, \text{ } \text{ } \text{ } \\[6pt] \vdots & & & \vdots \\[6pt] \text{State }k-1 & & & \bar{\mathscr{W}} \cap \mathscr{H_{k-1}}, \\[6pt] \text{State }k & & & \mathscr{W}. \quad \quad \quad \text{ } \text{ } \\[6pt] \\[6pt] \end{matrix}$

$\theta_A + \theta_T + \theta_C + \theta_G = 1$ $\text{State 0}$ $n=0$ $(k+1) \times (k+1)$ 上記の状態を使用して遷移の確率を表す行列。対象の部分文字列に到達していない場合、各遷移により、部分文字列に1ステップ近づくか、特定の部分文字列に依存する以前の状態に戻ることができます。サブストリングに到達すると、これはチェーンの吸収状態であり、対象のイベントが発生したという事実を表します。

$AAAAAA$

P = [\begin{matrix} 1 - θ_{A} & θ_{A} & 0 & 0 & 0 & 0 & 0 \\ 1 - θ_{A} & 0 & θ_{A} & 0 & 0 & 0 & 0 \\ 1 - θ_{A} & 0 & 0 & θ_{A} & 0 & 0 & 0 \\ 1 - θ_{A} & 0 & 0 & 0 & θ_{A} & 0 & 0 \\ 1 - θ_{A} & 0 & 0 & 0 & 0 & θ_{A} & 0 \\ 1 - θ_{A} & 0 & 0 & 0 & 0 & 0 & θ_{A} \\ 0 & 0 & 0 & 0 & 0 & 0 & 1. \end{matrix}]

$\mathbf{P} = \begin{bmatrix} 1-\theta_A & \theta_A & 0 & 0 & 0 & 0 & 0 \\[6pt] 1-\theta_A & 0 & \theta_A & 0 & 0 & 0 & 0 \\[6pt] 1-\theta_A & 0 & 0 & \theta_A & 0 & 0 & 0 \\[6pt] 1-\theta_A & 0 & 0 & 0 & \theta_A & 0 & 0 \\[6pt] 1-\theta_A & 0 & 0 & 0 & 0 & \theta_A & 0 \\[6pt] 1-\theta_A & 0 & 0 & 0 & 0 & 0 & \theta_A \\[6pt] 0 & 0 & 0 & 0 & 0 & 0 & 1. \\[6pt] \end{bmatrix}$

$ACTAGC$

P = [\begin{matrix} 1 - θ_{A} & θ_{A} & 0 & 0 & 0 & 0 \\ 1 - θ_{A} - θ_{C} & θ_{A} & θ_{C} & 0 & 0 & 0 & 0 \\ 1 - θ_{A} - θ_{T} & θ_{A} & 0 & θ_{T} & 0 & 0 & 0 \\ 1 - θ_{A} & 0 & 0 & 0 & θ_{A} & 0 & 0 \\ 1 - θ_{A} - θ_{C} - θ_{G} & θ_{A} & θ_{C} & 0 & 0 & θ_{G} & 0 \\ 1 - θ_{A} - θ_{C} & θ_{A} & 0 & 0 & 0 & 0 & θ_{C} \\ 0 & 0 & 0 & 0 & 0 & 0 & 1. \end{matrix}]

$\mathbf{P} = \begin{bmatrix} 1-\theta_A & \theta_A & 0 & 0 & 0 & 0 \\[6pt] 1-\theta_A-\theta_C & \theta_A & \theta_C & 0 & 0 & 0 & 0 \\[6pt] 1-\theta_A-\theta_T & \theta_A & 0 & \theta_T & 0 & 0 & 0 \\[6pt] 1-\theta_A & 0 & 0 & 0 & \theta_A & 0 & 0 \\[6pt] 1-\theta_A-\theta_C-\theta_G & \theta_A & \theta_C & 0 & 0 & \theta_G & 0 \\[6pt] 1-\theta_A-\theta_C & \theta_A & 0 & 0 & 0 & 0 & \theta_C \\[6pt] 0 & 0 & 0 & 0 & 0 & 0 & 1. \\[6pt] \end{bmatrix}$

$n$ $\mathbb{P}(\mathscr{W} | n) = \{ \mathbf{P}^n \}_{0,k}$ $n<k$

R $n$

#Create function to give n-step transition matrix for n = 1...N
#We will use the example of the substring of interest "AAAAAA"

#a is the probability of A
#t is the probability of T
#c is the probability of C
#g is the probability of G
#N is the last value of n
PROB <- function(N,a,t,c,g) { TOT <- a+t+c+g;
                              a <- a/TOT; 
                              t <- t/TOT; 
                              c <- c/TOT; 
                              g <- g/TOT; 

                              P <- matrix(c(1-a, a, 0, 0, 0, 0, 0,
                                            1-a, 0, a, 0, 0, 0, 0,
                                            1-a, 0, 0, a, 0, 0, 0,
                                            1-a, 0, 0, 0, a, 0, 0,
                                            1-a, 0, 0, 0, 0, a, 0,
                                            1-a, 0, 0, 0, 0, 0, a,
                                              0, 0, 0, 0, 0, 0, 1),
                                          nrow = 7, ncol = 7, 
                                          byrow = TRUE);
                              PPP <- array(0, dim = c(7,7,N));
                              PPP[,,1] <- P;
                              for (n in 2:N) { PPP[,,n] <- PPP[,,n-1] %*% P; } 
                              PPP }

#Calculate probability for N = 100 for equiprobable outcomes
N <- 100;
a <- 1/4;
t <- 1/4;
c <- 1/4;
g <- 1/4;
PROB(N,a,t,c,g)[1,7,N];

[1] 0.01732435

$AAAAAA$ $n=100$ $0.01732435$

— ベン-モニカの復活
ソース