その正規表現は、開始状態と各文字に対応する状態のマルコフ連鎖を表します。移行は、から作られているにから、し、...、と最後から二番目の文字から最後まで、常に確率で。それ以外の場合、状態は同じままです。最終状態は吸収状態です。到達すると、すべての文字が順番に観察されます。s s a a b pm+1ssaabp
状態に関して、遷移行列は(s,a,b,…)
Pm=⎛⎝⎜⎜⎜⎜⎜⎜⎜1−p0⋮00p1−p0⋯00p⋱0⋯⋯⋯p1−p000⋮p1⎞⎠⎟⎟⎟⎟⎟⎟⎟
標準の線形代数技法(のヨルダン正規形と基底行列の変更は単純でスパースであり、これを行うのはかなり簡単です)は、の最初の行の最後のエントリを確立します行列のべき乗は nは≥M P N MPmn≥mPnm
Pnm(1,m+1)=pm∑i=0n−m(m−1+im−1)(1−p)i.
これは、遷移後に開始状態から吸収状態に到達するチャンスです。質問に答えます。必要に応じて、次のように超幾何関数で「閉じた形」で表すことができます。n
Pnm(1,m+1)=1−pm(nm−1)(1−p)−m+n+12F1(1,n+1;n+2−m;1−p).
合計は楽しい組み合わせの解釈を持っています。 してみましょう最後の文字が最初に発生する位置とします。その前に非の(空の可能性がある)シーケンスがあり、それぞれが発生する可能性はです。その後、と発生のチャンス。次いで、非の(おそらく空でない)配列 Sなどがありでの位置は、最初の出現配置するの最初の外観をaその後も同様です。したがって、位置最後の文字の最初の出現を含めて、確率はa 1 - p a p b ( m - 1 + im+ia1−papb abm+i( m−1+i(m−1+im−1)abm+im+0m+(n−m)(m−1+im−1)pm(1−p)k。これは合計の1項を与えます。したがって、合計は、からまでの任意の場所にある最後の文字が最初に出現する場所に従ってシーケンスを分割します。これらは明らかにばらばらですが、確率を合計します。m+0m+(n−m)
解釈を明確にする簡単な例として、でを考えます。それぞれが確率つのシンボルの4 つのシーケンスと、確率 3つの他のシーケンスがあり、シンボルとが順番に表示されます。n = 3 p 3 p 2(1 − 2 p )a bm=2n=3p3p2(1−2p)ab
aab,aba,abb,bab;ab$,a$b,$ab.
したがって、チャンスは
4p3+3p2(1−2p)=3p2−2p3=p2(3−2p)=p2(1+2(1−p))=P32(1,3).
組み合わせの解釈では、正規表現^ab
(位置が)は確率発生します。そして、と位置における、ように2つの方法で発生すると、確率と各。2 p 2 b 3 p 2(1 − p )b2p2^[^a]*a[^b]*b
b3^a[^b]b
^[^a]ab
p2(1−p)