文字列内で順番に出現する文字の確率


8

個の記号を含むアルファベットとします。ここで、、および\ Pr(\ $)= 1-(\ Pr(a)+ \ Pr(b)+ \ cdots)= 1-mpm+1{a,b,c,d,e,...,$}のPr $ = 1 - Prを+ のPr B + = 1 - M Pp=Pr(a)=Pr(b)=Pr($)=1(Pr(a)+Pr(b)+)=1mp

長さnのランダム文字列の場合n、文字a,b,c,...\ $を含まない$)が順番に(必ずしも連続しているわけではありません)出現する確率はどれくらいですか?つまり、文字列の長さはnで、正規表現* a * b * c * \ cdotsを満たしabcます。

いくつかの説明:

いつか順番に表示される文字が必要です。したがって、abcがこの順序で含まれているため、acbc問題ありませんabc

すべてのm文字が順番に表示される必要があります。

文字は繰り返すことができます。

回答:


11

その正規表現は、開始状態と各文字に対応する状態のマルコフ連鎖表します。移行は、から作られているにから、し、...、と最後から二番目の文字から最後まで、常に確率で。それ以外の場合、状態は同じままです。最終状態は吸収状態です。到達すると、すべての文字が順番に観察されます。s s a a b pm+1ssaabp

状態に関して、遷移行列は(s,a,b,)

Pm=(1pp0001pp00p001pp0001)

標準の線形代数技法(のヨルダン正規形と基底行列の変更は単純でスパースであり、これを行うのはかなり簡単です)は、の最初の行の最後のエントリを確立します行列のべき乗は nはM P N MPmnmPmn

Pmn(1,m+1)=pmi=0nm(m1+im1)(1p)i.

これは、遷移後に開始状態から吸収状態に到達するチャンスです。質問に答えます。必要に応じて、次のように超幾何関数で「閉じた形」で表すことができます。n

Pmn(1,m+1)=1pm(nm1)(1p)m+n+12F1(1,n+1;n+2m;1p).

合計は楽しい組み合わせの解釈を持っています。 してみましょう最後の文字が最初に発生する位置とします。その前に非の(空の可能性がある)シーケンスがあり、それぞれが発生する可能性はです。その後、と発生のチャンス。次いで、非の(おそらく空でない)配列 Sなどがありでの位置は、最初の出現配置するの最初の外観をaその後も同様です。したがって、位置最後の文字の最初の出現を含めて、確率はa 1 - p a p b m - 1 + im+ia1papb abm+i m1+i(m1+im1)abm+im+0m+nm(m1+im1)pm(1p)k。これは合計の1項を与えます。したがって、合計は、からまでの任意の場所にある最後の文字が最初に出現する場所に従ってシーケンスを分割します。これらは明らかにばらばらですが、確率を合計します。m+0m+(nm)

解釈を明確にする簡単な例として、でを考えます。それぞれが確率つのシンボルの4 つのシーケンスと、確率 3つの他のシーケンスがあり、シンボルとが順番に表示されます。n = 3 p 3 p 21 2 p a bm=2n=3p3p2(12p)ab

aab,aba,abb,bab;ab$,a$b,$ab.

したがって、チャンスは

4p3+3p2(12p)=3p22p3=p2(32p)=p2(1+2(1p))=P23(1,3).

組み合わせの解釈では、正規表現^ab(位置が)は確率発生します。そして、と位置における、ように2つの方法で発生すると、確率と各。2 p 2 b 3 p 21 p b2p2^[^a]*a[^b]*bb3^a[^b]b^[^a]abp2(1p)


0

「文字を繰り返すことができる」とは、abbcが有効な文字列であることを意味しますか?彼らは「順番に現れる」?

そうでない場合、が私の答えのようです。、所定の空間内にある確率である文字そのような組み合わせが存在しない場合、すべてにそれを拡張の可能なスペース文字 1 - P M M N - M + 1 、M1(1pm)nm+11pmmnm+1m

はいの場合、下限があります


この式は、とが小さい場合のケースの完全な列挙と一致しないため、一般的には正しくありません。nmn
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.