通常の言語の単語数を数えるのはなぜ簡単ではないのですか？

8

DFA、Aが与えられた場合、L（A）がAが受け入れる単語数を示すものとします。L（A）を計算するのは簡単だと思います。Aのエンコーディングを正規表現に変換します。クリーネの星が式のどこかに現れる場合-言語は無限です。それ以外の場合：式を使用して作成できるすべての単語の組み合わせを調べて数えます（基本的に、式に+演算子がある場合は、有効な単語の量に+で接続された文字列の量を掛けます。）

これは間違っていますか？前もって感謝します

regular-languages automata regular-expressions

— user67573
ソース

3

ε^{*}

$\varepsilon^*$ は無限の言語ではありません。

— David Richerby 2017年

cstheory.stackexchange.com/q/8200/5038

— DW

12

ええ、あいまいさのため、これは間違っています。

次の言語について考えてみましょう： $(a + aa) + a(a + \epsilon)$ 。

あなたの方法では、我々は4ワード、参照。しかし、重複があります！特定の正規表現内で同じ単語を作成する方法は複数あります。 $a, aa, aa, a$

より良い方法は、「デッド」状態のない、言語の最小限のDFAで動的プログラミングを使用することです。最小DFAが循環的である場合、言語は無限であるため、循環はないと想定できます。確定性とは、各単語に対してDFAを通るパスが1つしかないため、DFAを使用することが重要です。

あなたがすることは、与えられた状態で終わる単語の数の繰り返しを構築することです：

1ワードは開始状態で終了します： $\epsilon$
各状態、終了する単語の数は、各状態で終了する単語の数の合計であり、への遷移があります。 $q$ $q$

単語の総数は、各最終状態で終了する単語の数の合計になります。

— jmite
ソース

2

これらの再帰は、たとえば生成関数の場合など、常にコンピュータ代数によって解決できることに注意してください。ええ、通常の言語は実際に数えるのは簡単です。

— ラファエル

9

jmiteの答えを補足すると、「転送マトリックス」メソッドを使用して、通常の言語で単語数を計算することはそれほど難しくありません。これはjmiteの動的プログラミングと同じですが、この手法には漸近列挙などのアプリケーションがさらにあります。

DFAを指定して、行列（は状態のセット）を作成します。ここで、は、DFAを状態から状態に移動させる文字の数です。ましょう及び初期状態に対するそれぞれ受容状態、の指標です。最後に、。 $Q\times Q$ $M$ $Q$ $M(i,j)$ $j$ $i$ $1_{q_0}$ $1_F$ $n = |Q|$

長さの単語の数はです。計算用の。もし、次いでDFAによって受け入れ言語は無限です。それ以外の場合、言語の単語数はです。 $m$ $c_m := 1_F M^m 1_{q_0}$ $c_m$ $0 \leq m < 2n$ $c_n + \cdots + c_{2n-1} > 0$ $c_0 + \cdots + c_{n-1}$

（べき乗を計算する場合、指数関数であるエントリの大きさについて注意する必要があります。それらのサイズは多項式だけなので、結果のアルゴリズムは多項式時間で実行されます。） $M$ $m$

— ユヴァルフィルムス
ソース

2

私はこのアプローチが大好きです。また、

の固有値の計算は、実際には生成関数アプローチの分母の根に対応し、おそらく驚くことではないが、これらの固有値はDFAの最小化に不変であることもわかりました。ただし、これを正しく解釈する方法はまったくわかりません。

M

$M$

— Lee

1

これには、生成関数であることを考えると、驚くことではない

に簡素化、

。固有値を特徴とする

のヨルダン形式を使用してこの計算をやり直すことにより、さらに明確な結果を得ることができます。

P (z) = \sum_{n = 0}^{\infty} 1_{F} M^{n} 1_{q_{0}} z^{n}

$P(z) = \sum_{n=0}^\infty 1_F M^n 1_{q_0} z^n$

P (z) = 1_{F} (I - z M)^{- 1} 1_{q_{0}}

$P(z) = 1_F (I-zM)^{-1} 1_{q_0}$

M

$M$

— Yuval Filmus

7

実際には、クリーネの星を含む明確な正規表現のカウント式を引き続き導出できます。

：正規表現の誘導定義として考えると

e \in R e := x \in Σ ∣ e_{0} e_{1} ∣ e_{0} + e_{1} ∣ e^{*}

$\begin{equation*} e \in \mathrm{Re} := x \in \Sigma \mid e_0 ~ e_1 \mid e_0 + e_1 \mid e^* \end{equation*}$

次の翻訳を検討してください正規表現を使用して、それを複素数値有理関数に変換します。 $[\![\cdot]\!] : \mathrm{Re} \to \mathbb{C}(z)$

\begin{aligned} [[x \in Σ]] & = z \\ [[e_{0} e_{1}]] & = [[e_{0}]] \times [[e_{1}]] \\ [[e_{0} + e_{1}]] & = [[e_{0}]] + [[e_{1}]] \\ [[e^{*}]] & = \frac{1}{1 - [[e]]} \end{aligned}

$\begin{align*} [\![x \in \Sigma]\!] &= z \\ [\![e_0 ~ e_1]\!] &= [\![e_0]\!] \times [\![e_1]\!]\\ [\![e_0 + e_1]\!] &= [\![e_0]\!] + [\![e_1]\!]\\ [\![e^*]\!] &= \frac{1}{1 - [\![e]\!]} \end{align*}$

この変換がで構造的帰納を行うことにより有理式を返すことを示すことができ、右側で使用されるすべての演算が有理性を保持することに注意してください。 $e$

入力した正規表現が明確であるとすると、表される有理関数が $e$ 実際には、基礎となる言語によって受け入れられる単語の家族のための生成機能である、その長さによってランク付け。 $[\![e]\!] \in \mathbb{C}(z)$ $e$

例えば、言語検討のランの言語定義、で区切ら。さて、この正規表現は明確であるため、翻訳トリックを実行できます。 $(a^*b)^*$ $a$ $b$

\begin{aligned} [[(a^{*} b)^{*}]] & = \frac{1}{1 - [[a^{*} b]]} \\ = \frac{1}{1 - ([[a^{*}]] \times [[b]])} \\ = \frac{1}{1 - (\frac{1}{1 - [[a]]} \times z)} \\ = \frac{1}{1 - \frac{z}{1 - z}} \\ = \frac{1}{2} + \frac{1}{2 - 4 z} \end{aligned}

$\begin{align*} [\![(a^*b)^*]\!] &= \frac{1}{1 - [\![a^*b]\!]} \\ &= \frac{1}{1 - ([\![a^*]\!] \times [\![b]\!])} \\ &= \frac{1}{1 - \left(\frac{1}{1 - [[a]]} \times z\right)} \\ &= \frac{1}{1 - \frac{z}{1 - z}} \\ &= \frac{1}{2} + \frac{1}{2 - 4 z} \end{align*}$

結局のところ、上記の生成関数を考えると、その係数抽出はここで、

[z^{n}] [[(a^{*} b)^{*}]] = 2^{n - 1} + \frac{δ (n)}{2}

$[z^n][\![(a^*b)^*]\!] = 2^{n - 1} + \frac{\delta\left(n\right)}{2}$

δ (n) = {\begin{cases} 1 & if n = 0 \\ 0 & otherwise \end{cases}

$\delta(n) = \begin{cases} 1 & \text{if } n = 0 \\ 0 & \text{otherwise} \end{cases}$

実際、私たちの翻訳有理関数を生成します。部分分数分解を使用して、明確な正規表現の列挙式を作成できます。 $[\![\cdot]\!]$

既約有理関数

r (z) + \frac{p (z)}{q (z)}

$r(z) + \frac{p(z)}{q(z)}$

r, p, q

$r, p, q$

r (z) + \frac{C_{0}}{z - q_{0}^{*}} + \dots + \frac{C_{n}}{z - q_{n}^{*}}

$r(z) + \frac{C_0}{z - q^*_0} + \dots + \frac{C_n}{z - q^*_n}$ where

q_{k}^{*}

$q^*_k$ are the roots of

q (z)

$q(z)$ . There's a bit of technical corner-cases (like multiplicity of roots, etc), but it's relatively easy to do coefficient extraction on the expression above:

[z^{n}] \frac{C}{z - q^{*}} = C \times {q^{*}}^{- n}

$[z^n] \frac{C}{z - q^*} = C \times {q^*}^{-n}$

In fact, the partial fraction decomposition generalize to multivariate rational functions, so you can actually construct counting formulas for queries such as "How many words are there where there are $n$ as and $m$ bs?"

Unfortunately, the extent to which this method will be useful ends when you have an ambiguous expression.

— Lee
ソース