正規表現が与えられた場合、の最小の文脈自由文法のサイズに重要な境界がありますか?
正規表現が与えられた場合、の最小の文脈自由文法のサイズに重要な境界がありますか?
回答:
これはすばらしい質問であり、本当に私の興味の範囲内にあります。マックスに聞いてくれてうれしいです。
してみましょう DFAので高々O (N )与えられ、それぞれが述べています。DFAの言語の共通部分を受け入れる準指数的に多くの状態を持つPDAが存在した場合、それは素晴らしいでしょう。ただし、このようなPDAは必ずしも存在するとは限らないことをお勧めします。
コピー言語を検討してください。次に、長さnの文字列のコピーに制限します。
正式には、 -copyを考慮してください:= { x x 。
最大でO (n )のサイズのn個の DFAの共通部分としてコピーを表すことができます。受け入れしかし、最小DFA N -copyが有する2 Ω (N )状態。
同様に、バイナリスタックアルファベットに制限すると、コピーを受け入れる最小のPDAには指数関数的に多くの状態があると思われます。
PSさらに議論したい場合は、私にメールを送ってください。:)
自明でない下限や上限があるとは思わない。
下限については、固定kの言語を考慮してください。最小文脈自由文法のサイズは、サイズの対数であり、L 1「の最小オートマトンの大きさに対し、複数の正規表現L 1の大きさに線形であるL 1の正規表現」。L 1を他のそのような言語と交差させても、この指数関数的な差は変わりません。
上限については、1つだけで構成される言語L 2を考えます
deBruijn-長さシーケンス。L 2の最小文法のサイズは最悪の場合、つまりO (nであるため、L2の「最小」オートマトンとの差は、単に対数係数であり、
言語の共通部分に当てはまることは1つの言語の共通部分に当てはまるので、非自明な一般的な下限または上限はこれらの結果と矛盾します。
マイケルの第二の判断を聞かせてください。これは確かに興味深い質問です。マイケルの主なアイデアは、文献の結果と組み合わせることができます。したがって、同様の下限に厳密な証拠を提供します。
正規表現のアルファベット記号の総数という観点から、CFGサイズの境界を参照します。この数をkで示します。(john_leoが指摘したように、交差点に参加している正規表現の数の点で有用な境界は見つかりません。)
OPもMichaelもこれを言及する必要はありませんでしたが、正規表現の共通部分をNFAに変換するための(状態の数)の上限は簡単に証明できます。記録のために、ここにあります:正規表現をGlushkovオートマトンに変換します。次に、製品構成を適用して、これらの言語の共通部分のNFAを取得します。(境界を2 k + 1程度に改善できると思います。)s状態の NFAは、サイズO (s 2)の右線形文法(CFGの特殊なケース)に変換できます。(プロダクションの左側と右側のシンボルの総数として文法サイズを測定する場合)、サイズを与えます。もちろん、実用的なアプリケーションを考えているなら、この限界は恐ろしいことに聞こえます。NFAのサイズを推定するために、非決定性の状態の複雑さの代わりに非決定性の遷移の複雑さを使用して、より良い境界を証明しようとすることは、努力する価値があるかもしれません。
他の部分は、正規表現の共通部分として簡潔に表現できるが、CFGで記述するのは必然的に面倒な証言言語を見つけることです。(ここでは下無限に多く存在することができたの言語を生成するすべてのCFGのサイズにバインドを確立する必要があります。)は、次の引数が与えられる下限。
有限言語
The total number of alphabetic symbols in this intersection of expressions is in .
Using an argument given in the proof of Theorem 13 in (1), one can prove that every acyclic CFG that generates must have at least distinct variables, if the right-hand side of each rule has length at most . The latter condition is necessary for arguing about the number of variables, since we can generate a finite language with a single variable. But from the perspective of grammar size, this condition is not really a restriction, since we can transform a CFG into this form with only a linear blowup in size, see (2). Notice that the language used by Arvind et al. is over an alphabet of size , and this yields a bound of ; but the argument carries over with obvious modifications.
Still, a large gap remains between and the abovementioned lower bound.
References:
V. Arvind, Pushkar S. Joglekar, Srikanth Srinivasan. Arithmetic Circuits and the Hadamard Product of Polynomials, FSTTCS 2009, Vol. 4 of LIPIcs, pp. 25-36
Lange, Martin; Leiß, Hans (2009). "To CNF or not to CNF? An Efficient Yet Presentable Version of the CYK Algorithm". Informatica Didactica 8.