文章目录

绪论

字母表
字符串
语言
上下文无关语言与下推自动机
图灵机及其语言
归纳证明法

上下文无关文法与上下文无关语言

归约与推导
上下文无关语言
文法与语言的Chomsky分类方法
语法分析树
文法和语言中的二义性

正规表达式与正规语言

正规表达式
正规语言
代数定律具体化

有限状态自动机

确定有限状态自动机
非确定有限自动机
DFA和NFA的等价性
带空转移的非确定有限自动机
有限状态自动机与正规表达式的关系
转换算法的复杂度

正规语言的性质与运算

Pumping引理
正规语言的判定性质
正规语言的封闭运算

下推自动机

两种定义
从下推自动机构造等价的上下文无关文法
确定下推自动机

上下文无关语言的性质与运算

Pumping引理
上下文无关语言的封闭运算

图灵机

绪论

字母表

概念：形式符号的非空有限集合

集合：常用 $\Sigma$ 表示

字符串

概念：字母表 $\Sigma$ 上的一个字符串，为 $\Sigma$ 中字符构成的有限序列

空串：常用 $\varepsilon$ 表示

幂运算：设 $\Sigma$ 为字母表， $n$ 为任意自然数，定义

（1） $\Sigma^0=\{\varepsilon\}$

（2）设 $x\in \Sigma^{n-1},a\in \Sigma$ ，则 $ax\in \Sigma^{n}$

（3） $\Sigma^{n}$ 中元素只能由（1）（2）生成

字母表中可以包含空字符，所以 $\Sigma^i$ 的元素的长度不一定为 $i$

*闭包： $\Sigma^{*}=\Sigma^0\cup\Sigma^1\cup...$

+闭包： $\Sigma^{+}=\Sigma^1\cup\Sigma^2\cup...$

语言

概念：设 $\Sigma$ 为字母表，则任何集合 $L\subseteq\Sigma^*$ 是字母表 $\Sigma$ 上的一个语言

语言的连接： $LM=\{w_1w_2|w_1\in L\wedge w_2\in M\}$

语言的闭包： $L^*=L^0\cup L^1\cup L^2...$

上下文无关语言与下推自动机

设 $\Sigma=\{0,1\},L=\{0^n1^n|n\geq 1\}$

下推自动机识别：维护一个栈，转移方向由栈顶和字符共同确定，每次转移识别一个字符并对栈进行修改

图灵机及其语言

设 $\Sigma=\{0,1,2\},L=\{0^n1^n2^n|n\geq 1\}$ ，则不存在任何自动机和下推自动机可以识别该语言，但是总存在一个图灵机可以识别

归纳证明法

1.基础：至少包含集合中一个元素

2.归纳：由已知元素生成新元素

3.极小性限制：集合中的元素只能由1、2生成

上下文无关文法与上下文无关语言

##上下文无关文法的基本概念

设 $\sum=\{0,1\}，L=\{0^n1^n|n\geq 1\}$

则接受该语言的文法为 $S\rightarrow01$ ， $S\rightarrow 0S1$

四个基本要素：终结符集合 $T$ ，非终结符集合 $V$ ，开始符号 $S$ ，产生式集合 $P$

一个上下文无关文法是一个四元组 $G=(V,T,P,S)$ ，其中 $V\cap T=\varnothing$ ， $S\in V$ ，产生式规则形如 $A\rightarrow \alpha$ ， $\alpha \in(V\cup T)^{*}$

对于文法： $E\rightarrow EOE$ ， $E\rightarrow (E)$ ， $E\rightarrow v$ ， $E\rightarrow d$ ， $O\rightarrow +$ ， $O\rightarrow *$

$G=(\{E,O\},\{(,),+,*,v,d\},P,E)$

缩记方式： $E\rightarrow EOE|(E)|v|d$

归约与推导

推理字符串是否符合文法定义语言，归约是由字符串推出开始符号，推导是由初始符号推出字符串

计算机实现归约（CKY算法）：动态规划，全枚举，由于 $E\rightarrow (E)$ 是三叉，时间复杂度较高

计算机实现推导（EARLY算法）：维护两个栈，将规则推入栈中进行探索

最左推导：每一步替换最左边的非终结符

最右推导：

句型：设 $CFG\;\;G=(V,T,P,S)$ ，称 $\alpha\in (V\cup T)^*$ 为 $G$ 的一个句型，当且仅当 $S\overset{*}{\rightarrow}\alpha$

若 $S\xrightarrow[lm]{*}\alpha$ ，称 $\alpha$ 是一个左句型

若句型 $\alpha\in T^*$ ，则称 $\alpha$ 为一个句子

上下文无关语言

设 $CFG\;\;G=(V,T,P,S)$ ，定义 $G$ 的语言为 $L(G)=\{w|w\in T^*\wedge S\xrightarrow[G]{*} w\}$

上下文无关语言：由CFG生成的语言

证明给定语言L是某个文法G的语言

一般步骤： $if \;w\in G\;then\;w\in L(G)$ ； $if\;w\in L(G)\;then\;w\in L$

文法与语言的Chomsky分类方法

文法： $G=(V,T,P,S)$

0型文法：产生式形如 $\alpha \rightarrow \beta$ ，其中 $\alpha$ 中至少包含一个非终结符，相当于图灵机

1型文法：产生式形如 $\alpha \rightarrow \beta$ ， $|\alpha|\leq |\beta|$ ，当 $S\rightarrow \varepsilon$ 例外，且S不得出现在任何产生式右侧，上下文有关文法，相当于线性有界自动机

2型文法：产生式形如 $A\rightarrow \beta$ ，其中 $A\in V$ ，上下文无关文法，下推自动机

3型文法：产生式形如 $A\rightarrow aB$ 或 $A\rightarrow a$ ，正规文法，有限状态自动机

语法分析树

语法分析树：推导过程自上而下构成一棵树，满足以下条件

(1)每个内部节点由一个非终结符标记

(2)每个叶节点或由一个非终结符，或由一个终结符，或由 $\varepsilon$ 标记，但是当为 $\varepsilon$ 标记，为父节点唯一孩子

(3)若一个内部节点标记为A，孩子从左到右为 $X_1...X_k$ ，则 $A\rightarrow X_1...X_k$ 为产生式

语法树的果实：叶节点从左到右连接起来

文法和语言中的二义性

存在句子对应至少两个语法分析树/最左推导的文法是有二义性的

上下文无关语言L的所有文法都是二义性的，则称L为固有二义性

例： $L=\{a^nb^nc^md^m|n\geq1,m\geq 1\}\cup\{a^nb^mc^md^n|n\geq1,m\geq 1\}$

消除二义性的方式：

算符优先级联(将一种算符处理完再处理别的算符)

左结合(左算符优先)

最近嵌套匹配(消除悬垂else二义性)

正规表达式与正规语言

正规表达式

作用于正规表达式的三种运算：

$L\cup M=\{w|w\in L\vee w\in M\}$

$L\cdot M=\{w_1w_2|w_1\in L\wedge w_2\in M\}$

$L^*=\cup_{i\geq 0}L^i$

语法：设字母表 $\Sigma$ ，正规表达式集合 $R$

基础： $\varepsilon,\varnothing \in R$ $a\in \Sigma\Rightarrow a\in R$ $\forall 变量 L \in R$

归纳： $E\in R\wedge F\in R\Rightarrow E+F\in R$ ； $E\in R\wedge F\in R\Rightarrow EF\in R$ ； $E\in R\Rightarrow E^*\in R$ ； $E\in R\Rightarrow (E)\in R$

语义：对每个不含变量的 $E\in R$ ， $E$ 的语言 $L(E)$ 递归定义如下

基础： $L(\varepsilon)=\{\varepsilon\}$ ； $L(\varnothing)=\varnothing$ ； $a\in \Sigma \Rightarrow L(a)=\{a\}$

归纳： $E\in R\wedge F\in R\Rightarrow L(E+F)=L(E)\cup L(F)$ ； $E\in R\wedge F\in R\Rightarrow L(EF)=L(E)L(F)$ ； $E\in R \Rightarrow L(E^*)=(L(E))^*$ ； $L((E))=L(E)$

算符优先级：()>*>·>+

派生运算符： $L^+=LL^*$ ； $L?=\varepsilon+L$ ； $L^n=LL^{n-1}$

正规语言

对于字母表 $\Sigma$ 上的语言 $R$ ，若存在 $\Sigma$ 上的正规表达式 $E$ ，满足 $L(E)=R$ ，则 $R$ 是正规语言

代数定律：

交换律和结合律

零元： $\varnothing+L=L+\varnothing =L\;\;\;\;\varnothing L=L\varnothing=\varnothing$

幺元： $\varepsilon L=L\varepsilon=L$

分配律

等幂律： $L+L=L$

与闭包相关的定律

代数定律具体化

例：验证 $L+ML=(L+M)L$ 是否成立，只需验证对于具体符号 $a+ba=(a+b)a$ 是否成立，显然 $aa$ 属于后者不属于前者

有限状态自动机

有限状态自动机：有限状态集，有限输入符号集，转移函数，一个开始状态，终态集合

确定有限状态自动机

确定有限状态自动机DFA是一个五元组 $A=(Q,\Sigma,\delta,q_0,F)$

其中， $\delta:Q\times \Sigma\rightarrow Q$ ， $q_0\in Q$ ， $F\subseteq Q$

扩展转移函数，适合输入字符串： $\delta':Q\times \Sigma^*\rightarrow Q$

$\forall q \in Q$ ，有 $\delta'(q,\varepsilon)=q$ ，若 $w=xa\;\;(x\in \Sigma^*,a\in \Sigma)$ ，则 $\delta'(q,w)=\delta(\delta'(q,x),a)$

DFA的语言： $L(A)=\{w|w \in \Sigma^*\wedge\delta'(q_0,w)\in F\}$

非确定有限自动机

形式语言与自动机

其中， $\delta:Q\times \Sigma\rightarrow 2^Q$

NFA接受输入的字符串：只要可以转移到结束节点就接受

扩展转移函数，适合输入字符串： $\delta':Q\times \Sigma^*\rightarrow 2^Q$

$\forall q \in Q$ ，有 $\delta'(q,\varepsilon)=q$ ，若 $w=xa\;\;(x\in \Sigma^*,a\in \Sigma)$ ，假设 $\delta'(q,x)=\{p_1,...p_k\}$ ，则有 $\delta'(q,w)=\cup_{i=1}^k\delta(p_i,a)$

NFA的语言： $L(A)=\{w|w \in \Sigma^*\wedge(\delta'(q_0,w)\cap F\not=\varnothing)\}$

DFA和NFA的等价性

定理：L是某个DFA的语言 $\Leftrightarrow$ L是某个NFA的语言

充分性：DFA是一种特殊的NFA

必要性：考虑 $DFA=(Q_D,\Sigma,\delta_D,\{q_0\},F_D)$ ，其中

$Q_D=\{S|S\subseteq Q_N\}$

$\forall S\in Q_D\;a\in \Sigma$ ， $\delta_D(S,a)=\cup_{q\in S}\delta_N(q,a)$

$F_D=\{S|S\subseteq Q_N\wedge (S\cap F_N\not=\varnothing)\}$

大多数情况，子集构造法得到的DFA状态数与NFA状态数规模相同，最坏时状态数为指数规模

形式语言与自动机

反证法，假定图中NFA构造DFA状态数少于 $2^n$ ，考虑长度为n的01串

带空转移的非确定有限自动机

与非确定有限自动机的区别： $\delta:Q\times \Sigma\cup\{\varepsilon\}\rightarrow 2^Q$

$\varepsilon$ -闭包：状态q的 $\varepsilon$ -闭包，记为ECLOSE(q)，定义为从q经过所有的 $\varepsilon$ 路径可以到达的所有状态

扩展转移函数： $\delta(q,w)=\cup_{i=1}^kECLOSE(r_i)$

$\varepsilon$ -NFA等价于DFA

##确定有限自动机的最小化

DFA上等价关系：对于 $\forall p,q\in Q$ ，有 $pRq\Leftrightarrow (\forall w \in \Sigma^*)\delta'(p,w)\in F\leftrightarrow \delta'(q,w)\in F$

定理：$\delta(r,a)=p ;;\delta(s,a)=q $，则$ p,q $可区别$ \Rightarrow$ $r,s$ 可区别

填表法：递归标记可区别状态偶对的过程

基础： $p$ 终态， $q$ 非终态，则 $p,q$ 可区分

归纳：设 $p,q$ 已标记为可区分，若 $\delta(r,a)=p\;\;\delta(s,a)=q$ ，则将 $r,s$ 标记为可区分

有限状态自动机最小化：删除所有从开始状态不可到达的状态及与其相关的边，使用填表法找到所有等价的状态偶对，根据等价块进行合并

有限状态自动机与正规表达式的关系

结论：有限自动机所表示的语言是正规语言

定理：若L是一个正规表达式R表示的语言，则存在一个 $\varepsilon$ -NFA E，满足L(E)=L®=L

证明：归纳构造过程(Thompson构造法)

基础：对 $\varepsilon\;\;\phi\;\;a$ ，构造为

形式语言与自动机

归纳：

对E+F，构造为
形式语言与自动机

对EF，构造为

形式语言与自动机

对E*，构造为

形式语言与自动机

定理：L是某个DFA D的语言，则存在一个正规表达式R，满足L®=L(D)=L

证明：

1.路径迭代法(Kleene构造法)

设DFA D的状态集为{1,…n}，初态为1，对所有 $1\leq i,j\leq n$ ， $0\leq k\leq n$ ，迭代计算正规表达式 $R_{ij}^{(k)}$ ，其中 $w\in R_{ij}^{(k)}\Leftrightarrow$ 从 i 到 j 存在一条标记为w的路径，且路径上除 i , j 外所有状态的编号均不大于 k

最后，将 $R_{1e}^{(n)}$ 用加号相连，e为终态节点

基础：

**i != j：若不存在从 i 到 j的弧，则 $R_{ij}^{(0)}=\phi$ ；若仅存在一条从 i 到 j 的弧，且标记为 a ，则 $R_{ij}^{(0)}=a$ ；若存在多条从 i 到 j 的弧，且标记为 $a_1 , a_2 , … , a_m$ ， $R_{ij}^{(0)}= a 1+a_2+… +a_m$ **

i = j：若不存在从 i 到自身的圈，则 $R_{ij}^{(0)}= \varepsilon$ ；若存在一个从 i 到自身的圈且标记为a ， $R_{ij}^{(0)}= \varepsilon+a$ ；存在多个从 i 到自身的圈，且标记为 $a_1,a_2 , … , a_m$ ，则 $R_{ij}^{(0)}= \varepsilon+a_1+...+a_m$

归纳： $R_{ij}^{(k)}=R_{ij}^{(k-1)}+R_{ik}^{(k-1)}(R_{kk}^{(k-1)})^*R_{kj}^{(k-1)}$

2.状态消去法

思路：扩展自动机的概念，允许正规表达式作为转移弧的标记，这样，就有可能在消去某一中间状态时，保证自动机能够接受的字符串集合保持不变。在消去某一中间状态时，与其相关的转移弧也将同时消去，所造成的影响将通过修改从每一个前趋状态到每一个后继状态的转移弧标记来弥补

形式语言与自动机

步骤：

(1)对每一终态q ，依次消去除 q 和初态 q0 之外的其它状态

(2)若q != q0，最终可得到一般形式如下状态自动机，该自动机对应的正规表达式可表示为$ ( R+SU^T )^*SU$

形式语言与自动机

(3)若 q = q0 ，最终可得到如下的自动机，它对应的正规为表达式可以表示为R*

形式语言与自动机

(4)最终的正规表达式为每一终态对应的正规表达式之和

转换算法的复杂度

从DFA构造NFA： $O(|Q|)$

从NFA构造DFA： $O(|Q|^22^{|Q|})$ ，实际上界为 $O(|Q|^2 s)$ s为DFA实际状态数

从DFA构造 $\varepsilon$ -NFA： $O(|Q|)$

从 $\varepsilon$ -NFA构造DFA： $O(|Q|^32^{|Q|})$ ，实际上界为 $O(|Q|^3 s)$ s为DFA实际状态数

路径迭代法/状态消去法： $O(|Q|^34^{|Q|})$

正规表达式构造 $\varepsilon$ -NFA： $O(n)$

正规语言的性质与运算

Pumping引理

设 $DFA\;\;D=(Q,\Sigma,\delta,q_0,F)$ ， $|Q|=n$ ，对于任一长度不小于n的字符串 $w=a_1a_2...a_m$ 其中 $m\geq n$ ，考察如下状态序列
$\\p_0=q \in Q \\p_1=\delta'(q,a_1) \\... \\p_m=\delta'(q,a_1...a_m)$
则Pigeonhole原理，存在 $i,j$ ， $0\leq i<j\leq n$ ， $s.t.p_i=p_j$

pumping特性：任一长度不小于状态数目的字符串所标记的路径上，必然出现重复的状态

令 $w=xyz$ ，其中 $x=a_1...a_i$ ， $y=a_{i+1}...a_{j}$ ， $z=a_{j+1}...a_m$ ，则对于任意的k，都有 $xy^kz\in L(D)$

pumping特性：设L是正规语言, 则存在常数n>0，使得任一长度不小于n的字符串 $w\in L$ ， $|w|\geq n$ , 都可以分成三个部分，即 $w=xyz$ ，且满足 $y\not=\varepsilon$ ， $|xy|\leq n$ ， $\forall k\geq 0,xy^kz\in L$

应用：证明某个语言L不是正规语言

例：证明语言 $L=\{0^k1^k|k\geq 0\}$ 不是正规语言

考虑任意的 $n\geq 1$ ，取 $w = 0^n1^n$ ，任选满足条件 $w=xyz\wedge y\not=\varepsilon\wedge|xy|\leq n$ 的 $xyz$
若取 $k=0$ , 则有 $xy^kz = xz\not \in L_{01}$ ( $xz$ 中0比1少)

注意：Pumping引理不是正规语言的充分条件，考虑如下非正规语言

a, b, c 串构成的语言 $L = \{a^i b^j c^k |i,j,k \geq 0,if \;i=1 \;then \;j=k\}$

正规语言的判定性质

判定DFA是否为空：测试从初态是否可达某一终态，先求所有可达状态的集合，若其中包含终态，则该正规语言非空，否则为空语言

判定正规表达式是否为空：

基础： $L(\varnothing)$ 为空语言，而 $L(\varepsilon)$ 和 $L(a)$ 不是
归纳：

设 $R=R_1 +R_2$ ， $L(R)$ 为空 iff $L(R_1)$ 和 $L(R_2)$ 都为空

设 $R=R_1 R_2$ ， $L(R)$ 为空 iff $L(R_1)$ 或 $L(R_2)$ 都为空

设 $R=R_1^*$ ， $L(R)$ 非空

设 $R=(R_1 )$ ， $L(R)$ 为空 iff $L(R_1 )$

判定正规语言是否相等：

先将两个正规语言的表达形式都转化为 DFA ，问题转化为两个DFA 是否是等价的

适当重命名，使两个DFA没有重名的状态

将两个DFA 相并，构造一个新的DFA，原来的终态仍是终态，转移边不发生任何变化，取任何一个状态为初态

对新构造的DFA 运用填表算法，如果原来DFA的两个初态不可区别，则这两个正规语言相等，否则不相等

正规语言的封闭运算

正规语言的补：若 $L$ 为 $\Sigma$ 上的正规语言，则 $\overline{L} = \Sigma^*–L$ 也是正规语言

证明：设$DFA ;;A = (Q, \Sigma, \delta, q_0 , F ) $，使得 $L(A)=L$ ，构造 $DFA \;\;B = (Q, \Sigma, \delta , q_0 , Q – F )$

正规语言的交：若 $L$ 和 $M$ 为正规语言，则 $L \cap M$ 也是正规语言

证明：设 $DFA \;\;A_L = (Q_L ,\Sigma,\delta_L , q_L , F_L )$ 和 $DFA\;\;A_M = (Q_M , \Sigma, \delta_M , q_M , F_M )$ 的语言分别为L和M，构造 $DFA \;\;A = (Q_L \times Q_M ,\Sigma,\delta , <q_L , q_M > , F_L \times F_M )$ ，其中 $\delta (<p, q> , a)= <\delta_L(p, a),\delta_M (q, a) >$

正规语言的差：若L和M为正规语言，则L–M也是正规语言

证明： $L-M=L\cap\overline{M}$

正规语言的反向：若L为正规语言，则 $L^R=\{w^R|w\in L\}$ 也是正规语言

证明：设有限自动机 A 的语言为L，即L(A)=L，通过以下步骤修改A的转移图，得到有限自动机B

将A的转移图中所有的弧反向

将A的初态作为B的唯一终态

增加一个新的状态 $p_0$ 作为B的初态，并从 $p_0$ 到A的所有终态增加一条 $\varepsilon$ -转移弧

正规语言的同态：

设映射 $h:\Sigma \rightarrow T^*$ ，则对 $w=a_1 a_2 …a_n\in \Sigma^*$ ，定义 $h(w) = h(a_1 ) h(a_2 ) … h(a_n )$ ，称为串 w 的一个同态，对语言 $L\subseteq\Sigma^*$ ，定义 L 的同态 $h(L) = \{ h(w) | w\in L \}$

若 L 为正规语言， $h:\Sigma \rightarrow T^*$ ，则 $h(L)$ 也是正规语言

正规语言的反同态：

对语言 $L\subseteq\Sigma^*$ ，定义 L 的反同态 $h^{-1}(L) = \{ w | w\in \Sigma^*\wedge h(w)\in S \}$

若 L 为正规语言， $h:\Sigma \rightarrow T^*$ ，则 $h^{-1}(L)$ 也是正规语言

应用：

证明如下语言不是正则语言

a, b, c 串构成的语言 $L = \{a^i b^j c^k |i,j,k \geq 0,if \;i=1 \;then \;j=k\}$

设 $h(a)=\varepsilon$ ， $h(b)=0$ ， $h(c)=1$ ，则 $h(L’)=\{0^n 1^n | n \geq 0\}$ 是正规语言，矛盾

下推自动机

下推自动机：带有一个堆栈的有限状态自动机

一个下推自动机PDA是一个七元组 $P=(Q,\Sigma,\Gamma,\delta,q_0,Z_0,F)$

分别为：有限状态集，有限输入符号集，有限堆栈符号集，转移函数，开始状态，开始堆栈符号，终态集合

其中， $q_0\in Q$ $Z_0\in \Gamma$ $F\subseteq Q$ $\delta:Q\times(\Sigma\cup\{\varepsilon\})\times \Gamma\rightarrow 2^{Q\times \Gamma^*}$

两种定义

用ID表示当前格局，PDA的当前格局用三元组 $(q,w,\gamma)$ 表示，其中 $q$ 为当前状态， $w$ 为剩余的输入串， $\gamma$ 为当前栈中的内容

ID推导关系 $\vdash$ ： $(q,aw,X\beta)\vdash(p,w,\alpha\beta) \;\;\;iff\;\;\;(p,\alpha)\in\delta(q,a,X)$

类似定义ID推导关系的自反传递闭包 $\vdash^*$

空栈接受定义： $N(P)=\{w|(q_0,w,Z_0)\vdash^*(q,\varepsilon,\varepsilon)\}$

终态接受定义： $L(P)=\{w|(q_0,w,Z_0)\vdash^*(q,\varepsilon,\alpha)\}$

等价性证明：

设 $PDA \;\;P_N$ ， $L=N(P_N)$ ，则存在 $PDA\;\;P_F$ ，满足 $L=L(P_F)$

形式语言与自动机

设 $PDA \;\;P_F$ ， $L=L(P_F)$ ，则存在 $PDA\;\;P_N$ ，满足 $L=N(P_N)$

形式语言与自动机

##从上下文无关文法构造等价的下推自动机

设 $CFG \;\;G=\{V,T,P,S\}$ ，构造空栈接受方式 $PDA \;\;E=(\{q\},T,V\cup T,\delta,q,S)$ ，转移函数定义为

(1)对每一个 $A\in V$ ， $\delta(q,\varepsilon,A)=\{(q,\beta)|A\rightarrow \beta\;\;\in P\}$

(2)对每一个 $a\in T$ ， $\delta(q,a,a)=\{(q,\varepsilon)\}$

结论：依据如上构造方法，有 $N(E)=L(G)$

证明：

1.如果A的最左推导可以推出w，那么 $(q,w,A)\vdash^*(q,\varepsilon,\varepsilon)$

归纳最左推导的步数n

n=1时， $A\rightarrow w$ 必为产生式， $(q,w,A)\vdash (q,w,w)\vdash^*(q,\varepsilon,\varepsilon)$

归纳，设第一步使用产生式 $A\rightarrow X_1X_2...X_m$ ，必有 $w=w_1...w_m$ ，因此
$(q,w,A)\vdash (q,w_1...w_m,X_1...X_m)\vdash^*(q,w_2...w_m,X_2...X_m)\vdash^*...\vdash^*(q,\varepsilon,\varepsilon)$
2.如果 $(q,w,A)\vdash^*(q,\varepsilon,\varepsilon)$ ，那么A能够最左推导出w

归纳 $(q,w,A)\vdash^*(q,\varepsilon,\varepsilon)$ 的步数n

n=1时，必有 $w=\varepsilon$ ，且 $A\rightarrow \varepsilon$ 为G的产生式，得证

归纳，设第一步使用产生式 $A\rightarrow X_1...X_m$ ，可将 $w$ 分为 $w=w_1...w_m$ ，满足 $(q,w_i,X_i)\vdash^*(q,\varepsilon,\varepsilon)$ ，对于任意的 $X_i$ ，都有 $X_i\xrightarrow[*]{lm} w_i$ ，因此， $A\Rightarrow X_1...X_m\Rightarrow^* w_1...w_m=w$

从下推自动机构造等价的上下文无关文法

设 $PDA \;\;E=(Q,\Sigma,\Gamma,\delta,q_0,Z_0)$ ，构造 $CFG\;\;G=(V,\Sigma,P,S)$ ，其中 $V=\{S\}\cup\{[pXq]|p,q\in Q\wedge X\in \Gamma\}$

产生式集合P定义如下：

(1)对每一个 $p\in Q$ ，G包含产生式 $S\rightarrow [q_0Z_0p]$

(2)若 $(q,X_1...X_k)\in \delta(p,a,X)$ ，则包含产生式 $[pXp_k]\rightarrow a[qX_1p_1]...[p_{k-1}X_kp_k]$ ，其中 $a\in \Sigma \;or\;a=\varepsilon$ ， $p_0=q$

结论：依据上述构造方法，有 $N(E)=L(G)$

证明对 $q,p\in Q$ ， $(q,w,X)\vdash^*(p,\varepsilon,\varepsilon)\;\;iff\;\;[qXp]\Rightarrow^*w$

(1)归纳 $(q,w,X)\vdash^*(p,\varepsilon,\varepsilon)$ 的步数为n

n=1时， $w=\varepsilon$ 或单个符号，且 $(p,\varepsilon)\in \delta(q,w,X)$ ，由构造过程， $[qXp]\rightarrow w$ 为一个产生式

归纳，设第一步推导为 $(q,w,X)\vdash(p_0,x,X_1...X_k)$ ，其中 $w=ax$ ， $a=\varepsilon$ 或单个符号，且 $(p_0,X_1...X_k)\in \delta(q,a,X)$ ，可以将x分为 $x=x_1...x_k$ ，存在 $p_1..p_{k-1}$ ，满足 $(p_{i-1},x_i,X_i)\vdash^*(p_i,\varepsilon,\varepsilon)$ ， $(p_{k-1},x_k,X_k)\vdash^*(p,\varepsilon,\varepsilon)$

由归纳假设，得证

(2)归纳 $[qXp]\Rightarrow^* w$ 的步数为n

确定下推自动机

定义：一个 $PDA \;\;P$ 是确定的 $PDA$ ，或称为 $DPDA$ ，当且仅当满足

·对于 $a\in \Sigma$ 或 $a=\varepsilon$ ， $X\in \Gamma$ ， $\delta(q,a,X)$ 最多包含一个元素

·对于 $a\in \Sigma$ ，若 $\delta(q,a,X)\not=\varnothing$ ，则 $\delta(q,\varepsilon,X)=\varnothing$

结论：若 $L$ 为正规语言，则存在 $DPDA\;\; P$ ， $L(P) = L$

思路：转化为一个栈不变的DFA，即 $\delta_P(q,a,Z_0)=\{(p,Z_0)\}\; iff\; \delta_A(q,a)=p$

结论：DPDA的计算能力强于有限自动机

例如语言 $L=\{wcw^R|w\in(0+1)^*\}$

前缀性质：一个语言 $L$ 具有前缀性质，当且仅当不存在 $x,y\in L$ ， $x\not =y$ ，且 $x\in prefix(y)$

结论：一个语言 $L$ 是某个空栈接受的 $DPDA\;\;P$ 的语言，当且仅当 $L$ 具有前缀性质，且 $L$ 是某个 $DPDA\;\;P'$ 的语言

结论：某些上下文无关语言不是任何 $DPDA$ 的语言，例如 $L=\{ww^R|w\in(0,1)^*\}$

定义：若上下文无关语言 $L$ 是某个 $DPDA$ 的语言，则称 $L$ 为一个确定的上下文无关语言

结论：一个语言 $L$ 是某个空栈接受的 $DPDA \;\;P$ 的语言，即 $L=N(P)$ ，则 $L$ 存在无二义文法

结论：一个语言 $L$ 是某个 $DPDA \;\;P$ 的语言,即 $L=L(P)$ ，则 $L$ 存在一个无二义文法

结论：固有二义的语言不是任何 $DPDA$ 的语言

结论：存在非固有二义的语言 $L$ ，不是任何 $DPDA \;\;P$ 的语言

例如， $L=\{ww^R|w\in(0+1)^*\}$

#CFG的简化与Chomsky范式

##消去空产生式

可致空符号：对于 CFG G =(V,T,P,S)，称符号 $A\in V$ 是可致空的，当且仅当 $A\Rightarrow^* \varepsilon$

设 CFG G =(V,T,P,S), 通过下列步骤可以得到消去 G中 $\varepsilon$ 产生式及其影响,由此得到 CFG G’ =(V,T,P’,S)

(1) 计算 G 的可致空符号集合;

(2) 对每一产生式 $A\rightarrow A_1 A_2 ...A_k$ ，在G’中对应有一组产生式，每一个可致空符号都可能出现或不出现；若包含m<k个可致空符号,则该产生式能够对应G’中的 $2^m$ 个产生式;若包含 k 个可致空符号,则该产生式能够对应 G’ 中的 $2^k -1$ 个产生式;

(3) G’ 中不包含 G 的所有 $\varepsilon$ 产生式 $A\rightarrow \varepsilon$

##消去UNIT产生式

UNIT产生式：形如 $A\rightarrow B$ 的产生式，其中A,B均为非终结符

UNIT偶对：对于 CFG G =(V,T,P,S)， $A,B \in V$ ，称(A,B)是UNIT偶对，当且仅当 $A\Rightarrow^* B$ ，且该推导过程仅使用过 UNIT 产生式

对于 CFG G =(V,T,P,S)，可通过下列归纳步骤计算所有 UNIT 偶对的集合

基础：对于任何 $A\in V$ ，(A,A) 是一个 UNIT 偶对;

归纳：如果(A,B)是一个 UNIT 偶对,及 $B\rightarrow C$ 是产生式( $C\in V$ ),则 (A,C) 是一个 UNIT 偶对

设 CFG G = (V,T,P,S)，通过下列步骤消去 G 中的 UNIT 产生式，由此得到 CFG G’ =(V,T,P’,S)

(1)计算 G 的 UNIT 偶对集合;

(2)对每个 UNIT 偶对 (A,B)，在 G’ 中加入产生式 $A\rightarrow \alpha$ ，其中 $B\rightarrow \alpha$ 为一个非 UNIT 产生式;

(3)G’ 中包含 G 的所有非 UNIT 产生式

##消去无用符号

有用符号：对于CFG G=(V,T,P,S)，称符号 $X\in V\cup T$ 是有用的，当且仅当 $S\Rightarrow^* \alpha X\beta\Rightarrow^w $，其中$ w\in T^ $，$ \alpha,\beta\in (V\cup T)^*$

无用符号：非有用符号

生成符号：X是生成符号，当且仅当存在 $w\in T^*$ ，满足 $X\Rightarrow^* w$

可达符号：称符号X是可达符号，当且仅当存在 $\alpha,\beta \in(V\cup T)^*$ ，满足 $S\Rightarrow^* \alpha X\beta$

有用符号一定是生成符号和可达符号，但是反之不然

例如， $S\rightarrow AB|a$ $B\rightarrow b$

定理：消去所有非生成符号，在新的CFG基础上再消去所有非可达符号，剩余符号都是有用符号，次序是敏感的

结论：设CFG G的语言至少包含一个非 $\varepsilon$ 的字符串，通过上述步骤从 G 构造 G’，则有 $L(G')= L(G) - \{\varepsilon\}$

##Chomsky范式

Chomsky 范式 CNF(Chomsky Normal Form)：任何不含 $\varepsilon$ 的非空 CFL(上下文无关语言) 都存在一个 CFG G，其产生式具有如下两种简单形式之一，并且 G 中不包含无用符号

(1) $A\rightarrow BC$ ，其中 A,B,C 都是非终结符;

(2) $A \rightarrow a$ ,其中 A 是非终结符,a 是终结符;

这样的文法形式称为Chomsky 范式

如何获得Chomsky范式

(1)首先消去 $\varepsilon$ 产生式，UNIT产生式，无用符号

(2)如果某一终结符 a 出现于某些右部长度大于 1 的产生式中，则引入一个新的非终结符，如A，将这些产生式中的 a 替换为 A，并增加新的产生式 $A\rightarrow a$

(3)将右部长度大于2的产生式采用级连 (cascade)的方法转变为只包含两个非终结符，如对于产生式 $A\rightarrow B_1 B_2 ...B_k$ ，其中k>2，引入k-2个新的非终结符 $C_1,C_2,...,C_{k-2}$ ，则将原产生式替换为以下一组产生式 $A\rightarrow B_1 C_1$ ， $C_1\rightarrow B_2 C_2$ ，…， $C_{k-2}\rightarrow B_{k-1} B_k$

上下文无关语言的性质与运算

Pumping引理

pumping特性：考虑不包含 $\varepsilon$ 的非空上下文无关文法，设 $CFG\;\;G(V,T,P,S)$ 满足 $CNF$ 的文法，设 $|V|=m$ ，以及 $n=2^m$ ，对于 $|z|\geq n$ ，考虑语法分析树上的最长链，该最长链的长度大于m（语法分析树为二叉树），则一定存在重复非终结符，则设 $z=uvxyz$ ，其中 $vxy$ 表示上面的非终结符的子树， $x$ 为下面的非终结符的子树，则有 $uv^kxy^kz\in L(G)$ $k\geq 0 $ $|vy|\geq 1$

pumping定理：设L是上下文无关语言，则存在正常数n，使得任何长度大于等于n的字符串 $z\in L$ ，都可以分成五部分 $z=uvxyz$ ，满足 $vx\not=\varepsilon$ ， $|vwx|\leq n$ ， $\forall k\geq 0 \;\;uv^kxy^kz\in L$

pumping引理不是上下文无关语言的充分条件

反例： $L=\{a^ib^jc^kd^l|i,j,k,l\geq 0,if\; i\not=0\; then\; j=k=l\}$

CYK算法判定上下文无关文法是否包含特定字符串 $O(n^3)$

上下文无关语言的封闭运算

上下文无关语言的替换：设 $\Sigma$ 为字母表， $L'$ 为上下文无关语言集合，映射 $s:\Sigma\rightarrow L'$ 称为 $\Sigma$ 上的一个替换，设 $L$ 为 $\Sigma$ 上的上下文无关语言，则 $s(L)$ 也为上下文无关语言

上下文无关语言的并：若L和M是CFL，则 $L\cup M$ 也是CFL

上下文无关语言的闭包：若L是CFL，则 $L^*$ 和 $L^+$ 也是CFL

上下文无关语言的连接：若L和M为CFL，则LM也是CFL

上下文无关语言的同态：设映射 $h:\Sigma \rightarrow T^*$ ，则对 $w=a_1 a_2 …a_n\in \Sigma^*$ ，定义 $h(w) = h(a_1 ) h(a_2 ) … h(a_n )$ ，称为串 w 的一个同态，对语言 $L\subseteq\Sigma^*$ ，定义 L 的同态 $h(L) = \{ h(w) | w\in L \}$ ，若 L 为上下文无关语言， $h:\Sigma \rightarrow T^*$ ，则 $h(L)$ 也是上下文无关语言

上下文无关语言的反向：若L为CFL，则 $L^R$ 也是CFL

上下文无关语言的交、补不一定是上下文无关语言

反例： $L=\{0^n1^n2^i|n,i>0\}$ $M=\{0^i1^n2^n|n,i>0\}$

上下文无关语言与正规语言的交：若L是CFL，R是正规语言，则 $L\cap R$ 是CFL

上下文无关语言的反同态也为上下文无关语言

图灵机

图灵机：一个图灵机TM是一个七元组 $M=(Q,\Sigma,\Gamma,\delta,q_0,B,F)$ ，分别表示有限状态集，有限输入符号集，有限带符号集，转移函数，开始状态，特殊带符(空白符)，终态集合，转移函数为偏函数 $\delta:Q\times\Gamma\rightarrow Q\times\Gamma\times\{L,R\}$

当前格局(ID)：使用字符串 $X_1...X_{i-1}qX_i...X_n$ 表示当前格局， $q$ 表示当前状态，当前带头正在扫描 $X_i$ ，转移方式如下

1.设 $\delta(q,X_i)=(p,Y,L)$ ，则有 $X_1...X_{i-1}qX_i...X_n\vdash_M X_1...X_{i-2}pX_{i-1}YX_{i+1}...X_n$

2.设 $\delta(q,X_i)=(p,Y,R)$ ，则有 $X_1...X_{i-1}qX_i...X_n\vdash_M X_1...X_{i-1}YpX_{i+1}...X_n$

递归可枚举语言：如果待判定的字符串属于该语言，不停地枚举总有一天能枚举到，图灵机可以接受的语言

递归语言：无论待判定的字符串是否属于该语言，不停地枚举总有一天能枚举判定出来，L语言可递归当且仅当存在图灵机M，使得L=L(M)，且无论w是否属于L，M均可停机

语言L是递归语言当且仅当L和L的补集都是递归可枚举的

图灵机的停机：停机是指图灵机不存在下一个移动

可以被图灵机接受的字符串一定能停机，反之不然

Church-Turing论题：递归语言的问题是可判定的

k个带的图灵机可以用2k个道的图灵机来模拟

非确定图灵机语言接受能力与确定图灵机等价

双道的半无穷带图灵机模拟具有双向无穷带的基本图灵机

利用双栈pda模拟基本图灵机

具有一个计数器的计数器机语言接受能力相当于确定下推自动机，具有两个以上的相当于图灵机

对角语言：不是递归可枚举语言

通用语言：递归可枚举语言，但不是递归语言

图灵机的编码：图灵机 $T=(\{q_1,...q_k\},\{0,1\},\{X_1=0,X_2=1,X_3=B\},\delta,q_1,B,\{q_2\})$

设 $D_1=L$ ， $D_2=R$ ，转移函数 $\delta(q_i,X_j)=(q_k,X_l,D_m)$ 编码为 $0^i10^j10^k10^l10^m$ ，规则之间使用 $11$ 分割

任意01字符串w编码为 $1w$

在通用语言的定义中，将图灵机与输入串的偶对 $(M,w)$ 编码为 $C111C'$ ， $C$ 为 $M$ 的编码， $C'$ 为 $w$ 的编码

对角语言：按照上述编码方法，每个图灵机对应一个整数i，即该图灵机的二进制编码 $w_i$ 是第i个01字符串，然而，不是每个整数j都能对应一个图灵机，不妨设第j个图灵机为不接受任何字符串的图灵机，定义对角语言 $L_d=\{w_i|w_i\not\in L(M_i)\}$

结论： $L_d$ 不是递归可枚举语言

证明：若存在某个图灵机M，满足 $L(M)=L_d$ ，设M是第k个图灵机，则对于 $w_k$ ，是否有 $w_k\in L_d$ ，这是悖论

定理：递归语言的补集也是递归语言

定理：递归可枚举语言的补集不一定是递归可枚举语言，若是，则为递归语言

通用语言：用于编码(M,w)的所有01字符串集合，记为 $L_u$ ，其中 $(M,w)$ 满足 $w\in L(M)$

通用图灵机：构造图灵机U，使得 $L_u=L(U)$ ，称U为通用图灵机

定理：通用语言 $L_u$ 为递归可枚举，但非递归

推论：通用语言 $L_u$ 的补不是递归可枚举的

#问题与语言

问题与语言：设L是字母表上一个语言，则与L对应的问题为“任给一个串w，判断 $w\in L$ 是否成立”

通用语言对应问题：任给图灵机M和输入串w，判定w是否被M接受

图灵机停机问题对应语言： $L_H\{C111C'|对于输入串C'，图灵机C将停机\}$

问题的判定：如果一个问题对应的语言是递归的，则称该问题是可判定的，否则是不可判定的，若为递归可枚举，则是部分可判定的

问题的归约：如果可以找到一个算法将P1的实例转化为P2的实例，并且两种解答相同，则称两问题可以互相归约，两问题可判定性相同

图灵机停机可以归约到通用语言，部分可判定；图灵机是否非空问题部分可判定；图灵机是否为空对应语言不是递归可枚举的

Rice定理：有关递归可枚举语言的任何非平凡性质都是不可判定的

设L为所有递归可枚举语言的集合，关于递归可枚举语言的性质表示为 $P\subseteq L$ ，若 $P$ 不为$\varnothing $或$ L$，则P是非平凡的性质

图灵机的时间复杂度：如果对于任何长度为n的输入串w，图灵机M可以在最多 $T(n)$ 个移动步停机，则称图灵机M的时间复杂度是 $T(n)$

非确定图灵机：任何一个转移序列都是 $T(n)$ 步停机

P问题：对应一个时间复杂度为 $T(n)$ 的图灵机

NP问题：对应一个时间复杂度为 $T(n)$ 的非确定图灵机

NPC问题：P是NP问题，且对于任一NP问题P’，P’可以多项式时间归约到P，则P是NPC问题

结论：若P是NPC问题，则P’也是；对于某个NPC问题可以证明是P，则NP=P

NPH问题：可以证明问题P满足NPC问题的条件2，但不能证明满足条件1

NPC问题举例：布尔表达式可满足性(SAT)，CSAT，3SAT，独立集，顶点覆盖，有向哈密顿回路问题，无向哈密顿回路问题，旅行商问题

形式语言与自动机

文章目录

绪论

字母表

字符串

语言

上下文无关语言与下推自动机

图灵机及其语言

归纳证明法

上下文无关文法与上下文无关语言

归约与推导

上下文无关语言

文法与语言的Chomsky分类方法

语法分析树

文法和语言中的二义性

正规表达式与正规语言

正规表达式

正规语言

代数定律具体化

有限状态自动机

确定有限状态自动机

非确定有限自动机

DFA和NFA的等价性

带空转移的非确定有限自动机

有限状态自动机与正规表达式的关系

转换算法的复杂度

正规语言的性质与运算

Pumping引理

正规语言的判定性质

正规语言的封闭运算

下推自动机

两种定义

从下推自动机构造等价的上下文无关文法

确定下推自动机

上下文无关语言的性质与运算

Pumping引理

上下文无关语言的封闭运算

图灵机

相关推荐