自顶向下的语法分析(修改)
自顶向下语法分析可以被看作是为输入串构造语法分析树的问题,它从语法分析树的根结点开始,按照先序遍历创建这棵语法分析树的各个结点。自顶向下语法分析也可以被看作寻找输入串的最左推导的过程。
递归下降的语法分析
一个递归下降语法分析程序由一组过程组成,每个非终结符号有一个对应的过程。程序的执行从开始符号对应的过程开始,如果这个过程的过程体扫描了整个输入串,它就停止执行并宣布语法分析成功完成。
一个左递归的文法会使它的递归下降语法分析器进入一个无限循环。即使是带回溯的语法分析器也是如此。也就说,当我们试图展开一个非终结符号A的时候,我们可能会没有读入任何输入符号就再次试图展开A。
FIRST和FOLLOW
自顶向下和自底向上语法分析器的构造可以使用和文法G相关的两个函数FIRST和FOLLOW来实现。在自顶向下语法分析过程中,FIRST和FOLLOW使得我们可以根据下一个输入符号来选择应用哪个产生式。在恐慌模式的错误恢复中,由FOLLOW产生的词法单元集合可以作为同步词法单元。
FIRST(α)被定义为可从α推导得到的串的首符号(终止符号)的集合,其中α是任意的文法符号串。
计算各个文法符号X的FIRST(X)时,不断应用下列规则,直到再没有新的终结符号或ε可以被加到任何FIRST集合中为止。
1)如果X是一个终结符号,那么FIRST(X)=X。
2)如果X是一个非终结符号,且X--->Y1Y2...Yk是一个产生式,其中k>=1,那么如果对于某个i,a在FIRST(Yi)中且ε在所有的FIRST(Y1)、FIRST(Y2)、...、FIRST(Yi-1)中,就把a加到FIRST(X)中。也就是说,Y1...Yi-1==>*ε。如果对于所有的j=1,2,...,k,ε在FIRST(Yj)中,那么将ε加到FIRST(X)中。比如,FIRST(Y1)中的所有符号一定在FIRST(X)中。如果Y1不能推导出ε,那么我们就不会再向FIRST(X)中加入任何符号,但是如果Y1==>*ε,那么我们就加上FIRST(Y2),依此类推。
3)如果X--->ε是一个产生式,那么将ε加入到FIRST(X)中。
对于非终结符号A,FOLLOW(A)被定义为可能在某些句型中紧跟在A右边的终结符号的集合。也就是说,如果存在形如S--->αAaβ的推导,终结符号a就在FOLLOW(A)中,其中
α和β是文法符号串。注意,在这个推导的某个阶段,A和a之间可能存在一些文法符号。但如果是这样,这些符号会推导得到ε并消失。另外,如果A是某些句型的最右符号,那么$也在FOLLOW(A)中。($是一个特殊的“结束标记”符号,我们假设它不是任何文法的符号)
计算所有非终结符号A的FOLLOW(A)集合时,不断应用下面的规则,直到再没有新的终结符号可以加到任意FOLLOW集合中为止。
1)将$放到FOLLOW(S)中,其中S是开始符号,而$是输入右端的结束标记。
2)如果存在一个产生式A--->αBβ,那么FIRST(β)中除ε之外的所有符号都在FOLLOW(B)中。
3)如果存在一个产生式A--->αB,或存在产生式A--->αBβ且FIRST(β)包含ε,那么FOLLOW(A)中的所有符号都在FOLLOW(B)中。
上面的计算方法理解起来比较费劲,我们来看下面的比较容易理解的方法:
FIRST集的定义:如果α是任意的文法符号串,则我们定义FIRST(α)是从α推导出的串的开始符号的终结符集合,即
FIRST(α)={a|α==>*a…,a是终结符}。如果α==>*ε,则ε也属于FIRST(α)。
FOLLOW集的定义:设A是一个非终结符,则定义FOLLOW(A)是包含所有在句型中紧跟在A后面的终结符a的集合,即FOLLOW(A)={a|S==>*αAaβ,a是终结符}。注意,在推导的某一时刻,在A和a之间可能有符号,但如果是这样,它们将推导出ε并消失。如果A是某个句型的最右符号或开始符号,那么$属于FOLLOW(A)。(注:$是输入串的结束符)
例:求下列文法各个非终结符号的FIRST和FOLLOW集合。
解答:(注意==>*表示经过多次推导)
由于
E==>*(E)T'E'
E==>*idT'E'
故FIRST(E)={(,id}
同理
FIRST(T)=FIRST(F)={(,id}
FIRST(E')={+,ε}
FIRST(T')={*,ε}
由于
E==>*(E)且E是开始符号
故FOLLOW(E)={),$}
由于
E==>TE',即E'是该句型的最右符号
E==>*+(E)
故FOLLOW(E')={),$}
由于
E==>*T,即T是该句型的最右符号
E==>*T+T
E==>*(T)
故FOLLOW(T)={),+,$}
同理
FOLLOW(T')={),+,$}
FOLLOW(E')={),+,$}
FOLLOW(F)={*,),+,$}