如何使antlr4完全令牌化终端节点

如何使antlr4完全令牌化终端节点

问题描述:

我试图使用Antlr来制作一个非常简单的解析器,它基本上标记了一系列. - 限制标识符。如何使antlr4完全令牌化终端节点

我做一个简单的语法:

r : STRUCTURE_SELECTOR ; 
STRUCTURE_SELECTOR: '.' (ID STRUCTURE_SELECTOR?)? ; 
ID : [_a-z0-9$]* ;    
WS : [ \t\r\n]+ -> skip ; 

当产生解析器,我最终与表示字符串,而不是能够找到进一步STRUCTURE_SELECTOR秒的单个终端节点。我希望看到一个序列(可能表示为当前节点的子节点)。我怎样才能做到这一点?

作为一个例子:

  • .将产生其文本是一个终端节点.
  • .foobar将产生两个节点,与文本.父并用文本子foobar
  • .foobar.baz将产生四个节点,文字为.的父母,文字为foobar的子女,文字为.的二级子女,以及带文字的三级子女baz

以大写字母开头的规则是Lexer规则。

用下面的输入文件t.text

. 
.foobar 
.foobar.baz 

你的语法(在文件Question.g4)产生下面的令牌

$ grun Question r -tokens -diagnostics t.text 
[@0,0:0='.',<STRUCTURE_SELECTOR>,1:0] 
[@1,2:8='.foobar',<STRUCTURE_SELECTOR>,2:0] 
[@2,10:20='.foobar.baz',<STRUCTURE_SELECTOR>,3:0] 
[@3,22:21='<EOF>',<EOF>,4:0] 

词法分析器(解析器)是贪婪。它试图尽可能多的读取输入字符(令牌)。词法分析器规则STRUCTURE_SELECTOR: '.' (ID STRUCTURE_SELECTOR?)?可以读取点,ID以及点和ID(由于重复标记?),直到NL。这就是为什么每条线都以单个标记结束的原因。

当编译的语法,误差

warning(146): Question.g4:5:0: non-fragment lexer rule ID can match the empty string 

自带因为ID的重复标记是*(这意味着0次或更多次),而不是+(一次或多次)。

现在试试这个语法:

grammar Question; 

r 
@init {System.out.println("Question last update 2135");} 
    : (structure_selector NL)+ EOF 
    ; 

structure_selector 
    : '.' 
    | '.' ID structure_selector* 
    ; 

ID : [_a-z0-9$]+ ; 
NL : [\r\n]+ ;   
WS : [ \t]+ -> skip ; 

$ grun Question r -tokens -diagnostics t.text 
[@0,0:0='.',<'.'>,1:0] 
[@1,1:1='\n',<NL>,1:1] 
[@2,2:2='.',<'.'>,2:0] 
[@3,3:8='foobar',<ID>,2:1] 
[@4,9:9='\n',<NL>,2:7] 
[@5,10:10='.',<'.'>,3:0] 
[@6,11:16='foobar',<ID>,3:1] 
[@7,17:17='.',<'.'>,3:7] 
[@8,18:20='baz',<ID>,3:8] 
[@9,21:21='\n',<NL>,3:11] 
[@10,22:21='<EOF>',<EOF>,4:0] 
Question last update 2135 
line 3:7 reportAttemptingFullContext d=1 (structure_selector), input='.' 
line 3:7 reportContextSensitivity d=1 (structure_selector), input='.' 

$ grun Question r -gui t.text显示分层树形结构中,期待。