ANTLR4在扫描器生成时会通过ANTLR语法描述文件自动生成一个词法分析器,该词法分析器使用正则表达式匹配输入的字符流。ANTLR4可以生成基于DFA(Deterministic Finite Automaton,确定有限状态自动机)的词法分析器,也可以生成基于NFA(Non-deterministic Finite Automaton,不确定有限状态自动机)的词法分析器。
生成基于DFA的词法分析器可以通过设置选项-Dlanguage=Java -Xdfa
来实现。具体示例代码如下:
// 定义 ID 词法规则,并使用 DFA 模式匹配
ID : [a-zA-Z]+;
WS : [ \t\r\n]+ -> skip;
// 创建词法分析器
CharStream input = new ANTLRInputStream("Hello World");
MyLexer lexer = new MyLexer(input);
// 使用 DFA 模式匹配
lexer.removeErrorListeners();
lexer.addErrorListener(new DiagnosticErrorListener());
lexer.getInterpreter().setPredictionMode(PredictionMode.LL_EXACT_AMBIG_DETECTION);
lexer.getInterpreter().setPredictionMode(PredictionMode.LL_EXACT_AMBIG_DETECTION);
// 输出分词结果
TokenStream tokens = new CommonTokenStream(lexer);
tokens.fill();
for (Token token : tokens.getTokens()) {
System.out.println(token);
}
上述代码中的MyLexer
为ANTLR4自动生成的词法分析器,使用的是java语言。ID
和WS
是词法规则,其中ID
使用正则表达式匹配字母组成的标识符,WS
匹配空格和换行符并将其忽略。在创建词法分析器时,需要将字符流包装成ANTLRInputStream
对象,并将其传递给词法分析器。接着,使用removeErrorListeners()
方法移除词法分析