C语言词法分析器的简单实现

C词法分析器java简单实现

一、对于C语言程序的内容大致分为这几类:

(1)1 关键字 是由程序语言定义的具有固定意义的标识符。例如,C语言总的int,main,static,string等等
(2)2 标识符 用来表示各种名字,如变量名,数组名,过程名等等。
(3)3 常数 常数的类型一般有整型、实型 true/false。
(4)4 运算符 如+、-、*、/等等。
(5)5 界符 如逗号、分号、括号、中括号,大括号等等。

所以我们要做的任务是将这些代码给归类;从程序中将这些信息给分别找出来;如果还不理解你就想像一下;有3词:a 、2、我;
显然①a ②2 ③我;
你只需要将这些给归类然后判断一下;

List < String> list=new ArrayList<>();
if(“a”.equals(str)){
list.add(“a”+":a类 “);
}else if(“2”.equals(str)){
list.add(“2”+”:2类 “);
}else if(“我”.equals(str)){
list.add(“我”+”:我类 ");
}else{
//不做任何处理直接过滤不应该出现的错误信息;
}

以上这个就是程序大概的思想

二、实现

1、 关于C 语言大致分为五类:

(1)1 关键字 是由程序语言定义的具有固定意义的标识符。例如,C语言总的int,main,static,string等等
(2)2 标识符 用来表示各种名字,如变量名,数组名,过程名等等。
(3)3 常数 常数的类型一般有整型、实型 true/false。
(4)4 运算符 如+、-、*、/等等。
(5)5 界符 如逗号、分号、括号、中括号,大括号等等;

对于这个五类信息的处理很显然;

1、 关键字没有什么规律,它是C语言的定义规范,数量不多有限,是提前设计好的所以这类信息我们可以用数组存储起来,用来比较的时候可以遍历一遍以此比较就好。arrayList比较适合。
2、对于其余四种他都有一定的语法规则,这时候你想到了是什么,一定是正则对不对,所以我们来用正则表示它们:

//标识符2 由字母数字下划线组成不能以数字开头;0/多个 +一个或者多个 ?0/1
public static String reg2 = "[a-zA-Z_]\w
";
//3常数 整型 浮点数 布尔型
public static String reg3="[1-9]+/.?[0-9]|ture|false";
//运算符4
public static String reg4="[\+|-|\
|/|>|<|=|<=|>=|=+|=-]+";
//边界符5
public static String reg5="[;|,|{|}|(|)|[|]|’|"|%|#|&]*";

当然感觉我归类不是很正确的话你们可以自己再做一些调整。(本程序也有一些缺陷例如=+ 它是一个运算符但是我利用正则它们分家了哈哈,你也可以加一行代码来把他们挑出来是你的更加规范,我就不做演示了)。

二、程序流程

C语言词法分析器的简单实现

三、实现代码(java实现)

import java.io.;
import java.util.
;
// (1)1 关键字 是由程序语言定义的具有固定意义的标识符。
// (2)2 标识符 用来表示各种名字,如变量名,数组名,过程名等等。
// (3)3 常数 常数的类型一般有整型、实型 true/false。
// (4)4 运算符 如+、-、、/等等。
// (5)5 界符 如逗号、分号、括号、等等。
//可以先一个单词一个单词读,如果是那些单个字符集,直接存入map,否则继续往下面读
//直到读取到空格或者 数字,把那些存入在String 中字符拼接成的单词进行判断分类,然后继续直到读取结束
public class Main {
//初始化单词 先是空串,如果字符不是终止字符则加在单词尾部构成新单词;
public static String danci=null;
//标识符2 由字母数字下划线组成不能以数字开头;0/多个 +一个或者多个 ?0/1
public static String reg2 = "[a-zA-Z_]\w
";
//3常数 整型 浮点数 布尔型
public static String reg3="[1-9]+/.?[0-9]
|ture|false";
//运算符4
public static String reg4="[\+|-|\|/|>|<|=|<=|>=|=+|=-]+";
//边界符5
public static String reg5="[;|,|{|}|(|)|[|]|’|"|%|#|&]
";
//对于注释的处理
public static String reg6="[//|/|/]";
//用来保存判断的结果;每次追加在后面
public static List list=new LinkedList<>();
public static ArrayList arry1=new ArrayList();
public static void main(String[] args) throws IOException {
System.out.println(“程序开始了!!”);
System.out.println(“1:关键字 " +” 2:标识符"+" 3:常数"+ " 4:运算符" +" 5:边界符 “);
arry1.add(“float”);
arry1.add(“short”);
arry1.add(“unsigned”);
arry1.add(“continue”);
arry1.add(“for”);
arry1.add(“signed”);
arry1.add(“void”);
arry1.add(“default”);
arry1.add(“goto”);
arry1.add(“sizeof”);
arry1.add(“volatile”);
arry1.add(“do”);
arry1.add(“if”);
arry1.add(“while”);
arry1.add(“static”);
arry1.add(“const”);
arry1.add(“union”);
arry1.add(“auto”);
arry1.add(“double”);
arry1.add(“int”);
arry1.add(“struct”);
arry1.add(“break”);
arry1.add(“if”);
arry1.add(“else”);
arry1.add(“int”);
arry1.add(“main”);
arry1.add(“return”);
arry1.add(“long”);
arry1.add(“switch”);
arry1.add(“case”);
arry1.add(“enum”);
arry1.add(“register”);
arry1.add(“typedef”);
arry1.add(“char”);
arry1.add(“extern”);
arry1.add(“include”);
arry1.add(“stdio.h”);
arry1.add(“printf”);
//读入程序源
// String str=“int main(){ a=3;b=4;int c=a+b; return 0;}”;
String path=null;
System.out.print(“请输入文件的位置:”);
Scanner sc=new Scanner(System.in);
path=sc.nextLine();
//读取文件
String str=ReadTXT(path);
System.out.println(“读取到的内容:”+str.toString());
char[]chs=str.toCharArray();
int index=0;
//对读入的数据进行处理;
while(index<chs.length){
//读取一个字符
char ch = chs[index];
//把这个字符转化为一个String 进行判断是否为一个终结符
String strreg=String.valueOf(ch);
if(strreg.matches(reg5)){
//可能是一个边界符
index++;
//先存入之前的单词,再存入读取的字符;
checkDanci(danci);
list.add(strreg+": “+5);
danci=null;//给单词置空
}else if(strreg.matches(reg4)){
//运算符
//break 退出,进行下一个字母的判断;不需要继续把读取的单词追加在先前读取的字符上
index++;
checkDanci(danci);
list.add(strreg+”: “+4);
danci=null;//给单词置空
}else if(strreg.equals(” ")){
//等于空格直接退出进行下一个单词的判断
index++;
checkDanci(danci);
danci=null;//给单词置空
}else{
//不是终结字符 则继续读取把字符拼接在单词后面
if(danci!=null){
danci=danci+ch;
}else {
danci=String.valueOf(ch);
}
index++;
}
}
// 输出结果
// 输出list 集合存储的数据
System.out.println("list集合的内容
*****”);
Iterator iterator = list.iterator();
while(iterator.hasNext()){
System.out.println(iterator.next().toString());
}
}
public static void checkDanci(String danci){
boolean key=true;
if(danci==null){
return;
} else{
//判断是否为标示符关键词
Iterator iterator=arry1.iterator();
while(iterator.hasNext()){
if(danci.equals(iterator.next())){
// 如果有一个关键字和单词相同,则单词就是关键字,不在判断 他是不是标识符
list.add(danci+": “+1);
danci=null;
key=false;
break;
}
}
}
//判断是否为数字;
if(key&&danci!=null){
if(danci.matches(reg3)){
list.add(danci+”: “+3);
danci=null;
key=false;
return;
}
}
//判断是否为标示符
if(key&&danci!=null){
if(danci.matches(reg2)){
//标识符
list.add(danci+”: “+2);
danci=null;
return;
}
}
}
//读取文件
public static String ReadTXT(String path) throws IOException{
File file=new File(path);
if(!file.exists()||file.isDirectory())
throw new FileNotFoundException();
BufferedReader br=new BufferedReader(new FileReader(file));
String temp=null;
StringBuffer sb=new StringBuffer();
temp=br.readLine();
while(temp!=null){
sb.append(temp+”");
temp=br.readLine();
}
br.close();
return sb.toString();
}
}

四、运行截图

C语言词法分析器的简单实现