Java文章的汉字个数、标点符号个数、总的字符个数

1.函数介绍

要实现文章的汉字个数、标点符号个数、总的字符个数的统计,首先研究如何判断某个字符是不是汉字,小编研究了GBK的编码表,发现:
GBK中文部分采用双字节编码,总体范围:8140-FEFE,分为首码和尾码,首码范围:81-FE,尾码范围:40-FE。

进一步观察发现汉字的范围是(首码81-A0,尾码40-FE)、(首码AA-AF,尾码40-A0)、(首码B0-F7,尾码40-FE)、(首码F8-FE,尾码40-A0)。非汉字的范围是(首码A1-A9)。

因此可以得出结论:判断一个字符是否是汉字,仅仅看它的GBK码的首码就可以了,若一个字符的GBK码的首码在A1-A9范围内,则认为它不是汉字。

于是得下面的函数:

/*
	功能:统计字符串中汉字个数、标点符号个数、总的字符个数
	输入参数:字符串
	返回:长度为3的数组,数组元素按顺序分别表示:汉字个数、标点符号个数、总的字符个数
	@auther:杨陈菊
	*/
	public static int[] numberOfChar(String str, int[] count)throws Exception{
		try{
			byte[] bytes = str.getBytes("GBK");//转码
			for (int i=0;i<(bytes.length/2) ;i++ ) {
        		if (bytes[2*i]<-95 || bytes[2*i]>-87) {//首码小于-95,或大于-87,认为是汉字
        			//System.out.println(str.charAt(i));
        			count[0]++;
        		}else{
        			count[1]++;
        		}
        	}
        	count[2] = count[0]+count[1];
		}catch(UnsupportedEncodingException e){
			e.printStackTrace();
		}
		return count;
	}

2、功能实现

有了以上函数以后,我们便可以输入一篇文章做测试,我输入的是《西游记》原文。
主函数代码如下:

File file_source = new File(args[0]);//当前路径
		InputStreamReader inputStreamReader = new InputStreamReader(new FileInputStream(file_source));//将输入的字节流转换成字符流
		BufferedReader bufferedReader=new BufferedReader(inputStreamReader);//将字符流添加到缓冲流
		String str=null;
		try{
			//检测原文件是否存在
			if (!file_source.exists()) {
				System.out.println(args[0]+"不存在!");
				System.exit(0);
			}
			Scanner  input = new Scanner(file_source);//创建读对象
			int[] arr = {0,0,0};
			int[] count = {0,0,0};//初始化输入数组参数,避免每循环一次数组就初始化一次
			while ((str = bufferedReader.readLine()) != null){
				arr = numberOfChar(str,count);
			}
			//输出结果
			for (int i=0;i<arr.length ;i++ ) {
					System.out.println(arr[i]);	
			}
			input.close();//.close()方法关闭文件,释放被文件占用的资源
		}catch(FileNotFoundException e){
			e.printStackTrace();
		}

3、测试结果

测试结果如下:
Java文章的汉字个数、标点符号个数、总的字符个数
代表《西游记》有589774个汉字,68138个标点符号,共657912个字符。