Java文章的汉字个数、标点符号个数、总的字符个数

1.函数介绍

要实现文章的汉字个数、标点符号个数、总的字符个数的统计，首先研究如何判断某个字符是不是汉字，小编研究了GBK的编码表，发现：
GBK中文部分采用双字节编码，总体范围：8140-FEFE，分为首码和尾码，首码范围：81-FE，尾码范围：40-FE。

进一步观察发现汉字的范围是（首码81-A0，尾码40-FE）、（首码AA-AF，尾码40-A0）、（首码B0-F7,尾码40-FE）、（首码F8-FE，尾码40-A0）。非汉字的范围是（首码A1-A9）。

因此可以得出结论：判断一个字符是否是汉字，仅仅看它的GBK码的首码就可以了，若一个字符的GBK码的首码在A1-A9范围内，则认为它不是汉字。

于是得下面的函数：

/*
	功能：统计字符串中汉字个数、标点符号个数、总的字符个数
	输入参数：字符串
	返回：长度为3的数组，数组元素按顺序分别表示：汉字个数、标点符号个数、总的字符个数
	@auther:杨陈菊
	*/
	public static int[] numberOfChar(String str, int[] count)throws Exception{
		try{
			byte[] bytes = str.getBytes("GBK");//转码
			for (int i=0;i<(bytes.length/2) ;i++ ) {
        		if (bytes[2*i]<-95 || bytes[2*i]>-87) {//首码小于-95，或大于-87，认为是汉字
        			//System.out.println(str.charAt(i));
        			count[0]++;
        		}else{
        			count[1]++;
        		}
        	}
        	count[2] = count[0]+count[1];
		}catch(UnsupportedEncodingException e){
			e.printStackTrace();
		}
		return count;
	}

2、功能实现

有了以上函数以后，我们便可以输入一篇文章做测试，我输入的是《西游记》原文。
主函数代码如下：

File file_source = new File(args[0]);//当前路径
		InputStreamReader inputStreamReader = new InputStreamReader(new FileInputStream(file_source));//将输入的字节流转换成字符流
		BufferedReader bufferedReader=new BufferedReader(inputStreamReader);//将字符流添加到缓冲流
		String str=null;
		try{
			//检测原文件是否存在
			if (!file_source.exists()) {
				System.out.println(args[0]+"不存在！");
				System.exit(0);
			}
			Scanner  input = new Scanner(file_source);//创建读对象
			int[] arr = {0,0,0};
			int[] count = {0,0,0};//初始化输入数组参数，避免每循环一次数组就初始化一次
			while ((str = bufferedReader.readLine()) != null){
				arr = numberOfChar(str,count);
			}
			//输出结果
			for (int i=0;i<arr.length ;i++ ) {
					System.out.println(arr[i]);	
			}
			input.close();//.close()方法关闭文件，释放被文件占用的资源
		}catch(FileNotFoundException e){
			e.printStackTrace();
		}

3、测试结果

测试结果如下：
Java文章的汉字个数、标点符号个数、总的字符个数
代表《西游记》有589774个汉字，68138个标点符号，共657912个字符。

Java文章的汉字个数、标点符号个数、总的字符个数

1.函数介绍

2、功能实现

3、测试结果

相关推荐