Java文章的汉字个数、标点符号个数、总的字符个数
1.函数介绍
要实现文章的汉字个数、标点符号个数、总的字符个数的统计,首先研究如何判断某个字符是不是汉字,小编研究了GBK的编码表,发现:
GBK中文部分采用双字节编码,总体范围:8140-FEFE,分为首码和尾码,首码范围:81-FE,尾码范围:40-FE。
进一步观察发现汉字的范围是(首码81-A0,尾码40-FE)、(首码AA-AF,尾码40-A0)、(首码B0-F7,尾码40-FE)、(首码F8-FE,尾码40-A0)。非汉字的范围是(首码A1-A9)。
因此可以得出结论:判断一个字符是否是汉字,仅仅看它的GBK码的首码就可以了,若一个字符的GBK码的首码在A1-A9范围内,则认为它不是汉字。
于是得下面的函数:
/*
功能:统计字符串中汉字个数、标点符号个数、总的字符个数
输入参数:字符串
返回:长度为3的数组,数组元素按顺序分别表示:汉字个数、标点符号个数、总的字符个数
@auther:杨陈菊
*/
public static int[] numberOfChar(String str, int[] count)throws Exception{
try{
byte[] bytes = str.getBytes("GBK");//转码
for (int i=0;i<(bytes.length/2) ;i++ ) {
if (bytes[2*i]<-95 || bytes[2*i]>-87) {//首码小于-95,或大于-87,认为是汉字
//System.out.println(str.charAt(i));
count[0]++;
}else{
count[1]++;
}
}
count[2] = count[0]+count[1];
}catch(UnsupportedEncodingException e){
e.printStackTrace();
}
return count;
}
2、功能实现
有了以上函数以后,我们便可以输入一篇文章做测试,我输入的是《西游记》原文。
主函数代码如下:
File file_source = new File(args[0]);//当前路径
InputStreamReader inputStreamReader = new InputStreamReader(new FileInputStream(file_source));//将输入的字节流转换成字符流
BufferedReader bufferedReader=new BufferedReader(inputStreamReader);//将字符流添加到缓冲流
String str=null;
try{
//检测原文件是否存在
if (!file_source.exists()) {
System.out.println(args[0]+"不存在!");
System.exit(0);
}
Scanner input = new Scanner(file_source);//创建读对象
int[] arr = {0,0,0};
int[] count = {0,0,0};//初始化输入数组参数,避免每循环一次数组就初始化一次
while ((str = bufferedReader.readLine()) != null){
arr = numberOfChar(str,count);
}
//输出结果
for (int i=0;i<arr.length ;i++ ) {
System.out.println(arr[i]);
}
input.close();//.close()方法关闭文件,释放被文件占用的资源
}catch(FileNotFoundException e){
e.printStackTrace();
}
3、测试结果
测试结果如下:
代表《西游记》有589774个汉字,68138个标点符号,共657912个字符。