Javaweb应用程序中文乱码处理

常见字符集

ASCLL
最原始一套编码,所有编码都是由一个字节的二进制数对应,尽管包含8位,但第一位始终是0,是128个,单字节编码
ISO-8859-1
字符集前 128位与ASCLL完全相同,后128个字符扩展了其他语言字符,单字节编码
GB2312、GBK
GB2312是*国家标准汉字信息交换编码,采用两个字节编码一个人中文汉字,涵盖了大部分常用的中文字符
GBK对GB2312进行扩展的中文字符集,完全兼容GB2312,还对繁体和不常用的汉字和特殊字符进行了扩展支持
UNICODE
采用两个字节保存编码,前256个字符与ISO-8859-1完全统一,第一个字节数字为0,包含世界大多数国家语言文字和字符
UTF-8
对于0~127的ASCLL字符,UTF-8采用一个字节表示,并且编码和ASCLL一样,如果UNICODE 是在0x0080和0x007f之间的字符,UTF-8则用两个字节表示,如果UNICODE是在0x0081和0xFFF之间的字符,对应UTF-8则采用3个字节

中文乱码产生原因

Java语言内部采用UNICODE字符集表示字符,一旦与外界程序打交道就存在一个字符转换过程
对于Java web应用程序,客户端浏览器采用,默认字符集(通常为GBK),web容器对post提交的数据采用ISO-8859-1的编码方式

服务器返回页面中文乱码

Javaweb应用程序中文乱码处理
response.setContentType(“text/html;charset=UTF-8”);
一定要在获得输出流之前

Javaweb应用程序中文乱码处理

解决post请求中文参数乱码

Javaweb应用程序中文乱码处理
req.setCharacterEncoding(“GBK”);
//注意此语句一定要在获取参数的语句之前

Javaweb应用程序中文乱码处理

解决get请求中文参数乱码

修改server.xml