最近在做一個(gè)反饋功能,把數(shù)據(jù)反饋到對方公司網(wǎng)站,我公司是GBK編碼,對方公司是UTF-8編碼。因此,我需要將GBK編碼數(shù)據(jù)轉(zhuǎn)換成UTF-8編碼數(shù)據(jù),這樣對方網(wǎng)站才不會亂碼。最簡單的方法是將HttpClient的ContentCharset設(shè)置為utf-8;如果ContentCharset是gbk并且又不想設(shè)置為utf-8,那么就需要將數(shù)據(jù)轉(zhuǎn)換成UTF-8編碼再發(fā)到對方網(wǎng)站。
問題出現(xiàn):GBK轉(zhuǎn)UTF-8時(shí),奇數(shù)個(gè)中文會亂碼,偶數(shù)個(gè)中文不會亂碼。
三個(gè)中文
- public static void encodeError() throws UnsupportedEncodingException {
- String gbk = "我來了";
- String utf8 = new String(gbk.getBytes("UTF-8"));
-
- //模擬UTF-8編碼的網(wǎng)站顯示
- System.out.println(new String(utf8.getBytes(),"UTF-8"));
- }
- /*
- 我來??
- */
前面三個(gè)中文,后面一個(gè)中文,都是奇數(shù)
- public static void encodeError2() throws UnsupportedEncodingException {
- String gbk = "今年是2011年";
- String utf8 = new String(gbk.getBytes("UTF-8"));
-
- //模擬UTF-8編碼的網(wǎng)站顯示
- System.out.println(new String(utf8.getBytes(),"UTF-8"));
- }
- /*
- 今年??011??
- */
原因:為什么只有奇數(shù)個(gè)中文才亂碼,偶數(shù)個(gè)卻不亂碼?下面來分析原因
- public static void analyze() throws UnsupportedEncodingException {
- String gbk = "我來了";
- String utf8 = new String(gbk.getBytes("UTF-8"));
- for (byte b : gbk.getBytes("UTF-8")) {
- System.out.print(b + " ");
- }
- System.out.println();
- for (byte b : utf8.getBytes()) {
- System.out.print(b + " ");
- }
- }
- /*
- -26 -120 -111 -26 -99 -91 -28 -70 -122
- -26 -120 -111 -26 -99 -91 -28 -70 63
- */
注意最后一個(gè)字節(jié)不同,上面一行才是正確的UTF-8編碼。那么為什么下面一行最后一個(gè)字節(jié)是63,而不是-122呢?這就是導(dǎo)致亂碼的原因所在。
GBK編碼是一個(gè)中文2個(gè)字節(jié),而UTF-8編碼是一個(gè)中文3個(gè)字節(jié),當(dāng)我們調(diào)用getBytes("UTF-8")方法時(shí),會通過計(jì)算來增加字節(jié),使得從GBK的2個(gè)字節(jié)變成UTF-8對應(yīng)的3個(gè)字節(jié)。因此,上例3個(gè)中文輸出了9個(gè)字節(jié)。
這里講一下怎么通過計(jì)算增加字節(jié),不深究的讀者可以跳過此段。為了醒目,直接用代碼講解
- public static void gbk2Utf() throws UnsupportedEncodingException {
- String gbk = "我來了";
- char[] c = gbk.toCharArray();
- byte[] fullByte = new byte[3*c.length];
- for (int i=0; i<c.length; i++) {
- String binary = Integer.toBinaryString(c[i]);
- StringBuffer sb = new StringBuffer();
- int len = 16 - binary.length();
- //前面補(bǔ)零
- for(int j=0; j<len; j++){
- sb.append("0");
- }
- sb.append(binary);
- //增加位,達(dá)到到24位3個(gè)字節(jié)
- sb.insert(0, "1110");
- sb.insert(8, "10");
- sb.insert(16, "10");
- fullByte[i*3] = Integer.valueOf(sb.substring(0, 8), 2).byteValue();//二進(jìn)制字符串創(chuàng)建整型
- fullByte[i*3+1] = Integer.valueOf(sb.substring(8, 16), 2).byteValue();
- fullByte[i*3+2] = Integer.valueOf(sb.substring(16, 24), 2).byteValue();
- }
- //模擬UTF-8編碼的網(wǎng)站顯示
- System.out.println(new String(fullByte,"UTF-8"));
- }
現(xiàn)在我們來找出最后一個(gè)字節(jié)是63,而不是-122的原因。
- public static void analyze2() throws UnsupportedEncodingException {
- String gbk = "我來了";
- byte[] utfBytes = gbk.getBytes("UTF-8");//得到9個(gè)字節(jié)
- String utf8 = new String(utfBytes);//問題就出在這
- System.out.print(utf8);
- }
- /*
- 鎴戞潵浜?
- */
因?yàn)槲募荊BK編碼,new String(utfBytes)默認(rèn)就是new String(utfBytes,"GBK")。它會2個(gè)字節(jié)2個(gè)字節(jié)地轉(zhuǎn)換成字符,當(dāng)字節(jié)是奇數(shù)時(shí)最后1個(gè)字節(jié)轉(zhuǎn)字符就會計(jì)算錯誤,然后直接賦予最后這個(gè)字符為?,對應(yīng)ASCII代碼就是63。
解決問題
保證字節(jié)正確才是硬道理。當(dāng)調(diào)用getBytes("UTF-8")轉(zhuǎn)換成字節(jié)數(shù)組后,創(chuàng)建ISO-8859-1編碼的字符串,ISO-8859-1編碼是一個(gè)字節(jié)對應(yīng)一個(gè)字符,因此不會使最后一個(gè)字節(jié)錯誤。
- public static void correctEncode() throws UnsupportedEncodingException {
- String gbk = "我來了";
- String iso = new String(gbk.getBytes("UTF-8"),"ISO-8859-1");
- for (byte b : iso.getBytes("ISO-8859-1")) {
- System.out.print(b + " ");
- }
- System.out.println();
-
- //模擬UTF-8編碼的網(wǎng)站顯示
- System.out.println(new String(iso.getBytes("ISO-8859-1"),"UTF-8"));
- }
- /*
- -26 -120 -111 -26 -99 -91 -28 -70 -122
- 我來了
- */