本來是手寫的一張草稿,清理臺面的時候,正要扔,發現內容還有點意思,干脆吧,開個隨筆記錄一下,備忘,說不定還能幫到別人。
在我們日常生活和工作中,尤其瀏覽含有中文的網站,時常會為亂碼問題犯愁,一些天生Unicode支持不到位的編程語言和軟件更是加重了這個現象。雖說已經是2009年了,我們時不時還是能碰到一些明顯腦殘的code,吐出一堆亂碼,不論你用選什么字符集,似乎都無法還原最初的中文。比如"?·2",或者同一個頁面,無法用同一個字符集顯示,任何一種字符都至少有一部分顯示不正確,不是這兒就是那兒。
首先科普一下UTF-8。UTF-8是Unicode所有字符編碼實現中,應用范圍最廣的一個,最大的特點是兼容ASCII碼,在此基礎上,通過1..4個byte來表示每一個Unicode字符。它是怎么做到的?其實很簡單,看首個byte:
00000000 ~ 01111111 : 0~127 (ASCII, 單個byte) 表示Unicode范圍\u0000 ~ \u007F
11000000 ~ 11011111 : (2個1打頭,所以2個byte) 表示Unicode范圍\u0080 ~ \u07FF
11100000 ~ 11101111 : (3個1打頭,所以3個byte) 表示Unicode范圍\u0800 ~ \uFFFF
11110000 ~ 11110111 : (4個1打頭,所以4個byte) 表示Unicode范圍\u10000 ~ \u10FFFF
除了單個byte這個case,其他情況下,后續的byte均以10打頭。這些打頭的bit:10、110、1110、11110,都不作為具體編碼的一部分參與真正Unicode編碼的計算。所以1..4個byte,其有效位數分別為:7、11、16、21,因此才有了\u007F、\u07FF、\uFFFF這樣的臨界值,且4個byte的空間還有富余。
有了這個基礎知識,我們就來具體看看這個"已"字,是怎么被UTF-8表示的,以及為什么處理不當的代碼會最終輸出"?·2"。
"已"字,用Unicode表示法,是\u5DF2,按照2個byte拆開成二進制表示:
01011101 11110010
如果用UTF-8編碼,采用1110???? 10?????? 10??????這個格式,?號部分填入上述01011101 11110010,得到
11100101 10110111 10110010 這樣3個byte。
好了,這個時候腦殘代碼出現,假如它不認識UTF-8,那么他會看到這樣3個前后沒有關聯的byte,在西歐Latin-1字符集(即ISO 8859-1)中,它們分別表示"?"、"·"、"2"這3個字符。如果把它們分別再按照UTF-8編碼,就成了:
11000011 10100101 11000010 10110111 11000010 10110010
完美的UTF-8編碼,只不過,這完全是假象,只能通過非常規手段才能恢復它原本的樣子。