上篇blog講了一下unicode等編碼的問(wèn)題﹐不過(guò)并沒(méi)有涉及程序﹐所以這次就用.net來(lái)證實(shí)一下上次的這些東東。
在證明那些東東之前﹐首先把.net中關(guān)于處理encoding,二進(jìn)制,16進(jìn)制,byte等相關(guān)類別和方法羅列一下。

1.byte與string(那些255以內(nèi)的整數(shù))的相互轉(zhuǎn)換(各種進(jìn)制之間的相互轉(zhuǎn)換)
使用System.Convert類別
string to byte
Convert.ToByte(string,base)
base:2表示二進(jìn)制,8表示八進(jìn)制,10表示十進(jìn)制,16表示十六進(jìn)制(你要輸入33,呵呵﹐異常)
這樣可以把字符串的(0--255)轉(zhuǎn)成一個(gè)byte
Convert.ToByte("01000001",2)轉(zhuǎn)成 65
Convert.ToByte("255",10)轉(zhuǎn)成255
Convert.ToByte("42",16)轉(zhuǎn)成66

同理﹐byte to string也是Convert類
Convert.ToString(byte,base)
同樣可以轉(zhuǎn)成相應(yīng)的進(jìn)制表示的字符串

通過(guò)這兩個(gè)方法﹐我們要進(jìn)行2,8,10,16進(jìn)制的相互轉(zhuǎn)換就容易了

2.char,int,long,boolean等與byte[]之間的相互轉(zhuǎn)換(這些數(shù)據(jù)在內(nèi)存中的存儲(chǔ)狀況)
使用System.BitConverter類別
我們都知道char,int,long等基本類型是以字節(jié)形式存在內(nèi)存中的﹐所以要查看其內(nèi)存存儲(chǔ)方式則直接使用BitConverter.GetBytes()就可以了
然后再使用BitConverter.ToString(byte[])就可以以string方式查看了(如:f9-03表示2個(gè)字節(jié))

string是由char組成的﹐只要foreach(char in string)就可以看到string的存儲(chǔ)方式了(實(shí)驗(yàn)表明﹐string在內(nèi)存中是以u(píng)nicode編碼存在的,下有示例)

3.各種Encoding之間的轉(zhuǎn)換
使用System.Text中的Encoding相關(guān)的類別就可以了
包括Encoding,ASCIIEncoding,UTF8Encoding等,當(dāng)然也可以通過(guò)Encoding.GetEncoding()來(lái)獲取不同的編碼。
然后再通過(guò)GetBytes(string)方法﹐就可以獲取string的不同編碼的byte數(shù)組了
通過(guò)GetString(byte[])方法﹐就可以把某種編碼的byte數(shù)組轉(zhuǎn)成字符串.
如"I am 小生,hello world!"的各種bytes編碼測(cè)試


using System;
using System.Collections;
using System.Text;

public class MyClass
{
public static void Main()
{
string tmp = "I am 小生,hello world!";
? WL("內(nèi)存中存儲(chǔ)的字節(jié)數(shù)組﹕");

foreach(char c in tmp)
{
byte[] b = BitConverter.GetBytes(c);
?? Console.Write(BitConverter.ToString(b) + "-");
? }
? WL("");
? WL("unicode字節(jié)數(shù)組﹕");
byte[] bs1 = Encoding.Unicode.GetBytes(tmp);
? WL(BitConverter.ToString(bs1));
? WL("utf8字節(jié)數(shù)組﹕");

byte[] bs2 = Encoding.UTF8.GetBytes(tmp);
? WL(BitConverter.ToString(bs2));
? WL("default字節(jié)數(shù)組﹕");
byte[] bs3 = Encoding.Default.GetBytes(tmp);
? WL(BitConverter.ToString(bs3));
? WL("big5字節(jié)數(shù)組﹕");
byte[] bs4 = Encoding.GetEncoding(950).GetBytes(tmp);
? WL(BitConverter.ToString(bs4));
? RL();
}

private static void WL(string text, params object[] args)
{
? Console.WriteLine(text, args);
}

private static void RL()
{
? Console.ReadLine();
}

private static void Break()
{
? System.Diagnostics.Debugger.Break();
}
}

在下面開(kāi)始之前﹐先摘錄一段關(guān)于BOM的知識(shí)

-----------------------------------------------------------------
UTF的字節(jié)序和BOM

UTF-8以字節(jié)為編碼單元,沒(méi)有字節(jié)序的問(wèn)題。UTF-16以兩個(gè)字節(jié)為編碼單元,在解釋一個(gè)UTF-16文本前,首先要弄清楚每個(gè)編碼單元的字節(jié)序。例如收到一個(gè)“奎”的Unicode編碼是594E,“乙”的Unicode編碼是4E59。如果我們收到UTF-16字節(jié)流“594E”,那么這是“奎”還是“乙”?

Unicode規(guī)范中推薦的標(biāo)記字節(jié)順序的方法是BOM。BOM不是“Bill Of Material”的BOM表,而是Byte Order Mark。BOM是一個(gè)有點(diǎn)小聰明的想法:在UCS編碼中有一個(gè)叫做"ZERO WIDTH NO-BREAK SPACE"的字符,它的編碼是FEFF。而FFFE在UCS中是不存在的字符,所以不應(yīng)該出現(xiàn)在實(shí)際傳輸中。UCS規(guī)范建議我們?cè)趥鬏斪止?jié)流前,先傳輸字符"ZERO WIDTH NO-BREAK SPACE"。

這樣如果接收者收到FEFF,就表明這個(gè)字節(jié)流是Big-Endian的;如果收到FFFE,就表明這個(gè)字節(jié)流是Little-Endian的。因此字符"ZERO WIDTH NO-BREAK SPACE"又被稱作BOM。

UTF-8不需要BOM來(lái)表明字節(jié)順序,但可以用BOM來(lái)表明編碼方式。字符"ZERO WIDTH NO-BREAK SPACE"的UTF-8編碼是EF BB BF。所以如果接收者收到以EF BB BF開(kāi)頭的字節(jié)流,就知道這是UTF-8編碼了。

Windows就是使用BOM來(lái)標(biāo)記文本文件的編碼方式的。

----------------------------------------------------------

好了﹐這些問(wèn)題解決后﹐我們就來(lái)做單純的文本文件的編碼識(shí)別﹐讀取與寫(xiě)入測(cè)試吧。
以windows的notepad為例(其它的文本文件讀取軟件的原理應(yīng)該也差不多﹐只是會(huì)多一些特殊的判斷算法而已)。

notepad默認(rèn)有四種編碼來(lái)存儲(chǔ)和讀取文本文件。分別是﹕
ANSI,Unicode,Unicode-big-endian和UTF-8。
首先來(lái)講ANSI吧﹐這個(gè)是windows操作系統(tǒng)在區(qū)域與語(yǔ)言塊設(shè)置的編碼(也就是系統(tǒng)默認(rèn)的編碼)﹐因此像繁體操作系統(tǒng)就是big5,而簡(jiǎn)體操作系統(tǒng)則是GBK。

而Unicode和UTF-8這兩種格式相信大家已經(jīng)有所了解(當(dāng)然前者是unicode-16)

而Unicode-big-endian是什么意思呢﹐它與Unicode幾乎一樣﹐只是它把高位放在前面(而后者則剛好相反)
上面的摘錄已經(jīng)有所說(shuō)明﹐這里再解釋一下﹕
如同樣是字符"A"﹐在以下幾種格式中的存儲(chǔ)形式分別是﹕
UTF-16 big-endian : 00 41
UTF-16 little-endian : 41 00
UTF-32 big-endian : 00 00 00 41
UTF-32 little-endian : 41 00 00 00

好了﹐大家想一想﹐文本文件在硬盤(pán)中是以字節(jié)形式存儲(chǔ)的﹐如果不知道文本文件的編碼﹐那是無(wú)論如何也不能正確讀出文本文件顯示給用戶看的(亂碼了只有人才知道﹐程序則認(rèn)為一切正常)

根據(jù)BOM的規(guī)則﹐因此在一段字節(jié)流開(kāi)始時(shí)﹐如果接收到以下字節(jié)﹐則分別表明了該文本文件的編碼。
UTF-8: EF BB BF
UTF-16 : FF FE
UTF-16 big-endian: FE FF
UTF-32 little-endian: FF FE 00 00
UTF-32 big-endian: 00 00 FE FF
而如果不是以這個(gè)開(kāi)頭﹐那程序則會(huì)以ANSI,也就是系統(tǒng)默認(rèn)編碼讀取。

所以現(xiàn)在我們來(lái)做個(gè)測(cè)試就可以很清楚地對(duì)以上的東東進(jìn)行驗(yàn)證了。
1.用notepad輸入"漢A"這2個(gè)字符﹐然后分別保存成ANSI,Unicode,Unicode-big-endian和UTF-8,名字分別取為ansi.txt,unicode.txt,unicode_b.txt,utf8.txt,并且放在c盤(pán)根目錄下

2.用以下程序進(jìn)行驗(yàn)證


using System;
using System.Collections;
using System.IO;

public class MyClass
{
private static void writefile(string path)
{
? FileStream fs = null;
try{
?? fs = new FileStream(path,FileMode.Open);
byte[] bs = new byte[fs.Length];
?? fs.Read(bs,0,bs.Length);
?? WL(BitConverter.ToString(bs));
?? SixTTwo(BitConverter.ToString(bs));
? }
catch(Exception ex)
{
?? WL(ex.ToString());
? }
finally
{
if(fs!=null)
??? fs.Close();
? }
}

public static void Main()
{
string path;
? WL("ANSI文件格式的字節(jié)流﹕");
? path = "c:\\ansi.txt";
? writefile(path);

? WL("Unicode文件格式的字節(jié)流﹕");
? path = "c:\\unicode.txt";
? writefile(path);

? WL("Unicode-big-endian文件格式的字節(jié)流﹕");
? path = "c:\\unicode_b.txt";
? writefile(path);

? WL("utf-8文件格式的字節(jié)流﹕");
? path = "c:\\utf8.txt";
? writefile(path);
? RL();
}

public static void SixTTwo(string sixstr)
{
string[] tmp = sixstr.Split(new char[]{'-'});
foreach(string s in tmp)
{


Console.Write(Convert.ToString(Convert.ToByte(s,16),2).PadLeft(8,'0')+ "

");
? }
? WL("");
}

private static void WL(string text, params object[] args)
{
? Console.WriteLine(text, args);
}

private static void RL()
{
? Console.ReadLine();
}

private static void Break()
{
? System.Diagnostics.Debugger.Break();
}
}

3.以下是輸出格式﹕
ANSI文件格式的字節(jié)流﹕
BA-BA-41
10111010 10111010 01000001
Unicode文件格式的字節(jié)流﹕
FF-FE-49-6C-41-00
11111111 11111110 01001001 01101100 01000001 00000000
Unicode-big-endian文件格式的字節(jié)流﹕
FE-FF-6C-49-00-41
11111110 11111111 01101100 01001001 00000000 01000001
utf-8文件格式的字節(jié)流﹕
EF-BB-BF-E6-B1-89-41
11101111 10111011 10111111 11100110 10110001 10001001 01000001

從以上結(jié)果可以很容易的看到BABA正是"漢"字的gb2312編碼﹐當(dāng)然我的操作系統(tǒng)是繁體的﹐如果我直接雙擊打開(kāi)﹐則可以看到"犖A"﹐這是亂碼﹐因?yàn)槲业南到y(tǒng)baba查的是big5﹐而baba的big5碼正是"犖"

然而還有其它很多程序﹐像IE呀,它可以使用meta標(biāo)簽來(lái)識(shí)別文件的編碼,xml也是可以通過(guò)encoding屬性來(lái)說(shuō)明文件的編碼的﹐所以這些程序的識(shí)別方法和普通的又有些不同罷了。

同樣﹐寫(xiě)一個(gè)文本文件時(shí)﹐先寫(xiě)入這些標(biāo)記符﹐則也會(huì)幫助notepad識(shí)別這些文件的編碼(當(dāng)然.net專門(mén)提供了一些類別﹐如StreamWriter﹐可以直接存成某種編碼的格式)。

至于各種encoding之間的轉(zhuǎn)換﹐我想也不必多說(shuō)了﹐通過(guò)Encoding類的Convert,GetBytes和GetString方法是很容易進(jìn)行轉(zhuǎn)換的。

原來(lái)潛水看別人的文章時(shí)發(fā)現(xiàn)很簡(jiǎn)單﹐自己寫(xiě)起來(lái)才發(fā)現(xiàn)寫(xiě)好一篇blog這么困難(汗...)


文章來(lái)源:http://x-spirit.spaces.live.com/Blog/cns!CC0B04AE126337C0!341.entry