国产亚洲老熟女视频,精品久久久久久亚洲中文字幕,亚洲人成人77777网站不卡

Q 什么是MIME？什么是MIME郵件？

A MIME, 全稱為“Multipurpose Internet Mail Extensions”, 比較確切的中文名稱為“多用途互聯網郵件擴展”。它是當前廣泛應用的一種電子郵件技術規范，基本內容定義于RFC 2045-2049。

自然，MIME郵件就是符合MIME規范的電子郵件，或者說根據MIME規范編碼而成的電子郵件。

在MIME出臺之前，使用RFC 822只能發送基本的ASCII碼文本信息，郵件內容如果要包括二進制文件、聲音和動畫等，實現起來非常困難。MIME提供了一種可以在郵件中附加多種不同編碼文件的方法，彌補了原來的信息格式的不足。實際上不僅僅是郵件編碼，現在MIME經成為HTTP協議標準的一個部分。

下面舉幾個MIME郵件的例子，讓我們先對MIME編碼的格式有個直觀的印象。例1是最簡單的，只帶純文本正文，基本上就是RFC 822格式；例2復雜一些，包含純文本和超文本正文；例3是最復雜的，包含純文本正文、超文本正文、內嵌資源和文件附件。其中，行號和行號后的空格是為了分析方便而另外加的，“... ... ... ...”表示此處省略了大段編碼。

例1

   1 Date: Thu, 18 Apr 2002 09:32:45 +0800

2 From: <bhw98@sina.com>

3 To: <bhwang@jlonline.com>

4 Subject: Test

5 Mime-Version: 1.0

6 Content-Type: text/plain; charset="iso-8859-1"

7

8 This is a simple mail.

9

例2

   1 From: "bhw98" <bhw98@sina.com>

2 Reply-To: bhw98@sina.com

3 To: <bluesky7810@163.com>

4 Subject: Re: help

5 X-Mailer: Foxmail 4.2 [cn]

6 Mime-Version: 1.0

7 Content-Type: multipart/alternative;

8  boundary="=====002_Dragon307572345230_====="

9

10

11 This is a multi-part message in MIME format.

12

13 --=====002_Dragon307572345230_=====

14 Content-Type: text/plain; charset="GB2312"

15 Content-Transfer-Encoding: quoted-printable

16

17 bluesky7810=A3=AC=C4=FA=BA=C3=A3=A1

18

19 =A1=A1=A1=A1=D4=DA=CF=C2=C6=AA=D7=EE=BA=F3=BF=C9=D2=D4=CF=C2=D4=D8=B0=A1=A3=AC=C4=E3

... ...  ... ...

30 =A1=A1=A1=A1=A1=A1=A1=A1=A1=A1=A1=A1=A1=A1=A1=A1=A1=A1=A1=A1=A1=A1=A1=A1=A12003-04-07

31

32 --=====002_Dragon307572345230_=====

33 Content-Type: text/html; charset="GB2312"

34 Content-Transfer-Encoding: quoted-printable

35

36 <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">

37 <HTML><HEAD>

38 <META content=3D"text/html; charset=3Dgb2312"=

39  http-equiv=3DContent-Type>

40 <META content=3D"MSHTML 5.00.2920.0" name=3DGENERATOR>

... ...  ... ...

79 </HTML>

80

81 --=====002_Dragon307572345230_=====--

82

例3

   1 Return-Path: <bluesky7810@163.com>

2 Delivered-To: bhw98@sina.com

3 Received: (qmail 75513 invoked by alias); 20 May 2002 02:19:53 -0000

4 Received: from unknown (HELO bluesky) (61.155.118.135)

5   by 202.106.187.143 with SMTP; 20 May 2002 02:19:53 -0000

6 Message-ID: <007f01c3111c$742fec00$0100007f@bluesky>

7 From: "=?gb2312?B?wLbAtrXEzOwNCg==?=" <bluesky7810@163.com>

8 To: "bhw98" <bhw98@sina.com>

9 Cc: <bhwang@jlonline.com>

10 Subject: =?gb2312?B?ztK1xLbgtK6/2rPM0PI=?=

11 Date: Sat, 20 May 2002 10:03:36 +0800

12 MIME-Version: 1.0

13 Content-Type: multipart/mixed;

14    boundary="----=_NextPart_000_007A_01C3115F.80DFC5E0"

15 X-Priority: 3

16 X-MSMail-Priority: Normal

17 X-Mailer: Microsoft Outlook Express 5.00.2919.6700

18 X-MimeOLE: Produced By Microsoft MimeOLE V5.00.2919.6700

19

20 This is a multi-part message in MIME format.

21

22 ------=_NextPart_000_007A_01C3115F.80DFC5E0

23 Content-Type: multipart/related; type="multipart/alternative";

24     boundary="----=_NextPart_001_007B_01C3115F.80DFC5E0"

25

26

27 ------=_NextPart_001_007B_01C3115F.80DFC5E0

28 Content-Type: multipart/alternative;

29     boundary="----=_NextPart_002_007C_01C3115F.80DFC5E0"

30

31 ------=_NextPart_002_007C_01C3115F.80DFC5E0

32 Content-Type: text/plain; charset="gb2312"

33 Content-Transfer-Encoding: quoted-printable

34

35 bhw98, =C4=E3=BA=C3!

36 =D5=E2=CA=C7=CE=D2=D0=B4=B5=C4=B6=E0=B4=AE=BF=DA=CD=A8=D0=C5=B5=C4=B3=CC=D0=

37 =F2, =C7=EB=D6=B8=BD=CC!

38

39

40 ------=_NextPart_002_007C_01C3115F.80DFC5E0

41 Content-Type: text/html; charset="gb2312"

42 Content-Transfer-Encoding: quoted-printable

43

44 <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">

45 <HTML><HEAD><TITLE>=C7=E7=C0=CA</TITLE>

46 <META content=3D"text/html; charset=3Dgb2312" http-equiv=3DContent-Type>

47 <STYLE>BODY {

48     COLOR: #0033cc; FONT-FAMILY: =CB=CE=CC=E5, Arial, Helvetica; FONT-SIZE: =

49 9pt; MARGIN-LEFT: 10px; MARGIN-TOP: 25px

50 }

51 </STYLE>

52 <META content=3D"MSHTML 5.00.2920.0" name=3DGENERATOR></HEAD>

53 <BODY background=3Dcid:007901c3111c$72b978a0$0100007f@bluesky =

54 bgColor=3D#ffffff>

55 <DIV>

56 <DIV>bhw98, =C4=E3=BA=C3!</DIV>

57 <P>=D5=E2=CA=C7=CE=D2=D0=B4=B5=C4=B6=E0=B4=AE=BF=DA=CD=A8=D0=C5=B5=C4=B3=CC=

58 =D0=F2, =C7=EB=D6=B8=BD=CC!</P></DIV>

59 <P> </P></BODY></HTML>

60

61 ------=_NextPart_002_007C_01C3115F.80DFC5E0--

62

63 ------=_NextPart_001_007B_01C3115F.80DFC5E0

64 Content-Type: image/jpeg; name="=?gb2312?B?x+fAyrGzvrAuSlBH?="

65 Content-Transfer-Encoding: base64

66 Content-ID: <007901c3111c$72b978a0$0100007f@bluesky>

67

68 /9j/4AAQSkZJRgABAgEASABIAAD/7QVoUGhvdG9zaG9wIDMuMAA4QklNA+0AAAAAABAASAAAAAEA

69 AQBIAAAAAQABOEJJTQPzAAAAAAAIAAAAAAAAAAA4QklNBAoAAAAAAAEAADhCSU0nEAAAAAAACgAB

70 AAAAAAAAAAI4QklNA/UAAAAAAEgAL2ZmAAEAbGZmAAYAAAAAAAEAL2ZmAAEAoZmaAAYAAAAAAAEA

... ...  ... ...

169 RxVw98Vawq12xQ44q0cKtHFDWKGsKt4EtiuKt4q//9k=

170

171 ------=_NextPart_001_007B_01C3115F.80DFC5E0--

172

173 ------=_NextPart_000_007A_01C3115F.80DFC5E0

174 Content-Type: application/msword; name="readme.doc"

175 Content-Transfer-Encoding: base64

176 Content-Disposition: attachment; filename="readme.doc"

177

178 0M8R4KGxGuEAAAAAAAAAAAAAAAAAAAAAPgADAP7/CQAGAAAAAAAAAAAAAAABAAAAJgAAAAAAAAAA

179 EAAAKAAAAAEAAAD+////AAAAACUAAAD/////////////////////////////////////////////

180 ////////////////////////////////////////////////////////////////////////////

... ...  ... ...

1688 AAAAAAAAAAAAAAAAAAA=

1689

1690 ------=_NextPart_000_007A_01C3115F.80DFC5E0

1691 Content-Type: application/x-zip-compressed;

1692     name="=?gb2312?B?tuC0rr/azajQxbXE1LTC6y56aXA=?="

1693 Content-Transfer-Encoding: base64

1694 Content-Disposition: attachment;

1695     filename="=?gb2312?B?tuC0rr/azajQxbXE1LTC6y56aXA=?="

1696

1697 UEsDBBQAAAAIAFKAoi7qOMOvLw0AAABWAAAUAAAAtuC0rr/azajQxbXE1LTC6y5kb2PtXHtwVNUZ

1698 /+4+kk3IQoAkBkRYQkSgbrKb7IYNEMwmm6ckG0jCI0boZneTbJJ9sNlAEsdOtFqd8Z846tQ6PhB1

1699 hrZTJoK0Vhgf1aGt4rMy6D8tdugfTjuOpcBIR9j+vvsIy4YkRNTRen87v/ud53cee+6557vn7L73

... ...  ... ...

3125 zajQxbXE1LTC6y5kb2NQSwUGAAAAAAEAAQBCAAAAYQ0AAA==

3126

3127 ------=_NextPart_000_007A_01C3115F.80DFC5E0--

3128

Q 在開始研究MIME郵件的時候，如何得到這樣的源碼？

A 一些功能比較完善的郵件客戶端軟件，如微軟的Outlook Express，國產的Foxmail等，都提供了查看和保存郵件源碼(原始信息)的功能。在Foxmail中，選擇郵件列表右鍵菜單的“原始信息”進行查看，主菜單的“文件-導出”進行保存。在Outlook Express中，對應的操作分別是“屬性”和“另存為”。所保存的.eml文件，可以調用這些程序打開。

Q 請介紹一下MIME郵件的組成？

A 總體來說，MIME消息由消息頭和消息體兩大部分組成。現在我們關注的是MIME郵件，因此在以下的討論中姑且稱“消息”為“郵件”。在上面的例子中，例 1的1-6行，例2的1—8行，例3的1-18行，是郵件頭；例1的8—9行，例2的10—82行，例3的20—3128行，是郵件體。郵件頭與郵件體之間以空行進行分隔，如例1的第7行，例2的第9行，例3的第19行。郵件頭中不允許出現空行。有一些郵件不能被郵件客戶端軟件識別，顯示的是原始碼，就是因為首行是空行。

郵件頭包含了發件人、收件人、主題、時間、MIME版本、郵件內容的類型等重要信息。每條信息稱為一個域，由域名后加“: ”和信息內容構成，可以是一行，較長的也可以占用多行。域的首行必須“頂頭”寫，即左邊不能有空白字符（空格和制表符）；續行則必須以空白字符打頭，且第一個空白字符不是信息本身固有的，解碼時要過濾掉。如例2的7-8行，例3的4-5行，13-14行，分別屬于一個域。

郵件體包含郵件的內容，它的類型由郵件頭的“Content-Type”域指出。常見的簡單類型有text/plain(純文本)和text/html(超文本)。

例2和例3中出現的multipart類型，是MIME郵件的精髓。郵件體被分為多個段，每個段又包含段頭和段體兩部分，這兩部分之間也以空行分隔。常見的multipart類型有三種：multipart/mixed, multipart/related和multipart/alternative。從它們的名稱，不難推知這些類型各自的含義和用處。它們之間的層次關系可歸納為下圖所示：

+------------------------- multipart/mixed ----------------------------+

|                                                                      |

|  +----------------- multipart/related ------------------+            |

|  |                                                      |            |

|  |  +----- multipart/alternative ------+  +----------+  |  +------+  |

|  |  |                                  |  | 內嵌資源 |  |  | 附件 |  |

|  |  |  +------------+  +------------+  |  +----------+  |  +------+  |

|  |  |  | 純文本正文 |  | 超文本正文 |  |                |            |

|  |  |  +------------+  +------------+  |  +----------+  |  +------+  |

|  |  |                                  |  | 內嵌資源 |  |  | 附件 |  |

|  |  +----------------------------------+  +----------+  |  +------+  |

|  |                                                      |            |

|  +------------------------------------------------------+            |

|                                                                      |

+----------------------------------------------------------------------+

可以看出，如果在郵件中要添加附件，必須定義multipart/mixed段；如果存在內嵌資源，至少要定義 multipart/related段；如果純文本與超文本共存，至少要定義multipart/alternative段。什么是“至少”？舉個例子說，如果只有純文本與超文本正文，那么在郵件頭中將類型擴大化，定義為multipart/related，甚至multipart/mixed，都是允許的。

multipart諸類型的共同特征是，在段頭指定“boundary”參數字符串，段體內的每個子段以此串定界。所有的子段都以“--”+boundary行開始，父段則以“--”+boundary+“--”行結束。段與段之間也以空行分隔。在郵件體是 multipart類型的情況下，郵件體的開始部分(第一個“--”+boundary行之前)可以有一些附加的文本行，相當于注釋，解碼時應忽略。段間也可以有一些附加的文本行，不會顯示出來，如果有興趣，不妨驗證一下。

結合boundary定界和multipart層次關系圖，我們分析一下例2和例3的郵件體層次與段嵌套關系。

在例2中，10-12行是附加文本行，13-82行是multipart/alternative型的段，包含兩個子段：13-30行是純文本正文，32-79行是超文本正文。

在例3中，20-21行是附加文本行，22-3127行是multipart/mixed型的段，包含3個子段：22-171行是multipart/related段，173-1688行與1690-3125行是兩個附件。multipart/related 段又包含兩個子段：27-61行是multipart/alternative段，63-169行是一個內嵌資源(圖片)。 multipart/alternative段又包含兩個子段：31-48行是純文本正文，40-59行是超文本正文。

例1只有純文本正文，實際上屬于multipart層次關系圖中的一個特殊情況。如果非要避簡就繁，寫成下面的形式，也是完全符合MIME精神的。

Date: Thu, 18 Apr 2002 09:32:45 +0800

From: <bhw98@sina.com>

To: <bhwang@jlonline.com>

Subject: Test

Mime-Version: 1.0

Content-Type: multipart/alternative; boundary="{[(^_^)]}"



--{[(^_^)]}

Content-Type: text/plain; charset="iso-8859-1"

Content-Transfer-Encoding: 7bit



This is a simple mail.



--{[(^_^)]}--

Q 在郵件頭和段頭中，有哪一些常見的域？

A 在郵件頭中，有很多從RFC 822沿用的域名，MIME也增加了一些。常見的標準域名和含義如下

域名含義添加者

Received 傳輸路徑各級郵件服務器

Return-Path 回復地址目標郵件服務器

Delivered-To 發送地址目標郵件服務器

Reply-To 回復地址郵件的創建者

From 發件人地址郵件的創建者

To 收件人地址郵件的創建者

Cc 抄送地址郵件的創建者

Bcc 暗送地址郵件的創建者

Date 日期和時間郵件的創建者

Subject 主題郵件的創建者

Message-ID 消息ID 郵件的創建者

MIME-Version MIME版本郵件的創建者

Content-Type 內容的類型郵件的創建者

Content-Transfer-Encoding 內容的傳輸編碼方式郵件的創建者

非標準的、自定義域名都以X-開頭，例如X-Mailer, X-MSMail-Priority等，通常在接收和發送郵件的是同一程序時才能理解它們的意義。

在段頭中，大致有如下一些域

域名含義

Content-Type 段體的類型

Content-Transfer-Encoding 段體的傳輸編碼方式

Content-Disposition 段體的安排方式

Content-ID 段體的ID

Content-Location 段體的位置(路徑)

Content-Base 段體的基位置

有的域除了值之外，還帶有參數。值與參數、參數與參數之間以“;”分隔。參數名與參數值之間以“=”分隔。如例3的28-29行，Content-Type域的值為“multipart/alternative”，此外有一個參數boundary，值為"--- -=_NextPart_002_007C_01C3115F.80DFC5E0"。又如例3的第176行，Content-Disposition域的值為“attachment”，此外有一個參數filename，值為“readme.doc”。

Q Content-Type以及它們的參數有哪些形式？

A Content-Type都是“主類型/子類型”的形式。主類型有text, image, audio, video, application, multipart, message等，分別表示文本、圖片、音頻、視頻、應用、分段、消息等。每個主類型都可能有多個子類型，如text類型就包含plain, html, xml, css等子類型。以X-開頭的主類型和子類型，同樣表示自定義的類型，未向IANA正式注冊，但大多已經約定成俗了。如application/x- zip-compressed是ZIP文件類型。在Windows中，注冊表的“HKEY_CLASSES_ROOT\MIME\Database\ Content Type”內列舉了除multipart之外大部分已知的Content-Type。

關于參數的形式，RFC里有很多補充規定，有的允許帶幾個參數，較為常見的有

主類型參數名含義

text charset 字符集

image name 名稱

application name 名稱

multipart boundary 邊界

其中字符集也能在Windows注冊表的“HKEY_CLASSES_ROOT\MIME\Database\Charset”內見到。

Q Content-Transfer-Encoding有哪些？有什么特點？

A Content-Transfer-Encoding共有Base64, Quoted-printable, 7bit, 8bit, Binary等幾種。其中7bit是缺省的編碼方式。電子郵件源碼最初設計為全部是可打印的ASCII碼的形式。非ASCII碼的文本或數據要編碼成要求的格式，如上面的三個例子。Base64, Quoted-Printable是在非英語國家使用最廣使的編碼方式。Binary方式只具有象征意義，而沒有任何實用價值。

Base64將輸入的字符串或一段數據編碼成只含有{'A'-'Z', 'a'-'z', '0'-'9', '+', '/'}這64個字符的串，'='用于填充。其編碼的方法是，將輸入數據流每次取6 bit，用此6 bit的值(0-63)作為索引去查表，輸出相應字符。這樣，每3個字節將編碼為4個字符(3×8 → 4×6)；不滿4個字符的以'='填充。有的場合，以“=?charset?B?xxxxxxxx?=”表示xxxxxxxx是Base64編碼，且原文的字符集是charset。如例3第7行"=?gb2312?B?wLbAtrXEzOwNCg==?="是由簡體中文“藍藍的天”編碼而成的。在段體內則直接編碼，適當時機換行，MIME建議每行最多76個字符。如例3的1697-3125行，是一個ZIP文件的Base64編碼。

Quoted-printable根據輸入的字符串或字節范圍進行編碼，若是不需編碼的字符，直接輸出；若需要編碼，則先輸出'='，后面跟著以2個字符表示的十六進制字節值。有的場合，以“=?charset?Q?xxxxxxxx?=”表示 xxxxxxxx是Quoted-printable編碼，且原文的字符集是charset。在段體內則直接編碼，適當時機換行，換行前額外輸出一個'= '。如例3的44-59行，是HTML文本的Quoted-printable編碼。其中第45行“=C7=E7=C0=CA”原文是“晴朗”，因為 “晴”的GB2312碼是C7E7，“朗”的GB2312碼是C0CA。第48、53、57行末尾只有孤零零的'='，表示這是由編碼造成的軟回車，而非原文固有的。

近年來，國內多數郵件服務器已經支持8bit方式，因此只在國內傳輸的郵件，特別是在郵件頭中，可直接使用8bit編碼，對漢字不做處理。如果郵件要出國，還是老老實實地按Base64或Quoted-printable編碼才行。

Q 什么是內嵌資源？它有哪些形式？

A 內嵌資源也是MIME的一個發光點，它能使郵件內容變得生動活潑、豐富多彩。可在郵件的multipart/related框架內定義一些與正文關聯的圖片、動畫、聲音甚至CSS樣式和腳本的段。通常在HTML正文內，使用超級鏈接與內嵌資源相聯系。如在例3中，HTML正文53-54行，解碼后為

<BODY background=cid:007901c3111c$72b978a0$0100007f@bluesky bgColor=#ffffff>

它指出用一個Content-ID為007901c3111c$72b978a0$0100007f@bluesky的圖片作為背景(cid:xxxxxxxx也是一種超級鏈接)。而64-169行恰好就是這樣一個內嵌資源。

除了用Content-ID進行聯系外，還有另外一種常用形式：用普通超級連接和Content-Location。例如：

在HTML正文中，

... ...  ... ...

<IMG SRC="http://www.dangdang.com/images/all/anti_joyo_dm_book.gif">

... ...  ... ...

<IMG SRC="http://www.dangdang.com/dd2001/getimage_small.asp?id=486341">

... ...  ... ...

對應的內嵌資源為

Content-Type: image/gif; name="anti_joyo_dm_book.gif"

Content-Transfer-Encoding: base64

Content-Location: http://www.dangdang.com/images/all/anti_joyo_dm_book.gif

... ... ... ...

Content-Type: application/octet-stream; name="getimage_small.asp?id=486341"

Content-Transfer-Encoding: base64

Content-Location: http://www.dangdang.com/dd2001/getimage_small.asp?id=486341

... ... ... ...

另外，

Content-Location: http://www.dangdang.com/images/all/anti_joyo_dm_book.gif

與

Content-Location: anti_joyo_dm_book.gif

Content-Base: http://www.dangdang.com/images/all/

是等效的。

Q 郵件病毒如何利用附件和內嵌資源傳播？

A 有的郵件附件可能帶有病毒，容易理解。附件畢竟是文件，也好預防，不輕易打開就是了。但內嵌資源是在瀏覽郵件內容時就要訪問的，若其中藏有病毒或惡意代碼，你在不知不覺中就中招了。如前兩年曾經在全球范圍內流行的Nimda病毒，功能性源碼如下：

MIME-Version: 1.0

Content-Type: multipart/related;

type="multipart/alternative";

boundary="====_ABC1234567890DEF_===="



--====_ABC1234567890DEF_====

Content-Type: multipart/alternative;

boundary="====_ABC0987654321DEF_===="



--====_ABC0987654321DEF_====

Content-Type: text/html;

charset="iso-8859-1"

Content-Transfer-Encoding: 7bit



<HTML><HEAD></HEAD><BODY bgColor=#ffffff>

<iframe src=cid:EA4DMGBP9p height=0 width=0>

</iframe></BODY></HTML>

--====_ABC0987654321DEF_====--



--====_ABC1234567890DEF_====

Content-Type: audio/x-wav; name="readme.exe"

Content-Transfer-Encoding: base64

Content-ID: <EA4DMGBP9p>



TVqQAAMAAAAEAAAA//8AALgAAAAAAAAAQAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA

AAAA2AAAAA4fug4AtAnNIbgBTM0hVGhpcyBwcm9ncmFtIGNhbm5vdCBiZSBydW4gaW4gRE9TIG1v

ZGUuDQ0KJAAAAAAAAAA11CFvcbVPPHG1TzxxtU88E6pcPHW1TzyZqkU8dbVPPJmqSzxytU88cbVO

... ...  ... ...  ... ...  ... ...

AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA=



--====_ABC1234567890DEF_====

它將一個可執行文件作為資源嵌入了框架型頁面，卻聲明這段可執行代碼是波形聲音類型。由于當時微軟的IE(版本5.0 及以下)存在重大安全漏洞，沒有檢查Content-Type與name的擴展名是否匹配，于是就被輕易騙過了，致使點選或打開郵件時自動運行了這個 “readme.exe”，機器就感染上病毒。帶毒的機器利用地址簿向別人發送帶毒的郵件，一傳十，十傳百，Nimda蠕蟲大行其道。

縱觀歷史，病毒剛出來時是厲害，但沒有任何一種能夠持續肆虐下去。Nimda如此，SARS亦當如此。曰：“多難興邦，眾志成城”，又曰：“非典終將倒下，城市精神永存”，相信我們定能很快戰勝“非典”!

病毒庫升級是跟在新病毒屁股后進行的，不要過分依賴殺毒軟件。一個良好的習慣是關閉郵件預覽功能，或者設定預覽純文本部分，先查看郵件源碼，確信排除病毒嫌疑后再打開。對陌生人發來的帶超文本正文的郵件，尤其要當心。永遠不要在郵件客戶端軟件內直接打開附件。

Q 一些垃圾郵件采取隱藏發件人的方式，如何追查它們來自哪里？

A 從上面的郵件頭域名表中可以看出，郵件的創建者可以掌握大部分的域的內容，但Received等域由各級服務器自動添加，發件人是鞭長莫及。垃圾郵件一般采用了群發軟件發送，郵件頭的From域(發件人地址)可以任意偽造，甚至寫成收件人地址(收到了自己并沒有發過的垃圾郵件，氣憤吧？)。查看 Received域(傳輸路徑)鏈可以找到真正的出處。每個服務器添加的Received語句都在郵件首，故最下面一個Received就包含了發件人所用的SMTP或HTTP服務器，及最初的網關外部IP地址。

Receive語句的基本格式是：from A by B。A為發送方，B為接收方。例如：

Received: (qmail 45304 invoked from network); 4 May 2003 17:05:47 -0000

Received: from unknown (HELO bjapp9.163.net) (202.108.255.197)

by 202.106.182.244 with SMTP; 4 May 2003 17:05:47 -0000

Received: from localhost (localhost [127.0.0.1])

by bjapp9.163.net (Postfix) with SMTP id E1C761D84C631

for <bhw98@sina.com>; Mon,  5 May 2003 01:07:26 +0800 (CST)

Received: from fanyingxxxx@tom.com (unknown [211.99.162.194])

by bjapp9.163.net (Coremail) with SMTP id OgEAAM1ItT7MNaLC.1

for <bhw98@sina.com>; Mon, 05 May 2003 01:07:26 +0800 (CST)

從上面的例子中不難看出，該郵件的傳輸路徑是：211.99.162.194 → bjapp9.163.net (Coremail 202.108.255.197?) → bjapp9.163.net (Postfix, 202.108.255.197?) → 202.106.182.244。恰好出現了發件人郵箱fanyingxxxx@tom.com，但多數情況不一定能列出來。

此例的localhost [127.0.0.1]，意味著bjapp9.163.net上安裝了郵件服務代理性質的軟件。

posted @ 2007-12-01 16:36 java執著者閱讀(1303) | 評論 (0) | 編輯收藏

[轉]Java/J2EE中文問題終極解決之道

Java中文問題一直困擾著很多初學者，如果了解了Java系統的中文問題原理，我們就可以對中文問題能夠采取根本的解決之道。

　　最古老的解決方案是使用String的字節碼轉換，這種方案問題是不方便，我們需要破壞對象封裝性，進行字節碼轉換。

　　還有一種方式是對J2EE容器進行編碼設置，如果J2EE應用系統脫離該容器，則會發生亂碼，而且指定容器配置不符合J2EE應用和容器分離的原則。

在Java內部運算中，涉及到的所有字符串都會被轉化為UTF-8編碼來進行運算。那么，在被Java轉化之前，字符串是什么樣的字符集？ Java總是根據操作系統的默認編碼字符集來決定字符串的初始編碼，而且Java系統的輸入和輸出的都是采取操作系統的默認編碼。

　　因此，如果能統一Java系統的輸入、輸出和操作系統3者的編碼字符集合，將能夠使Java系統正確處理和顯示漢字。這是處理Java系統漢字的一個原則，但是在實際項目中，能夠正確抓住和控制住Java系統的輸入和輸出部分是比較難的。J2EE中，由于涉及到外部瀏覽器和數據庫等，所以中文問題亂碼顯得非常突出。

　　J2EE應用程序是運行在J2EE容器中。在這個系統中，輸入途徑有很多種：一種是通過頁面表單打包成請求（request）發往服務器的；第二種是通過數據庫讀入；還有第3種輸入比較復雜，JSP在第一次運行時總是被編譯成Servlet，JSP中常常包含中文字符，那么編譯使用javac時，Java將根據默認的操作系統編碼作為初始編碼。除非特別指定，如在Jbuilder/eclipse中可以指定默認的字符集。

　　輸出途徑也有幾種：第一種是JSP頁面的輸出。由于JSP頁面已經被編譯成Servlet，那么在輸出時，也將根據操作系統的默認編碼來選擇輸出編碼，除非指定輸出編碼方式；還有輸出途徑是數據庫，將字符串輸出到數據庫。

　　由此看來，一個J2EE系統的輸入輸出是非常復雜，而且是動態變化的，而Java是跨平臺運行的，在實際編譯和運行中，都可能涉及到不同的操作系統，如果任由Java自由根據操作系統來決定輸入輸出的編碼字符集，這將不可控制地出現亂碼。

　　正是由于Java的跨平臺特性，使得字符集問題必須由具體系統來統一解決，所以在一個Java應用系統中，解決中文亂碼的根本辦法是明確指定整個應用系統統一字符集。

　　指定統一字符集時，到底是指定ISO8859_1 、GBK還是UTF-8呢？

　　（1）如統一指定為ISO8859_1，因為目前大多數軟件都是西方人編制的，他們默認的字符集就是ISO8859_1，包括操作系統Linux和數據庫MySQL等。這樣，如果指定Jive統一編碼為ISO8859_1，那么就有下面3個環節必須把握：

　　開發和編譯代碼時指定字符集為ISO8859_1。

　　運行操作系統的默認編碼必須是ISO8859_1，如Linux。

　　在JSP頭部聲明：<%@ page contentType="text/html;charset=ISO8859_1" %>。

　　（2）如果統一指定為GBK中文字符集，上述3個環節同樣需要做到，不同的是只能運行在默認編碼為GBK的操作系統，如中文Windows。

　　統一編碼為ISO8859_1和GBK雖然帶來編制代碼的方便，但是各自只能在相應的操作系統上運行。但是也破壞了Java跨平臺運行的優越性，只在一定范圍內行得通。例如，為了使得GBK編碼在linux上運行，設置Linux編碼為GBK。

　　那么有沒有一種除了應用系統以外不需要進行任何附加設置的中文編碼根本解決方案呢？

　　將Java/J2EE系統的統一編碼定義為UTF-8。UTF-8編碼是一種兼容所有語言的編碼方式，惟一比較麻煩的就是要找到應用系統的所有出入口，然后使用UTF-8去“結扎”它。

　　一個J2EE應用系統需要做下列幾步工作：

開發和編譯代碼時指定字符集為UTF-8。JBuilder和Eclipse都可以在項目屬性中設置。
使用過濾器，如果所有請求都經過一個Servlet控制分配器，那么使用Servlet的filter執行語句，將所有來自瀏覽器的請求（request）轉換為UTF-8，因為瀏覽器發過來的請求包根據瀏覽器所在的操作系統編碼，可能是各種形式編碼。關鍵一句：
request.setCharacterEncoding("UTF-8")。
網上有此filter的源碼，Jdon框架源碼中com.jdon.util.SetCharacterEncodingFilter
需要配置web.xml 激活該Filter。
在JSP頭部聲明：<%@ page contentType="text/html;charset= UTF-8" %>。
在Jsp的html代碼中，聲明UTF-8:
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
設定數據庫連接方式是UTF-8。例如連接MYSQL時配置URL如下：
jdbc:mysql://localhost:3306/test?useUnicode=true&characterEncoding=UTF-8
注意，上述寫法是JBoss的mysql-ds.xml寫法，多虧網友提示，在tomcat中&要寫成&即可。一般其他數據庫都可以通過管理設置設定UTF-8
其他和外界交互時能夠設定編碼時就設定UTF-8，例如讀取文件，操作XML等。

筆者以前在Jsp/Servlet時就采取這個原則，后來使用Struts、Tapestry、EJB、Hibernate、Jdon等框架時，從未被亂碼困擾過，可以說適合各種架構。希望本方案供更多初學者分享，減少Java/J2EE的第一個攔路虎，也避免因為采取一些臨時解決方案，導致中文問題一直出現在新的技術架構中

posted @ 2007-09-20 11:07 java執著者閱讀(1051) | 評論 (0) | 編輯收藏

[轉載]Session詳解

標題：Session詳解

[評論]

作者：郎云鵬（dev2dev ID: hippiewolf）

摘要：雖然session機制在web應用程序中被采用已經很長時間了，但是仍然有很多人不清楚session機制的本質，以至不能正確的應用這一技術。本文將詳細討論session的工作機制并且對在Java web application中應用session機制時常見的問題作出解答。

目錄：
一、術語session
二、HTTP協議與狀態保持
 三、理解cookie機制
 四、理解session機制
 五、理解javax.servlet.http.HttpSession
六、HttpSession常見問題
 七、跨應用程序的session共享
 八、總結
 參考文檔

一、術語session
在我的經驗里，session這個詞被濫用的程度大概僅次于transaction，更加有趣的是transaction與session在某些語境下的含義是相同的。

session，中文經常翻譯為會話，其本來的含義是指有始有終的一系列動作/消息，比如打電話時從拿起電話撥號到掛斷電話這中間的一系列過程可以稱之為一個session。有時候我們可以看到這樣的話“在一個瀏覽器會話期間，...”，這里的會話一詞用的就是其本義，是指從一個瀏覽器窗口打開到關閉這個期間①。最混亂的是“用戶（客戶端）在一次會話期間”這樣一句話，它可能指用戶的一系列動作（一般情況下是同某個具體目的相關的一系列動作，比如從登錄到選購商品到結賬登出這樣一個網上購物的過程，有時候也被稱為一個transaction），然而有時候也可能僅僅是指一次連接，也有可能是指含義①，其中的差別只能靠上下文來推斷②。

然而當session一詞與網絡協議相關聯時，它又往往隱含了“面向連接”和/或“保持狀態”這樣兩個含義，“面向連接”指的是在通信雙方在通信之前要先建立一個通信的渠道，比如打電話，直到對方接了電話通信才能開始，與此相對的是寫信，在你把信發出去的時候你并不能確認對方的地址是否正確，通信渠道不一定能建立，但對發信人來說，通信已經開始了。“保持狀態”則是指通信的一方能夠把一系列的消息關聯起來，使得消息之間可以互相依賴，比如一個服務員能夠認出再次光臨的老顧客并且記得上次這個顧客還欠店里一塊錢。這一類的例子有“一個TCP session”或者“一個POP3 session”③。

而到了web服務器蓬勃發展的時代，session在web開發語境下的語義又有了新的擴展，它的含義是指一類用來在客戶端與服務器之間保持狀態的解決方案④。有時候session也用來指這種解決方案的存儲結構，如“把xxx保存在session里”⑤。由于各種用于web開發的語言在一定程度上都提供了對這種解決方案的支持，所以在某種特定語言的語境下，session也被用來指代該語言的解決方案，比如經常把Java里提供的javax.servlet.http.HttpSession簡稱為session⑥。

鑒于這種混亂已不可改變，本文中session一詞的運用也會根據上下文有不同的含義，請大家注意分辨。
在本文中，使用中文“瀏覽器會話期間”來表達含義①，使用“session機制”來表達含義④，使用“session”表達含義⑤，使用具體的“HttpSession”來表達含義⑥

二、HTTP協議與狀態保持
HTTP協議本身是無狀態的，這與HTTP協議本來的目的是相符的，客戶端只需要簡單的向服務器請求下載某些文件，無論是客戶端還是服務器都沒有必要紀錄彼此過去的行為，每一次請求之間都是獨立的，好比一個顧客和一個自動售貨機或者一個普通的（非會員制）大賣場之間的關系一樣。

然而聰明（或者貪心？）的人們很快發現如果能夠提供一些按需生成的動態信息會使web變得更加有用，就像給有線電視加上點播功能一樣。這種需求一方面迫使HTML逐步添加了表單、腳本、DOM等客戶端行為，另一方面在服務器端則出現了CGI規范以響應客戶端的動態請求，作為傳輸載體的HTTP協議也添加了文件上載、cookie這些特性。其中cookie的作用就是為了解決HTTP協議無狀態的缺陷所作出的努力。至于后來出現的session機制則是又一種在客戶端與服務器之間保持狀態的解決方案。

讓我們用幾個例子來描述一下cookie和session機制之間的區別與聯系。筆者曾經常去的一家咖啡店有喝5杯咖啡免費贈一杯咖啡的優惠，然而一次性消費5杯咖啡的機會微乎其微，這時就需要某種方式來紀錄某位顧客的消費數量。想象一下其實也無外乎下面的幾種方案：
1、該店的店員很厲害，能記住每位顧客的消費數量，只要顧客一走進咖啡店，店員就知道該怎么對待了。這種做法就是協議本身支持狀態。
2、發給顧客一張卡片，上面記錄著消費的數量，一般還有個有效期限。每次消費時，如果顧客出示這張卡片，則此次消費就會與以前或以后的消費相聯系起來。這種做法就是在客戶端保持狀態。
3、發給顧客一張會員卡，除了卡號之外什么信息也不紀錄，每次消費時，如果顧客出示該卡片，則店員在店里的紀錄本上找到這個卡號對應的紀錄添加一些消費信息。這種做法就是在服務器端保持狀態。

由于HTTP協議是無狀態的，而出于種種考慮也不希望使之成為有狀態的，因此，后面兩種方案就成為現實的選擇。具體來說cookie機制采用的是在客戶端保持狀態的方案，而session機制采用的是在服務器端保持狀態的方案。同時我們也看到，由于采用服務器端保持狀態的方案在客戶端也需要保存一個標識，所以session機制可能需要借助于cookie機制來達到保存標識的目的，但實際上它還有其他選擇。

三、理解cookie機制
cookie機制的基本原理就如上面的例子一樣簡單，但是還有幾個問題需要解決：“會員卡”如何分發；“會員卡”的內容；以及客戶如何使用“會員卡”。

正統的cookie分發是通過擴展HTTP協議來實現的，服務器通過在HTTP的響應頭中加上一行特殊的指示以提示瀏覽器按照指示生成相應的cookie。然而純粹的客戶端腳本如JavaScript或者VBScript也可以生成cookie。

而cookie的使用是由瀏覽器按照一定的原則在后臺自動發送給服務器的。瀏覽器檢查所有存儲的cookie，如果某個cookie所聲明的作用范圍大于等于將要請求的資源所在的位置，則把該cookie附在請求資源的HTTP請求頭上發送給服務器。意思是麥當勞的會員卡只能在麥當勞的店里出示，如果某家分店還發行了自己的會員卡，那么進這家店的時候除了要出示麥當勞的會員卡，還要出示這家店的會員卡。

cookie的內容主要包括：名字，值，過期時間，路徑和域。
其中域可以指定某一個域比如.google.com，相當于總店招牌，比如寶潔公司，也可以指定一個域下的具體某臺機器比如www.google.com或者froogle.google.com，可以用飄柔來做比。
路徑就是跟在域名后面的URL路徑，比如/或者/foo等等，可以用某飄柔專柜做比。
路徑與域合在一起就構成了cookie的作用范圍。
如果不設置過期時間，則表示這個cookie的生命期為瀏覽器會話期間，只要關閉瀏覽器窗口，cookie就消失了。這種生命期為瀏覽器會話期的cookie被稱為會話cookie。會話cookie一般不存儲在硬盤上而是保存在內存里，當然這種行為并不是規范規定的。如果設置了過期時間，瀏覽器就會把cookie保存到硬盤上，關閉后再次打開瀏覽器，這些cookie仍然有效直到超過設定的過期時間。

存儲在硬盤上的cookie可以在不同的瀏覽器進程間共享，比如兩個IE窗口。而對于保存在內存里的cookie，不同的瀏覽器有不同的處理方式。對于IE，在一個打開的窗口上按Ctrl-N（或者從文件菜單）打開的窗口可以與原窗口共享，而使用其他方式新開的IE進程則不能共享已經打開的窗口的內存cookie；對于Mozilla Firefox0.8，所有的進程和標簽頁都可以共享同樣的cookie。一般來說是用javascript的window.open打開的窗口會與原窗口共享內存cookie。瀏覽器對于會話cookie的這種只認cookie不認人的處理方式經常給采用session機制的web應用程序開發者造成很大的困擾。

下面就是一個goolge設置cookie的響應頭的例子
HTTP/1.1 302 Found
Location: http://www.google.com/intl/zh-CN/
Set-Cookie: PREF=ID=0565f77e132de138:NW=1:TM=1098082649:LM=1098082649:S=KaeaCFPo49RiA_d8; expires=Sun, 17-Jan-2038 19:14:07 GMT; path=/; domain=.google.com
Content-Type: text/html

這是使用HTTPLook這個HTTP Sniffer軟件來俘獲的HTTP通訊紀錄的一部分

瀏覽器在再次訪問goolge的資源時自動向外發送cookie

使用Firefox可以很容易的觀察現有的cookie的值
使用HTTPLook配合Firefox可以很容易的理解cookie的工作原理。

IE也可以設置在接受cookie前詢問

這是一個詢問接受cookie的對話框。

四、理解session機制
session機制是一種服務器端的機制，服務器使用一種類似于散列表的結構（也可能就是使用散列表）來保存信息。

當程序需要為某個客戶端的請求創建一個session的時候，服務器首先檢查這個客戶端的請求里是否已包含了一個session標識 - 稱為session id，如果已包含一個session id則說明以前已經為此客戶端創建過session，服務器就按照session id把這個session檢索出來使用（如果檢索不到，可能會新建一個），如果客戶端請求不包含session id，則為此客戶端創建一個session并且生成一個與此session相關聯的session id，session id的值應該是一個既不會重復，又不容易被找到規律以仿造的字符串，這個session id將被在本次響應中返回給客戶端保存。

保存這個session id的方式可以采用cookie，這樣在交互過程中瀏覽器可以自動的按照規則把這個標識發揮給服務器。一般這個cookie的名字都是類似于SEEESIONID，而。比如weblogic對于web應用程序生成的cookie，JSESSIONID=ByOK3vjFD75aPnrF7C2HmdnV6QZcEbzWoWiBYEnLerjQ99zWpBng!-145788764，它的名字就是JSESSIONID。

由于cookie可以被人為的禁止，必須有其他機制以便在cookie被禁止時仍然能夠把session id傳遞回服務器。經常被使用的一種技術叫做URL重寫，就是把session id直接附加在URL路徑的后面，附加方式也有兩種，一種是作為URL路徑的附加信息，表現形式為http://...../xxx;jsessionid=ByOK3vjFD75aPnrF7C2HmdnV6QZcEbzWoWiBYEnLerjQ99zWpBng!-145788764
另一種是作為查詢字符串附加在URL后面，表現形式為http://...../xxx?jsessionid=ByOK3vjFD75aPnrF7C2HmdnV6QZcEbzWoWiBYEnLerjQ99zWpBng!-145788764
這兩種方式對于用戶來說是沒有區別的，只是服務器在解析的時候處理的方式不同，采用第一種方式也有利于把session id的信息和正常程序參數區分開來。
為了在整個交互過程中始終保持狀態，就必須在每個客戶端可能請求的路徑后面都包含這個session id。

另一種技術叫做表單隱藏字段。就是服務器會自動修改表單，添加一個隱藏字段，以便在表單提交時能夠把session id傳遞回服務器。比如下面的表單
<form name="testform" action="/xxx">
<input type="text">
</form>
在被傳遞給客戶端之前將被改寫成
<form name="testform" action="/xxx">
<input type="hidden" name="jsessionid" value="ByOK3vjFD75aPnrF7C2HmdnV6QZcEbzWoWiBYEnLerjQ99zWpBng!-145788764">
<input type="text">
</form>
這種技術現在已較少應用，筆者接觸過的很古老的iPlanet6(SunONE應用服務器的前身)就使用了這種技術。
實際上這種技術可以簡單的用對action應用URL重寫來代替。

在談論session機制的時候，常常聽到這樣一種誤解“只要關閉瀏覽器，session就消失了”。其實可以想象一下會員卡的例子，除非顧客主動對店家提出銷卡，否則店家絕對不會輕易刪除顧客的資料。對session來說也是一樣的，除非程序通知服務器刪除一個session，否則服務器會一直保留，程序一般都是在用戶做log off的時候發個指令去刪除session。然而瀏覽器從來不會主動在關閉之前通知服務器它將要關閉，因此服務器根本不會有機會知道瀏覽器已經關閉，之所以會有這種錯覺，是大部分session機制都使用會話cookie來保存session id，而關閉瀏覽器后這個session id就消失了，再次連接服務器時也就無法找到原來的session。如果服務器設置的cookie被保存到硬盤上，或者使用某種手段改寫瀏覽器發出的HTTP請求頭，把原來的session id發送給服務器，則再次打開瀏覽器仍然能夠找到原來的session。

恰恰是由于關閉瀏覽器不會導致session被刪除，迫使服務器為seesion設置了一個失效時間，當距離客戶端上一次使用session的時間超過這個失效時間時，服務器就可以認為客戶端已經停止了活動，才會把session刪除以節省存儲空間。

五、理解javax.servlet.http.HttpSession
HttpSession是Java平臺對session機制的實現規范，因為它僅僅是個接口，具體到每個web應用服務器的提供商，除了對規范支持之外，仍然會有一些規范里沒有規定的細微差異。這里我們以BEA的Weblogic Server8.1作為例子來演示。

首先，Weblogic Server提供了一系列的參數來控制它的HttpSession的實現，包括使用cookie的開關選項，使用URL重寫的開關選項，session持久化的設置，session失效時間的設置，以及針對cookie的各種設置，比如設置cookie的名字、路徑、域，cookie的生存時間等。

一般情況下，session都是存儲在內存里，當服務器進程被停止或者重啟的時候，內存里的session也會被清空，如果設置了session的持久化特性，服務器就會把session保存到硬盤上，當服務器進程重新啟動或這些信息將能夠被再次使用，Weblogic Server支持的持久性方式包括文件、數據庫、客戶端cookie保存和復制。

復制嚴格說來不算持久化保存，因為session實際上還是保存在內存里，不過同樣的信息被復制到各個cluster內的服務器進程中，這樣即使某個服務器進程停止工作也仍然可以從其他進程中取得session。

cookie生存時間的設置則會影響瀏覽器生成的cookie是否是一個會話cookie。默認是使用會話cookie。有興趣的可以用它來試驗我們在第四節里提到的那個誤解。

cookie的路徑對于web應用程序來說是一個非常重要的選項，Weblogic Server對這個選項的默認處理方式使得它與其他服務器有明顯的區別。后面我們會專題討論。

關于session的設置參考[5] http://e-docs.bea.com/wls/docs70/webapp/weblogic_xml.html#1036869

六、HttpSession常見問題
（在本小節中session的含義為⑤和⑥的混合）

1、session在何時被創建
一個常見的誤解是以為session在有客戶端訪問時就被創建，然而事實是直到某server端程序調用HttpServletRequest.getSession(true)這樣的語句時才被創建，注意如果JSP沒有顯示的使用 <%@page session="false"%> 關閉session，則JSP文件在編譯成Servlet時將會自動加上這樣一條語句HttpSession session = HttpServletRequest.getSession(true);這也是JSP中隱含的session對象的來歷。

由于session會消耗內存資源，因此，如果不打算使用session，應該在所有的JSP中關閉它。

2、session何時被刪除
綜合前面的討論，session在下列情況下被刪除a.程序調用HttpSession.invalidate();或b.距離上一次收到客戶端發送的session id時間間隔超過了session的超時設置;或c.服務器進程被停止（非持久session）

3、如何做到在瀏覽器關閉時刪除session
嚴格的講，做不到這一點。可以做一點努力的辦法是在所有的客戶端頁面里使用javascript代碼window.oncolose來監視瀏覽器的關閉動作，然后向服務器發送一個請求來刪除session。但是對于瀏覽器崩潰或者強行殺死進程這些非常規手段仍然無能為力。

4、有個HttpSessionListener是怎么回事
你可以創建這樣的listener去監控session的創建和銷毀事件，使得在發生這樣的事件時你可以做一些相應的工作。注意是session的創建和銷毀動作觸發listener，而不是相反。類似的與HttpSession有關的listener還有HttpSessionBindingListener，HttpSessionActivationListener和HttpSessionAttributeListener。

5、存放在session中的對象必須是可序列化的嗎
不是必需的。要求對象可序列化只是為了session能夠在集群中被復制或者能夠持久保存或者在必要時server能夠暫時把session交換出內存。在Weblogic Server的session中放置一個不可序列化的對象在控制臺上會收到一個警告。我所用過的某個iPlanet版本如果session中有不可序列化的對象，在session銷毀時會有一個Exception，很奇怪。

6、如何才能正確的應付客戶端禁止cookie的可能性
對所有的URL使用URL重寫，包括超鏈接，form的action，和重定向的URL，具體做法參見[6]
http://e-docs.bea.com/wls/docs70/webapp/sessions.html#100770

7、開兩個瀏覽器窗口訪問應用程序會使用同一個session還是不同的session
參見第三小節對cookie的討論，對session來說是只認id不認人，因此不同的瀏覽器，不同的窗口打開方式以及不同的cookie存儲方式都會對這個問題的答案有影響。

8、如何防止用戶打開兩個瀏覽器窗口操作導致的session混亂
這個問題與防止表單多次提交是類似的，可以通過設置客戶端的令牌來解決。就是在服務器每次生成一個不同的id返回給客戶端，同時保存在session里，客戶端提交表單時必須把這個id也返回服務器，程序首先比較返回的id與保存在session里的值是否一致，如果不一致則說明本次操作已經被提交過了。可以參看《J2EE核心模式》關于表示層模式的部分。需要注意的是對于使用javascript window.open打開的窗口，一般不設置這個id，或者使用單獨的id，以防主窗口無法操作，建議不要再window.open打開的窗口里做修改操作，這樣就可以不用設置。

9、為什么在Weblogic Server中改變session的值后要重新調用一次session.setValue
做這個動作主要是為了在集群環境中提示Weblogic Server session中的值發生了改變，需要向其他服務器進程復制新的session值。

10、為什么session不見了
排除session正常失效的因素之外，服務器本身的可能性應該是微乎其微的，雖然筆者在iPlanet6SP1加若干補丁的Solaris版本上倒也遇到過；瀏覽器插件的可能性次之，筆者也遇到過3721插件造成的問題；理論上防火墻或者代理服務器在cookie處理上也有可能會出現問題。
出現這一問題的大部分原因都是程序的錯誤，最常見的就是在一個應用程序中去訪問另外一個應用程序。我們在下一節討論這個問題。

七、跨應用程序的session共享

常常有這樣的情況，一個大項目被分割成若干小項目開發，為了能夠互不干擾，要求每個小項目作為一個單獨的web應用程序開發，可是到了最后突然發現某幾個小項目之間需要共享一些信息，或者想使用session來實現SSO(single sign on)，在session中保存login的用戶信息，最自然的要求是應用程序間能夠訪問彼此的session。

然而按照Servlet規范，session的作用范圍應該僅僅限于當前應用程序下，不同的應用程序之間是不能夠互相訪問對方的session的。各個應用服務器從實際效果上都遵守了這一規范，但是實現的細節卻可能各有不同，因此解決跨應用程序session共享的方法也各不相同。

首先來看一下Tomcat是如何實現web應用程序之間session的隔離的，從Tomcat設置的cookie路徑來看，它對不同的應用程序設置的cookie路徑是不同的，這樣不同的應用程序所用的session id是不同的，因此即使在同一個瀏覽器窗口里訪問不同的應用程序，發送給服務器的session id也可以是不同的。

根據這個特性，我們可以推測Tomcat中session的內存結構大致如下。

筆者以前用過的iPlanet也采用的是同樣的方式，估計SunONE與iPlanet之間不會有太大的差別。對于這種方式的服務器，解決的思路很簡單，實際實行起來也不難。要么讓所有的應用程序共享一個session id，要么讓應用程序能夠獲得其他應用程序的session id。

iPlanet中有一種很簡單的方法來實現共享一個session id，那就是把各個應用程序的cookie路徑都設為/（實際上應該是/NASApp，對于應用程序來講它的作用相當于根）。
<session-info>
<path>/NASApp</path>
</session-info>

需要注意的是，操作共享的session應該遵循一些編程約定，比如在session attribute名字的前面加上應用程序的前綴，使得setAttribute("name", "neo")變成setAttribute("app1.name", "neo")，以防止命名空間沖突，導致互相覆蓋。

在Tomcat中則沒有這么方便的選擇。在Tomcat版本3上，我們還可以有一些手段來共享session。對于版本4以上的Tomcat，目前筆者尚未發現簡單的辦法。只能借助于第三方的力量，比如使用文件、數據庫、JMS或者客戶端cookie，URL參數或者隱藏字段等手段。

我們再看一下Weblogic Server是如何處理session的。

從截屏畫面上可以看到Weblogic Server對所有的應用程序設置的cookie的路徑都是/，這是不是意味著在Weblogic Server中默認的就可以共享session了呢？然而一個小實驗即可證明即使不同的應用程序使用的是同一個session，各個應用程序仍然只能訪問自己所設置的那些屬性。這說明Weblogic Server中的session的內存結構可能如下

對于這樣一種結構，在session機制本身上來解決session共享的問題應該是不可能的了。除了借助于第三方的力量，比如使用文件、數據庫、JMS或者客戶端cookie，URL參數或者隱藏字段等手段，還有一種較為方便的做法，就是把一個應用程序的session放到ServletContext中，這樣另外一個應用程序就可以從ServletContext中取得前一個應用程序的引用。示例代碼如下，

應用程序A
context.setAttribute("appA", session);

應用程序B
contextA = context.getContext("/appA");
HttpSession sessionA = (HttpSession)contextA.getAttribute("appA");

值得注意的是這種用法不可移植，因為根據ServletContext的JavaDoc，應用服務器可以處于安全的原因對于context.getContext("/appA");返回空值，以上做法在Weblogic Server 8.1中通過。

那么Weblogic Server為什么要把所有的應用程序的cookie路徑都設為/呢？原來是為了SSO，凡是共享這個session的應用程序都可以共享認證的信息。一個簡單的實驗就可以證明這一點，修改首先登錄的那個應用程序的描述符weblogic.xml，把cookie路徑修改為/appA訪問另外一個應用程序會重新要求登錄，即使是反過來，先訪問cookie路徑為/的應用程序，再訪問修改過路徑的這個，雖然不再提示登錄，但是登錄的用戶信息也會丟失。注意做這個實驗時認證方式應該使用FORM，因為瀏覽器和web服務器對basic認證方式有其他的處理方式，第二次請求的認證不是通過session來實現的。具體請參看[7] secion 14.8 Authorization，你可以修改所附的示例程序來做這些試驗。

八、總結
session機制本身并不復雜，然而其實現和配置上的靈活性卻使得具體情況復雜多變。這也要求我們不能把僅僅某一次的經驗或者某一個瀏覽器，服務器的經驗當作普遍適用的經驗，而是始終需要具體情況具體分析。

關于作者：
郎云鵬（dev2dev ID: hippiewolf），軟件工程師，從事J2EE開發
電子郵件：langyunpeng@yahoo.com.cn
地址：大連軟件園路31號科技大廈A座大連博涵咨詢服務有限公司

參考文檔：
[1] Preliminary Specification http://wp.netscape.com/newsref/std/cookie_spec.html
[2] RFC2109 http://www.rfc-editor.org/rfc/rfc2109.txt
[3] RFC2965 http://www.rfc-editor.org/rfc/rfc2965.txt
[4] The Unofficial Cookie FAQ http://www.cookiecentral.com/faq/
[5] http://e-docs.bea.com/wls/docs70/webapp/weblogic_xml.html#1036869
[6] http://e-docs.bea.com/wls/docs70/webapp/sessions.html#100770
[7] RFC2616 http://www.rfc-editor.org/rfc/rfc2616.txt

代碼下載：sampleApp.zip

posted @ 2006-09-19 14:35 java執著者閱讀(1183) | 評論 (1) | 編輯收藏

談談Unicode編碼，簡要解釋UCS、UTF、BMP、BOM等名詞

這是一篇程序員寫給程序員的趣味讀物。所謂趣味是指可以比較輕松地了解一些原來不清楚的概念，增進知識，類似于打RPG游戲的升級。整理這篇文章的動機是兩個問題：

問題一：?

使用Windows記事本的“另存為”，可以在GBK、Unicode、Unicode?big?endian和UTF-8這幾種編碼方式間相互轉換。同樣是txt文件，Windows是怎樣識別編碼方式的呢？

我很早前就發現Unicode、Unicode?big?endian和UTF-8編碼的txt文件的開頭會多出幾個字節，分別是FF、FE （Unicode）,FE、FF（Unicode?big?endian）,EF、BB、BF（UTF-8）。但這些標記是基于什么標準呢？

問題二：?

最近在網上看到一個ConvertUTF.c，實現了UTF-32、UTF-16和UTF-8這三種編碼方式的相互轉換。對于Unicode(UCS2)、 GBK、UTF-8這些編碼方式，我原來就了解。但這個程序讓我有些糊涂，想不起來UTF-16和UCS2有什么關系。?

查了查相關資料，總算將這些問題弄清楚了，順帶也了解了一些Unicode的細節。寫成一篇文章，送給有過類似疑問的朋友。本文在寫作時盡量做到通俗易懂，但要求讀者知道什么是字節，什么是十六進制。

0、big?endian和little?endian

big?endian 和little?endian是CPU處理多字節數的不同方式。例如“漢”字的Unicode編碼是6C49。那么寫到文件里時，究竟是將6C寫在前面，還是將49寫在前面？如果將6C寫在前面，就是big?endian。如果將49寫在前面，就是little?endian。

“endian”這個詞出自《格列佛游記》。小人國的內戰就源于吃雞蛋時是究竟從大頭(Big-Endian)敲開還是從小頭(Little-Endian)敲開，由此曾發生過六次叛亂，一個皇帝送了命，另一個丟了王位。

我們一般將endian翻譯成“字節序”，將big?endian和little?endian稱作“大尾”和“小尾”。

1、字符編碼、內碼，順帶介紹漢字編碼

字符必須編碼后才能被計算機處理。計算機使用的缺省編碼方式就是計算機的內碼。早期的計算機使用7位的ASCII編碼，為了處理漢字，程序員設計了用于簡體中文的GB2312和用于繁體中文的big5。

GB2312(1980年)一共收錄了7445個字符，包括6763個漢字和682個其它符號。漢字區的內碼范圍高字節從B0-F7，低字節從A1-FE，占用的碼位是72*94=6768。其中有5個空位是D7FA-D7FE。

GB2312支持的漢字太少。1995年的漢字擴展規范GBK1.0收錄了21886個符號，它分為漢字區和圖形符號區。漢字區包括21003個字符。

從ASCII、 GB2312到GBK，這些編碼方法是向下兼容的，即同一個字符在這些方案中總是有相同的編碼，后面的標準支持更多的字符。在這些編碼中，英文和中文可以統一地處理。區分中文編碼的方法是高字節的最高位不為0。按照程序員的稱呼，GB2312、GBK都屬于雙字節字符集?(DBCS)。

2000 年的GB18030是取代GBK1.0的正式國家標準。該標準收錄了27484個漢字，同時還收錄了藏文、蒙文、維吾爾文等主要的少數民族文字。從漢字字匯上說，GB18030在GB13000.1的20902個漢字的基礎上增加了CJK擴展A的6582個漢字（Unicode碼0x3400- 0x4db5），一共收錄了27484個漢字。

CJK就是中日韓的意思。Unicode為了節省碼位，將中日韓三國語言中的文字統一編碼。GB13000.1就是ISO/IEC?10646-1的中文版，相當于Unicode?1.1。

GB18030 的編碼采用單字節、雙字節和4字節方案。其中單字節、雙字節和GBK是完全兼容的。4字節編碼的碼位就是收錄了CJK擴展A的6582個漢字。?例如： UCS的0x3400在GB18030中的編碼應該是8139EF30，UCS的0x3401在GB18030中的編碼應該是8139EF31。

微軟提供了GB18030的升級包，但這個升級包只是提供了一套支持CJK擴展A的6582個漢字的新字體：新宋體-18030，并不改變內碼。Windows?的內碼仍然是GBK。

這里還有一些細節：

GB2312的原文還是區位碼，從區位碼到內碼，需要在高字節和低字節上分別加上A0。
對于任何字符編碼，編碼單元的順序是由編碼方案指定的，與endian無關。例如GBK的編碼單元是字節，用兩個字節表示一個漢字。?這兩個字節的順序是固定的，不受CPU字節序的影響。UTF-16的編碼單元是word（雙字節），word之間的順序是編碼方案指定的，word內部的字節排列才會受到 endian的影響。后面還會介紹UTF-16。
GB2312的兩個字節的最高位都是1。但符合這個條件的碼位只有 128*128=16384個。所以GBK和GB18030的低字節最高位都可能不是1。不過這不影響DBCS字符流的解析：在讀取DBCS字符流時，只要遇到高位為1的字節，就可以將下兩個字節作為一個雙字節編碼，而不用管低字節的高位是什么。

2、Unicode、UCS和UTF

前面提到從ASCII、GB2312、GBK到GB18030的編碼方法是向下兼容的。而Unicode只與ASCII兼容（更準確地說，是與ISO-8859-1兼容），與GB碼不兼容。例如“漢”字的Unicode編碼是6C49，而GB碼是BABA。

Unicode 也是一種字符編碼方法，不過它是由國際組織設計，可以容納全世界所有語言文字的編碼方案。Unicode的學名是"Universal?Multiple -Octet?Coded?Character?Set"，簡稱為UCS。UCS可以看作是"Unicode?Character?Set"的縮寫。

根據維基百科全書(http://zh.wikipedia.org/wiki/)的記載：歷史上存在兩個試圖獨立設計Unicode的組織，即國際標準化組織（ISO）和一個軟件制造商的協會（unicode.org）。ISO開發了ISO?10646項目，Unicode協會開發了Unicode項目。

在1991年前后，雙方都認識到世界不需要兩個不兼容的字符集。于是它們開始合并雙方的工作成果，并為創立一個單一編碼表而協同工作。從Unicode2.0開始，Unicode項目采用了與ISO?10646-1相同的字庫和字碼。

目前兩個項目仍都存在，并獨立地公布各自的標準。Unicode協會現在的最新版本是2005年的Unicode?4.1.0。ISO的最新標準是ISO?10646-3:2003。

UCS 只是規定如何編碼，并沒有規定如何傳輸、保存這個編碼。例如“漢”字的UCS編碼是6C49，我可以用4個ascii數字來傳輸、保存這個編碼；也可以用 utf-8編碼:3個連續的字節E6?B1?89來表示它。關鍵在于通信雙方都要認可。UTF-8、UTF-7、UTF-16都是被廣泛接受的方案。 UTF-8的一個特別的好處是它與ISO-8859-1完全兼容。UTF是“UCS?Transformation?Format”的縮寫。

IETF 的RFC2781和RFC3629以RFC的一貫風格，清晰、明快又不失嚴謹地描述了UTF-16和UTF-8的編碼方法。我總是記不得IETF是 Internet?Engineering?Task?Force的縮寫。但IETF負責維護的RFC是Internet上一切規范的基礎。

2.1、內碼和code?page

目前Windows的內核已經支持Unicode字符集，這樣在內核上可以支持全世界所有的語言文字。但是由于現有的大量程序和文檔都采用了某種特定語言的編碼，例如GBK，Windows不可能不支持現有的編碼，而全部改用Unicode。

Windows使用代碼頁(code?page)來適應各個國家和地區。code?page可以被理解為前面提到的內碼。GBK對應的code?page是CP936。

微軟也為GB18030定義了code?page：CP54936。但是由于GB18030有一部分4字節編碼，而Windows的代碼頁只支持單字節和雙字節編碼，所以這個code?page是無法真正使用的。

3、UCS-2、UCS-4、BMP

UCS有兩種格式：UCS-2和UCS-4。顧名思義，UCS-2就是用兩個字節編碼，UCS-4就是用4個字節（實際上只用了31位，最高位必須為0）編碼。下面讓我們做一些簡單的數學游戲：

UCS-2有2^16=65536個碼位，UCS-4有2^31=2147483648個碼位。

UCS -4根據最高位為0的最高字節分成2^7=128個group。每個group再根據次高字節分為256個plane。每個plane根據第3個字節分為 256行?(rows)，每行包含256個cells。當然同一行的cells只是最后一個字節不同，其余都相同。

group?0的plane?0被稱作Basic?Multilingual?Plane,?即BMP。或者說UCS-4中，高兩個字節為0的碼位被稱作BMP。

將UCS-4的BMP去掉前面的兩個零字節就得到了UCS-2。在UCS-2的兩個字節前加上兩個零字節，就得到了UCS-4的BMP。而目前的UCS-4規范中還沒有任何字符被分配在BMP之外。

4、UTF編碼

UTF-8就是以8位為單元對UCS進行編碼。從UCS-2到UTF-8的編碼方式如下：

UCS-2編碼(16進制)	UTF-8?字節流(二進制)
0000?-?007F	0xxxxxxx
0080?-?07FF	110xxxxx?10xxxxxx
0800?-?FFFF	1110xxxx?10xxxxxx?10xxxxxx

例如“漢”字的Unicode編碼是6C49。6C49在0800-FFFF之間，所以肯定要用3字節模板了： 1110 xxxx? 10 xxxxxx? 10 xxxxxx。將6C49寫成二進制是：0110?110001?001001，?用這個比特流依次代替模板中的x，得到： 1110 0110? 10 110001? 10 001001，即E6?B1?89。

讀者可以用記事本測試一下我們的編碼是否正確。需要注意，UltraEdit在打開utf-8編碼的文本文件時會自動轉換為UTF-16，可能產生混淆。你可以在設置中關掉這個選項。更好的工具是Hex?Workshop。

UTF -16以16位為單元對UCS進行編碼。對于小于0x10000的UCS碼，UTF-16編碼就等于UCS碼對應的16位無符號整數。對于不小于 0x10000的UCS碼，定義了一個算法。不過由于實際使用的UCS2，或者UCS4的BMP必然小于0x10000，所以就目前而言，可以認為UTF -16和UCS-2基本相同。但UCS-2只是一個編碼方案，UTF-16卻要用于實際的傳輸，所以就不得不考慮字節序的問題。

5、UTF的字節序和BOM

UTF -8以字節為編碼單元，沒有字節序的問題。UTF-16以兩個字節為編碼單元，在解釋一個UTF-16文本前，首先要弄清楚每個編碼單元的字節序。例如 “奎”的Unicode編碼是594E，“乙”的Unicode編碼是4E59。如果我們收到UTF-16字節流“594E”，那么這是“奎”還是 “乙”？

Unicode規范中推薦的標記字節順序的方法是BOM。BOM不是“Bill?Of?Material”的BOM表，而是Byte?Order?Mark。BOM是一個有點小聰明的想法：

在UCS 編碼中有一個叫做"ZERO?WIDTH?NO-BREAK?SPACE"的字符，它的編碼是FEFF。而FFFE在UCS中是不存在的字符，所以不應該出現在實際傳輸中。UCS規范建議我們在傳輸字節流前，先傳輸字符"ZERO?WIDTH?NO-BREAK?SPACE"。

這樣如果接收者收到FEFF，就表明這個字節流是Big-Endian的；如果收到FFFE，就表明這個字節流是Little-Endian的。因此字符"ZERO?WIDTH?NO-BREAK?SPACE"又被稱作BOM。

UTF -8不需要BOM來表明字節順序，但可以用BOM來表明編碼方式。字符"ZERO?WIDTH?NO-BREAK?SPACE"的UTF-8編碼是 EF?BB?BF（讀者可以用我們前面介紹的編碼方法驗證一下）。所以如果接收者收到以EF?BB?BF開頭的字節流，就知道這是UTF-8編碼了。

Windows就是使用BOM來標記文本文件的編碼方式的。

6、進一步的參考資料

本文主要參考的資料是?"Short?overview?of?ISO-IEC?10646?and?Unicode"?(http://www.nada.kth.se/i18n/ucs/unicode-iso10646-oview.html)。

我還找了兩篇看上去不錯的資料，不過因為我開始的疑問都找到了答案，所以就沒有看：

"Understanding?Unicode?A?general?introduction?to?the?Unicode?Standard"?(http://scripts.sil.org/cms/scrip ... S-Chapter04a)?
"Character?set?encoding?basics?Understanding?character?set?encodings?and?legacy?encodings"?(http://scripts.sil.org/cms/scrip ... WS-Chapter03)?

我寫過UTF-8、UCS-2、GBK相互轉換的軟件包，包括使用Windows?API和不使用Windows?API的版本。以后有時間的話，我會整理一下放到我的個人主頁上(http://fmddlmyy.home4u.china.com)。

我是想清楚所有問題后才開始寫這篇文章的，原以為一會兒就能寫好。沒想到考慮措辭和查證細節花費了很長時間，竟然從下午1:30寫到9:00。希望有讀者能從中受益。

附錄1?再說說區位碼、GB2312、內碼和代碼頁

有的朋友對文章中這句話還有疑問：
“GB2312的原文還是區位碼，從區位碼到內碼，需要在高字節和低字節上分別加上A0。”

我再詳細解釋一下：

“GB2312 的原文”是指國家1980年的一個標準《中華人民共和國國家標準?信息交換用漢字編碼字符集?基本集?GB?2312-80》。這個標準用兩個數來編碼漢字和中文符號。第一個數稱為“區”，第二個數稱為“位”。所以也稱為區位碼。1-9區是中文符號，16-55區是一級漢字，56-87區是二級漢字。現在 Windows也還有區位輸入法，例如輸入1601得到“啊”。（這個區位輸入法可以自動識別16進制的GB2312和10進制的區位碼，也就是說輸入 B0A1同樣會得到“啊”。）

內碼是指操作系統內部的字符編碼。早期操作系統的內碼是與語言相關的。現在的Windows在系統內部支持Unicode，然后用代碼頁適應各種語言，“內碼”的概念就比較模糊了。微軟一般將缺省代碼頁指定的編碼說成是內碼。

內碼這個詞匯，并沒有什么官方的定義，代碼頁也只是微軟這個公司的叫法。作為程序員，我們只要知道它們是什么東西，沒有必要過多地考證這些名詞。

所謂代碼頁(code?page)就是針對一種語言文字的字符編碼。例如GBK的code?page是CP936，BIG5的code?page是CP950，GB2312的code?page是CP20936。

Windows中有缺省代碼頁的概念，即缺省用什么編碼來解釋字符。例如Windows的記事本打開了一個文本文件，里面的內容是字節流：BA、BA、D7、D6。Windows應該去怎么解釋它呢？

是按照Unicode編碼解釋、還是按照GBK解釋、還是按照BIG5解釋，還是按照ISO8859-1去解釋？如果按GBK去解釋，就會得到“漢字”兩個字。按照其它編碼解釋，可能找不到對應的字符，也可能找到錯誤的字符。所謂“錯誤”是指與文本作者的本意不符，這時就產生了亂碼。

答案是Windows按照當前的缺省代碼頁去解釋文本文件里的字節流。缺省代碼頁可以通過控制面板的區域選項設置。記事本的另存為中有一項ANSI，其實就是按照缺省代碼頁的編碼方法保存。

Windows的內碼是Unicode，它在技術上可以同時支持多個代碼頁。只要文件能說明自己使用什么編碼，用戶又安裝了對應的代碼頁，Windows就能正確顯示，例如在HTML文件中就可以指定charset。

有的HTML文件作者，特別是英文作者，認為世界上所有人都使用英文，在文件中不指定charset。如果他使用了0x80-0xff之間的字符，中文 Windows又按照缺省的GBK去解釋，就會出現亂碼。這時只要在這個html文件中加上指定charset的語句，例如：
<meta?http-equiv="Content-Type"?content="text/html;?charset=ISO8859-1">
如果原作者使用的代碼頁和ISO8859-1兼容，就不會出現亂碼了。

再說區位碼，啊的區位碼是1601，寫成16進制是0x10,0x01。這和計算機廣泛使用的ASCII編碼沖突。為了兼容00-7f的ASCII編碼，我們在區位碼的高、低字節上分別加上A0。這樣“啊”的編碼就成為B0A1。我們將加過兩個A0的編碼也稱為GB2312編碼，雖然GB2312的原文根本沒提到這一點。

posted @ 2006-06-29 16:56 java執著者閱讀(1511) | 評論 (0) | 編輯收藏

[轉載]UTF-16

UTF-16是Unicode的其中一個使用方式。 UTF是 Unicode Translation Format，即把Unicode轉做某種格式的意思。

它定義于ISO/IEC 10646-1的附錄Q，而RFC2781也定義了相似的做法。

在Unicode基本多文種平面定義的字符（無論是拉丁字母、漢字或其他文字或符號），一律使用2字節儲存。而在輔助平面定義的字符，會以代理對（surrogate pair）的形式，以兩個2字節的值來儲存。

UTF-16比起UTF-8，好處在于大部分字符都以固定長度的字節 (2字節) 儲存，但UTF-16卻無法兼容于ASCII編碼。

UTF-16的編碼模式

UTF-16的大尾序和小尾序儲存形式都在用。一般來說，以Macintosh制作或儲存的文字使用大尾序格式，以Microsoft或Linux制作或儲存的文字使用小尾序格式。

為了弄清楚UTF-16文件的大小尾序，在UTF-16文件的開首，都會放置一個U+FEFF字符作為Byte Order Mark (UTF-16LE 以 FF FE 代表，UTF-16BE 以 FE FF 代表)，以顯示這個文字檔案是以UTF-16編碼。

以下的例子有四個字符：“朱”、半角逗號、“聿”、“??”。

使用 UTF-16 編碼的例子
編碼名稱	編碼次序	編碼
UTF-16LE	小尾序	31 67, 2C 00, 7F 80, 62 D8 81 DF
UTF-16BE	大尾序	67 31, 00 2C, 80 7F, D8 62 DF 81
UTF-16	小尾序，包含BOM	FF FE, 31 67, 2C 00, 7F 80, 62 D8 81 DF
UTF-16	大尾序，包含BOM	FE FF, 67 31, 00 2C, 80 7F, D8 62 DF 81

UTF-16 與 UCS-2 的關系

UTF-16可看成是UCS-2的父集。在沒有輔助平面字符前，UTF-16與UCS-2所指的是同一的意思。但當引入輔助平面字符后，就只稱為UTF-16了。現在若有軟件聲稱自己支援UCS-2編碼，那其實是暗指它不能支援輔助平面字符的委婉語。

posted @ 2006-06-29 16:51 java執著者閱讀(2014) | 評論 (0) | 編輯收藏

[轉載]UTF-8 字符集基礎

字符集簡史

在所有字符集中，最知名可能要數被稱為ASCII的7位字符集了。它是美國信息交換標準委員會（American?Standards?Committee?for?Information?Interchange）的縮寫,?為美國英語通信所設計。它由128個字符組成，包括大小寫字母、數字0-9、標點符號、非打印字符（換行符、制表符等4個）以及控制字符（退格、響鈴等）組成。

但是，由于他是針對英語設計的，當處理帶有音調標號（形如漢語的拼音）的歐洲文字時就會出現問題。因此，創建出了一些包括255個字符的由ASCII擴展的字符集。其中有一種通常被成為IBM字符集，它把值為128-255之間的字符用于畫圖和畫線，以及一些特殊的歐洲字符。另一種8位字符集是 ISO?8859-1?Latin?1，也簡稱為ISO?Latin-1。它把位于128-255之間的字符用于拉丁字母表中特殊語言字符的編碼，也因此而得名。

歐洲語言不是地球上的唯一語言，因此亞洲和非洲語言并不能被8位字符集所支持。僅漢語（或pictograms）字母表就有80000以上個字符。但是把漢語、日語和越南語的一些相似的字符結合起來，在不同的語言里，使不同的字符代表不同的字，這樣只用2個字節就可以編碼地球上幾乎所有地區的文字。因此，創建了UNICODE編碼。它通過增加一個高字節對 ISO?Latin-1字符集進行擴展，當這些高字節位為0時，低字節就是ISO?Latin-1字符。UNICODE支持歐洲、非洲、中東、亞洲（包括統一標準的東亞像形漢字和韓國像形文字）。但是，UNICODE并沒有提供對諸如Braille,?Cherokee,?Ethiopic, ?Khmer,?Mongolian,?Hmong,?Tai?Lu,?Tai?Mau文字的支持。同時它也不支持如Ahom,?Akkadian, ?Aramaic,?Babylonian?Cuneiform,?Balti,?Brahmi,?Etruscan,?Hittite,?Javanese, ?Numidian,?Old?Persian?Cuneiform,?Syrian之類的古老的文字。

事實證明，對可以用ASCII表示的字符使用UNICODE并不高效，因為UNICODE比ASCII占用大一倍的空間，而對ASCII來說高字節的0對他毫無用處。為了解決這個問題，就出現了一些中間格式的字符集，他們被稱為通用轉換格式，既UTF （Universal?Transformation?Format）。目前存在的UTF格式有：UTF-7,?UTF-7.5,?UTF-8,?UTF -16,?以及?UTF-32。本文討論UTF-8字符集的基礎。

UTF_8字符集

UTF -8是UNICODE的一種變長字符編碼，由Ken?Thompson于1992年創建。現在已經標準化為RFC?3629。UTF-8用1到6個字節編碼UNICODE字符。如果UNICODE字符由2個字節表示，則編碼成UTF-8很可能需要3個字節，而如果UNICODE字符由4個字節表示，則編碼成UTF-8可能需要6個字節。用4個或6個字節去編碼一個UNICODE字符可能太多了，但很少會遇到那樣的UNICODE字符。

UFT-8轉換表表示如下：

UNICODE?UTF-8?
00000000?-?0000007F?0xxxxxxx?
00000080?-?000007FF?110xxxxx?10xxxxxx?
00000800?-?0000FFFF?1110xxxx?10xxxxxx?10xxxxxx?
00010000?-?001FFFFF?11110xxx?10xxxxxx?10xxxxxx?10xxxxxx?
00200000?-?03FFFFFF?111110xx?10xxxxxx?10xxxxxx?10xxxxxx?10xxxxxx?
04000000?-?7FFFFFFF?1111110x?10xxxxxx?10xxxxxx?10xxxxxx?10xxxxxx?10xxxxxx?

實際表示ASCII字符的UNICODE字符，將會編碼成1個字節，并且UTF-8表示與ASCII字符表示是一樣的。所有其他的UNCODE字符轉化成 UTF-8將需要至少2個字節。每個字節由一個換碼序列開始。第一個字節由唯一的換碼序列，由n位1加一位0組成。n位1表示字符編碼所需的字節數。

示例

UNICODE?uCA(11001010)?編碼成UTF-8將需要2個字節：

uCA?->?C3?8A

1100?1010
110xxxxx?10xxxxxx

1100?1010?->?110xxxxx?10xxxxxx
->?110xxxxx?10xxxxx0
->?110xxxxx?10xxxx10
->?110xxxxx?10xxx010
->?110xxxxx?10xx1010
->?110xxxxx?10x01010
->?110xxxxx?10001010
->?110xxxx1?10001010
->?110xxx11?10001010
->?11000011?10001010
->?C3?8A

UNICODE?uF03F?(11110000?00111111)?編碼成UTF-8將需要3個字節:

u?F03F?->?EF?80?BF

1111?0000?0011?1111?->?1110xxxx?10xxxxxx?10xxxxxx
->?11101111?10000000?10111111
->?EF?80?BF

譯者注：由上分析可以看到，UNCODE到UTF-8的轉換就是先確定編碼所需要的字節數，然后用UNICODE編碼位從低位到高位依次填入上面表示為x的位上，不足的高位以0補充。以上是個人經驗，如有錯誤，請不惜指教，謝過先:)

UTF-8編碼的優點：

UTF-8編碼可以通過屏蔽位和移位操作快速讀寫。
字符串比較時strcmp()和wcscmp()的返回結果相同，因此使排序變得更加容易。
字節FF和FE在UTF-8編碼中永遠不會出現，因此他們可以用來表明UTF-16或UTF-32文本（見BOM）
UTF-8?是字節順序無關的。它的字節順序在所有系統中都是一樣的，因此它實際上并不需要BOM。

UTF-8編碼的缺點：

你無法從UNICODE字符數判斷出UTF-8文本的字節數，因為UTF-8是一種變長編碼
它需要用2個字節編碼那些用擴展ASCII字符集只需1個字節的字符
ISO?Latin-1?是UNICODE的子集，但不是UTF-8的子集
8位字符的UTF-8編碼會被email網關過濾，因為internet信息最初設計為7為ASCII碼。因此產生了UTF-7編碼。
UTF-8?在它的表示中使用值100xxxxx的幾率超過50%，?而現存的實現如ISO?2022，?4873，?6429，?和8859系統，會把它錯認為是C1?控制碼。因此產生了UTF-7.5編碼。

修正的UTF-8：

java使用UTF-16表示內部文本，并支持用于字符串串行化的非標準的修正UTF-8編碼。標準UTF-8和修正的UTF-8有兩點不同：
修正的UTF-8中，null字符編碼成2個字節（11000000?00000000）?而不是標準的1個字節（00000000），這樣作可以保證編碼后的字符串中不會嵌入null字符。因此如果在類C語言中處理字符串，文本不會在第一個null字符時截斷（C字符串以null結尾）。
在標準 UTF-8編碼中，超出基本多語言范圍（BMP?-?Basic?Multilingual?Plain）的字符被編碼為4字節格式，但是在修正的UTF -8編碼中，他們由代理編碼對（surrogate?pairs）表示，然后這些代理編碼對在序列中分別重新編碼。結果標準UTF-8編碼中需要4個字節的字符，在修正后的UTF-8編碼中將需要6個字節。

位序標志BOM

BOM（Byte?Order?Mark）是一個字符，它表明UNICODE文本的UTF-16,UTF-32的編碼字節順序（高字節低字節順序）和編碼方式（UTF-8,UTF-16,UTF-32，?其中UTF-8編碼是字節順序無關的）。

如下所示：

Encoding?Representation?
UTF-8?EF?BB?BF?
UTF-16?Big?Endian?FE?FF?
UTF-16?Little?Endian?FF?FE?
UTF-32?Big?Endian?00?00?FE?FF
UTF-32?Little?Endian?FF?FE?00?00

UTF-8?C++?程序編碼示例：

下面是四個C++函數，他們分別實現2字節和4字節UNICODE和UTF-8之間的轉換。

#define?MASKBITS?0x3F
#define?MASKBYTE?0x80
#define?MASK2BYTES?0xC0
#define?MASK3BYTES?0xE0
#define?MASK4BYTES?0xF0
#define?MASK5BYTES?0xF8
#define?MASK6BYTES?0xFC

typedef?unsigned?short?Unicode2Bytes;
typedef?unsigned?int?Unicode4Bytes;

void?UTF8Encode2BytesUnicode(std::vector<?Unicode2Bytes?>?input,
std::vector<?byte?>&?output)
{
for(int?i=0;?i?<?input.size();?i++)
{
//?0xxxxxxx
if(input?<?0x80)
{
output.push_back((byte)input);
}
//?110xxxxx?10xxxxxx
else?if(input?<?0x800)
{
output.push_back((byte)(MASK2BYTES?|?input?>>?6));
output.push_back((byte)(MASKBYTE?|?input?&?MASKBITS));
}
//?1110xxxx?10xxxxxx?10xxxxxx
else?if(input?<?0x10000)
{
output.push_back((byte)(MASK3BYTES?|?input?>>?12));
output.push_back((byte)(MASKBYTE?|?input?>>?6?&?MASKBITS));
output.push_back((byte)(MASKBYTE?|?input?&?MASKBITS));
}
}
}

void?UTF8Decode2BytesUnicode(std::vector<?byte?>?input,
std::vector<?Unicode2Bytes?>&?output)
{
for(int?i=0;?i?<?input.size();)
{
Unicode2Bytes?ch;

//?1110xxxx?10xxxxxx?10xxxxxx
if((input?&?MASK3BYTES)?==?MASK3BYTES)
{
ch?=?((input?&?0x0F)?<<?12)?|?(
(input[i+1]?&?MASKBITS)?<<?6)
|?(input[i+2]?&?MASKBITS);
i?+=?3;
}
//?110xxxxx?10xxxxxx
else?if((input?&?MASK2BYTES)?==?MASK2BYTES)
{
ch?=?((input?&?0x1F)?<<?6)?|?(input[i+1]?&?MASKBITS);
i?+=?2;
}
//?0xxxxxxx
else?if(input?<?MASKBYTE)
{
ch?=?input;
i?+=?1;
}

output.push_back(ch);
}
}

void?UTF8Encode4BytesUnicode(std::vector<?Unicode4Bytes?>?input,
std::vector<?byte?>&?output)
{
for(int?i=0;?i?<?input.size();?i++)
{
//?0xxxxxxx
if(input?<?0x80)
{
output.push_back((byte)input);
}
//?110xxxxx?10xxxxxx
else?if(input?<?0x800)
{
output.push_back((byte)(MASK2BYTES?|?input?>?6));
output.push_back((byte)(MASKBYTE?|?input?&?MASKBITS));
}
//?1110xxxx?10xxxxxx?10xxxxxx
else?if(input?<?0x10000)
{
output.push_back((byte)(MASK3BYTES?|?input?>>?12));
output.push_back((byte)(MASKBYTE?|?input?>>?6?&?MASKBITS));
output.push_back((byte)(MASKBYTE?|?input?&?MASKBITS));
}
//?11110xxx?10xxxxxx?10xxxxxx?10xxxxxx
else?if(input?<?0x200000)
{
output.push_back((byte)(MASK4BYTES?|?input?>>?18));
output.push_back((byte)(MASKBYTE?|?input?>>?12?&?MASKBITS));
output.push_back((byte)(MASKBYTE?|?input?>>?6?&?MASKBITS));
output.push_back((byte)(MASKBYTE?|?input?&?MASKBITS));
}
//?111110xx?10xxxxxx?10xxxxxx?10xxxxxx?10xxxxxx
else?if(input?<?0x4000000)
{
output.push_back((byte)(MASK5BYTES?|?input?>>?24));
output.push_back((byte)(MASKBYTE?|?input?>>?18?&?MASKBITS));
output.push_back((byte)(MASKBYTE?|?input?>>?12?&?MASKBITS));
output.push_back((byte)(MASKBYTE?|?input?>>?6?&?MASKBITS));
output.push_back((byte)(MASKBYTE?|?input?&?MASKBITS));
}
//?1111110x?10xxxxxx?10xxxxxx?10xxxxxx?10xxxxxx?10xxxxxx
else?if(input?<?0x8000000)
{
output.push_back((byte)(MASK6BYTES?|?input?>>?30));
output.push_back((byte)(MASKBYTE?|?input?>>?18?&?MASKBITS));
output.push_back((byte)(MASKBYTE?|?input?>>?12?&?MASKBITS));
output.push_back((byte)(MASKBYTE?|?input?>>?6?&?MASKBITS));
output.push_back((byte)(MASKBYTE?|?input?&?MASKBITS));
}
}
}

void?UTF8Decode4BytesUnicode(std::vector<?byte?>?input,
std::vector<?Unicode4Bytes?>&?output)
{
for(int?i=0;?i?<?input.size();)
{
Unicode4Bytes?ch;

//?1111110x?10xxxxxx?10xxxxxx?10xxxxxx?10xxxxxx?10xxxxxx
if((input?&?MASK6BYTES)?==?MASK6BYTES)
{
ch?=?((input?&?0x01)?<<?30)?|?((input[i+1]?&?MASKBITS)?<<?24)
|?((input[i+2]?&?MASKBITS)?<<?18)?|?((input[i+3]
&?MASKBITS)?<<?12)
|?((input[i+4]?&?MASKBITS)?<<?6)?|?(input[i+5]?&?MASKBITS);
i?+=?6;
}
//?111110xx?10xxxxxx?10xxxxxx?10xxxxxx?10xxxxxx
else?if((input?&?MASK5BYTES)?==?MASK5BYTES)
{
ch?=?((input?&?0x03)?<<?24)?|?((input[i+1]
&?MASKBITS)?<<?18)
|?((input[i+2]?&?MASKBITS)?<<?12)?|?((input[i+3]
&?MASKBITS)?<<?6)
|?(input[i+4]?&?MASKBITS);
i?+=?5;
}
//?11110xxx?10xxxxxx?10xxxxxx?10xxxxxx
else?if((input?&?MASK4BYTES)?==?MASK4BYTES)
{
ch?=?((input?&?0x07)?<<?18)?|?((input[i+1]
&?MASKBITS)?<<?12)
|?((input[i+2]?&?MASKBITS)?<<?6)?|?(input[i+3]?&?MASKBITS);
i?+=?4;
}
//?1110xxxx?10xxxxxx?10xxxxxx
else?if((input?&?MASK3BYTES)?==?MASK3BYTES)
{
ch?=?((input?&?0x0F)?<<?12)?|?((input[i+1]?&?MASKBITS)?<<?6)
|?(input[i+2]?&?MASKBITS);
i?+=?3;
}
//?110xxxxx?10xxxxxx
else?if((input?&?MASK2BYTES)?==?MASK2BYTES)
{
ch?=?((input?&?0x1F)?<<?6)?|?(input[i+1]?&?MASKBITS);
i?+=?2;
}
//?0xxxxxxx
else?if(input?<?MASKBYTE)
{
ch?=?input;
i?+=?1;
}
output.push_back(ch);
}
}

限譯者水平有限，有不解之處請參考原文。版權屬原文作者所有，轉載請注明出處及作者。

原文參見：http://www.codeguru.com/Cpp/misc ... article.php/c10451/

posted @ 2006-06-29 16:00 java執著者閱讀(2236) | 評論 (0) | 編輯收藏

新的技術--開發者挑戰

現在的開發技術的發展的速度比起開發者的學習速度不知道要快多少，每隔一兩天就會有一個開源的工程誕生，學習如何去使用這些開源的工程不如學習一下其中的思想。比如Hibernate，ibatis等ORM等framework它只不過是幫你擺脫那些DAO模式為每個數據對象作一個DAO對象專門來負責數據庫操作，你可以用一個統一的接口來進行數據庫的操作。與其去專研如何去配置，如何去使用還不如去好好的研究一些他所體現的一些思想，比如數據庫查詢的優化，利用緩存機制，數據庫連接池等等。
還有就是spring，它到底體現了什么是用來替換現在的J2EE的技術，不，就連spring的作者都說是在合時的情況下使用合適的技術，一句看似空洞的話卻包含了深意。spring的核心思想在我看來就是DI，他在其他的open source的項目的基礎上加以抽象，比如他提供了spring mvc--可以去使用底層的web mvc可以有很多，但是現在可以用一個統一的接口來調用，底層的實現機制與上層無關，這不證實了分層開發的思想嗎，DI的思想正是用接口編程。
技術的快速的發展，給開發者帶了很多的學習的難度，但是開發者如何來面對這種挑戰，與其掌握如何去使用還不如去掌握它的思想。只有掌握了思想是用時才會有更深的理解。

posted @ 2006-03-27 17:00 java執著者閱讀(1033) | 評論 (0) | 編輯收藏

BlogJava

今天來了BlogJava開了自己的Bolg，工作了一年，在公司中用java的機會并不是很多，但是在有限的幾個項目中我都選擇了java作為我的開發語言，并且用了許多開源的java的工具，Hibernate，Ant，Log4J，Dom4j等等，我是一個追求新事物的人，對于眼前那許許多多的java的開源的項目，我也有些茫然。然而上個禮拜去Sybase公司面試的經歷，卻讓我重新認識了原來我懂得盡然是那么少。Java的本質是什么，JVM是怎么工作的，gc是怎么工作的，ClassLoad是什么樣的，現在的程序員有幾個人能真正回答的完整的，也許很少。看著那些滔滔不絕說出現了什么新技術的人，我只有暗地里感到，我真的想奉勸那些朋友有空好好去看看JVM的書，不要滿口說什么新的技術。

posted @ 2006-03-08 20:52 java執著者閱讀(1051) | 評論 (0) | 編輯收藏

Java

常用鏈接

留言簿(1)

隨筆檔案

搜索

最新評論

閱讀排行榜

評論排行榜