亚洲AV成人精品日韩一区18p,2020天堂在线亚洲精品专区,国产美女亚洲精品久久久综合

深入剖析JSP和Servlet对中文的处理

Sayyid — Mon, 22 May 2006 09:01:00 GMT

深入剖析JSP和Servlet对中文的处理

作者：未知来源�Q��{�?a >http://www.sucai.com/article/show.asp?id=8142

世界上的各地区都有本地的语言。地区差异直接导致了语言环境的差异。在开发一个国际化�E�序的过�E�中�Q�处理语�a�问题��显得很重要了�?

　　�q�是一个世界范围内都存在的问题�Q�所以，Java提供了世界性的解决�Ҏ��。本文描�q�的�Ҏ��是用于处理中文的�Q�但是，推而广之，对于处理世界上其它国家和地区的语�a�同样适用�?/p>

　　汉字是双字节的。所谓双字节是指一个双字要占用两个BYTE的位�|�（�?6位）�Q�分别称为高位和低位。中国规定的汉字�~�码为GB2312�Q�这是强制性的�Q�目前几乎所有的能处理中文的应用�E�序都支持GB2312。GB2312包括了一二��汉字�?区符��P��高位�?xa1�?xfe�Q�低位也是从0xa1�?xfe�Q�其中，汉字的编码范围�ؓ0xb0a1�?xf7fe�?/p>

　　另外有一�U�编码，叫做GBK�Q�但�q�是一份规范，不是强制的。GBK提供�?0902个汉字，它兼容GB2312�Q�编码范围�ؓ0x8140�?xfefe。GBK中的所有字�W�都可以一一映射到Unicode 2.0�?/p>

　　在不久的��来�Q�中国会颁布另一�U�标准：GB18030-2000�Q�GBK2K�Q�。它收录了藏、蒙�{�少数民族的字型�Q�从�Ҏ��上解决了字位不��的问题。注意：它不再是定长的。其二字节部份与GBK兼容�Q�四字节部分是扩充的字符、字形。它的首字节和第三字节从0x81�?xfe�Q�二字节和第四字节从0x30�?x39�?/p>

　　本文不打��介�l�Unicode�Q�有兴趣的可以浏览“http://www.unicode.org/”查看更多的信息。Unicode有一个特性：它包括了世界上所有的字符字�Ş。所以，各个地区的语�a�都可以徏立与Unicode的映��关�p�，而Java正是利用了这一点以辑ֈ�异种语言之间的�{换�?/p>

　　在JDK中，与中文相关的�~�码有：

　　�?　JDK中与中文相关的编码列�?br />

�~�码名称	说明
ASCII	7位，与ascii7相同
ISO8859-1	8-位，�?8859_1,ISO-8859-1,ISO_8859-1,latin1...�{�相�?/td>
GB2312-80	16位，与gb2312,gb2312-1980,EUC_CN,euccn,1381,Cp1381, 1383, Cp1383, ISO2022CN,ISO2022CN_GB...�{�相�?/td>
GBK	与MS936相同�Q�注意：区分大小�?/td>
UTF8	与UTF-8相同
GB18030	与cp1392�?392相同�Q�目前支持的JDK很少

　　在实际编�E�时�Q�接触得比较多的是GB2312�Q�GBK�Q�和ISO8859-1�?/p>

　　��Z��么会有�?”号

　　上文说过�Q�异�U�语�a�之间的�{换是通过Unicode来完成的。假设有两种不同的语�a�A和B�Q��{换的步骤为：先把A转化为Unicode�Q�再把Unicode转化为B�?/p>

　　举例说明。有GB2312中有一个汉字“李”，其编码�ؓ“C0EE”，�Ʋ�{化�ؓISO8859-1�~�码。步骤�ؓ�Q�先把“李”字转化为Unicode�Q�得到�?74E”，再把�?74E”�{化�ؓISO8859-1字符。当�Ӟ��q�个映射不会成功�Q�因为ISO8859-1中根本就没有与�?74E”对应的字符�?/p>

　　当映��不成功�Ӟ��问题��发生了�Q�当从某语言向Unicode转化�Ӟ��如果在某语言中没有该字符�Q�得到的��是Unicode的代码“\uffffd”（“\u”表�C�是Unicode�~�码�Q�）。而从Unicode向某语言转化�Ӟ��如果某语�a�没有对应的字�W�，则得到的是�?x3f”（�?”）。这��是�?”的由来�?/p>

　　例如�Q�把字符��buf =�?x80 0x40 0xb0 0xa1”进行new String(buf, "gb2312")操作�Q�得到的�l�果是“\ufffd\u554a”，再println出来�Q�得到的�l�果��是�?啊”，因�ؓ�?x80 0x40”是GBK中的字符�Q�在GB2312中没有�?/p>

　　再如�Q�把字符串String="\u00d6\u00ec\u00e9\u0046\u00bb\u00f9"�q�行new String (buf.getBytes("GBK"))操作�Q�得到的�l�果是�?fa8aca8a6463fa8b4”，其中�Q�“\u00d6”在“GBK”中没有对应的字�W�，得到�?f”，“\u00ec”对应着“a8ac”，“\u00e9”对应着“a8a6”，�?046”对应着�?6”（因�ؓ�q�是ASCII字符�Q�，“\u00bb”没扑ֈ��Q�得到�?f”，最后，“\u00f9”对应着“a8b4”。把�q�个字符串println一下，得到的结果是�?ìéF?ù”。看到没�Q�这里�ƈ不全是问��P��因�ؓGBK与Unicode映射的内容中除了汉字外还有字�W�，本例��是最好的明证�?/p>

　　所以，在汉字�{码时�Q�如果发生错乱，得到的不一定都是问号噢�Q�不�q�，错了�l�究是错了，50步和100步�ƈ没有质的差别�?/p>

　　或者会问：如果源字�W�集中有�Q�而Unicode中没有，�l�果会如何？回答是不知道。因为我手头没有能做�q�个��试的源字符集。但有一�Ҏ��肯定的，那就是源字符集不够规范。在Java中，如果发生�q�种情况�Q�是会抛出异常的�?br />
　　什么是UTF

　　UTF�Q�是Unicode Text Format的羃写，意�ؓUnicode文本格式。对于UTF�Q�是�q�样定义的：

　　�Q?�Q�如果Unicode�?6位字�W�的�?位是0�Q�则用一个字节表�C�，�q�个字节的首位是�?”，剩下�?位与原字�W�中的后7位相同，如“\u0034”（0000 0000 0011 0100�Q�，用�?4�?(0011 0100)表示�Q�（与源Unicode字符是相同的�Q�；

　　�Q?�Q�如果Unicode�?6位字�W�的�?位是0�Q�则�?个字节表�C�，首字节是�?10”开��_��后面�?位与源字�W�中除去�?个零后的最�?位相同；�W�二个字节以�?0”开��_��后面�?位与源字�W�中的低6位相同。如“\u025d”（0000 0010 0101 1101�Q�，转化后�ؓ“c99d”（1100 1001 1001 1101�Q�；

　　�Q?�Q�如果不�W�合上述两个规则�Q�则用三个字节表�C�。第一个字节以�?110”开��_��后四位�ؓ源字�W�的高四位；�W�二个字节以�?0”开��_��后六位�ؓ源字�W�中间的六位�Q�第三个字节以�?0”开��_��后六位�ؓ源字�W�的低六位；如“\u9da7”（1001 1101 1010 0111�Q�，转化为“e9b6a7”（1110 1001 1011 0110 1010 0111�Q�；

　　可以�q�么描述JAVA�E�序中Unicode与UTF的关�p�，虽然不绝对：字符串在内存中运行时�Q�表��CؓUnicode代码�Q�而当要保存到文�g或其它介质中��L��Q�用的是UTF。这个�{化过�E�是由writeUTF和readUTF来完成的�?/p>

　　好了�Q�基��性的��差不多了�Q�下面进入正题�?/p>

　　先把�q�个问题��x��是一个黑匣子。先看黑匣子的一�U�表�C�：

input(charsetA)->process(Unicode)->output(charsetB)

　　��单，�q�就是一个IPO模型�Q�即输入、处理和输出。同��L��内容要经�q�“从charsetA到unicode再到charsetB”的转化�?/p>

　　再看二��表示�Q?/p>

SourceFile(jsp,java)->class->output

　　在这个图中，可以看出�Q�输入的是jsp和java源文�Ӟ��在处理过�E�中�Q�以Class文�g��体，然后输出。再�l�化��C��U�表�C�：

jsp->temp file->class->browser,os console,db

app,servlet->class->browser,os console,db

　　�q�个囑ְ�更明白了。Jsp文�g先生成中间的Java文�g�Q�再生成Class。而Servlet和普通App则直接编译生成Class。然后，从Class再输出到��览器、控制台或数据库�{��?/p>

　　JSP�Q�从源文件到Class的过�E?/p>

　　Jsp的源文�g是以�?jsp”结��文本文�g。在本节中，��阐�q�JSP文�g的解释和�~�译�q�程�Q��ƈ跟踪其中的中文变化�?/p>

　　1、JSP/Servlet引擎提供的JSP转换工具�Q�jspc�Q�搜索JSP文�g中用<%@ page contentType ="text/html; charset="%>中指定的charset。如果在JSP文�g中未指定�Q�则取JVM中的默认讄��file.encoding�Q�一般情况下�Q�这个值是ISO8859-1�Q?/p>

　　2、jspc用相当于“javac –encoding ”的命��o解释JSP文�g中出现的所有字�W�，包括中文字符和ASCII字符�Q�然后把�q�些字符转换成Unicode字符�Q�再转化成UTF格式�Q�存为JAVA文�g。ASCII码字�W��{化�ؓUnicode字符时只是简单地在前面加�?0”，如“A”，转化为“\u0041”（不需要理由，Unicode的码表就是这么编的）。然后，�l�过到UTF的�{换，又变回�?1”了�Q�这也就是可以��用普通文本编辑器查看由JSP生成的JAVA文�g的原因；

　　3、引擎用相当于“javac –encoding UNICODE”的命��o�Q�把JAVA文�g�~�译成CLASS文�g�Q?/p>

　　先看一下这些过�E�中中文字符的�{换情��c��有如下源代码：

<%@ page contentType="text/html; charset=gb2312"%>

<%
　String a="中文";
　out.println(a);
%>

　　�q�段代码是在UltraEdit for Windows上编写的。保存后�Q�“中文”两个字�?6�q�制�~�码为“D6 D0 CE C4”（GB2312�~�码�Q�。经查表�Q�“中文”两字的Unicode�~�码为“\u4E2D\u6587”，�?UTF表示��是“E4 B8 AD E6 96 87”。打开引擎生成的由JSP文�g转变而成的JAVA文�g�Q�发现其中的“中文”两个字��实被“E4 B8 AD E6 96 87”替代了�Q�再查看由JAVA文�g�~�译生成的CLASS文�g�Q�发现结果与JAVA文�g中的完全一栗��?/p>

　　再看JSP中指定的CharSet为ISO-8859-1的情��c�?/p>

<%@ page contentType="text/html; charset=ISO-8859-1"%>

<%
　String a="中文";
　out.println(a);
%>

　　同样�Q�该文�g是用UltraEdit�~�写的，“中文”这两个字也是存为GB2312�~�码“D6 D0 CE C4”。先模拟一下生成的JAVA文�g和CLASS文�g的过�E�：jspc用ISO-8859-1来解释“中文”，�q�把它映��到Unicode。由于ISO-8859-1�?位的�Q�且是拉丁语�p�，其映��规则就是在每个字节前加�?0”，所以，映射后的Unicode�~�码应�ؓ“\u00D6\u00D0\u00CE\u00C4”，转化成UTF后应该是“C3 96 C3 90 C3 8E C3 84”。好�Q�打开文�g看一下，JAVA文�g和CLASS文�g中，“中文”果焉��表示为“C3 96 C3 90 C3 8E C3 84”�?/p>

　　如果上述代码中不指定�Q�即把第一行写成�?lt;%@ page contentType="text/html" %>”，JSPC会��用file.encoding的设�|�来解释JSP文�g。在RedHat 6.2上，其处理结果与指定为ISO-8859-1是完全相同的�?/p>

　　到现在�ؓ止，已经解释了从JSP文�g到CLASS文�g的�{变过�E�中中文字符的映��过�E�。一句话�Q�从“JspCharSet到Unicode再到UTF”。下表�ȝ��了这个过�E�：

　　�?　“中文”从JSP到CLASS的�{化过�E?br />

Jsp-CharSet	JSP文�g�?/td>	JAVA文�g�?/td>	CLASS文�g�?/td>
GB2312	D6 D0 CE C4(GB2312)	从\u4E2D\u6587(Unicode)到E4 B8 AD E6 96 87 (UTF)	E4 B8 AD E6 96 87 (UTF)
ISO-8859-1	D6 D0 CE C4 (GB2312)	从\u00D6\u00D0\u00CE\u00C4 (Unicode)到C3 96 C3 90 C3 8E C3 84 (UTF)	C3 96 C3 90 C3 8E C3 84 (UTF)
无（默认�Q�file.encoding�Q?/td>	同ISO-8859-1	同ISO-8859-1	同ISO-8859-1

　　下节先讨论Servlet从JAVA文�g到CLASS文�g的�{化过�E�，然后再解释从CLASS文�g如何输出到客��L��。之所以这样安排，是因为JSP和Servlet在输出时处理�Ҏ��是一��L��?

　　Servlet�Q�从源文件到Class的过�E?/p>

　　Servlet源文件是以�?java”结��文本文�g。本节将讨论Servlet的编译过�E��ƈ跟踪其中的中文变化�?/p>

　　用“javac”编译Servlet源文件。javac可以带�?encoding ”参敎ͼ�意思是“用< Compile-charset >中指定的�~�码来解释Serlvet源文件”�?/p>

　　源文件在�~�译�Ӟ��?lt;Compile-charset>来解释所有字�W�，包括中文字符和ASCII字符。然后把字符帔R��转变成Unicode字符�Q�最后，把Unicode转变成UTF�?/p>

　　在Servlet中，�q�有一个地方设�|�输出流的CharSet。通常在输出结果前�Q�调用HttpServletResponse的setContentType�Ҏ��来达��C��在JSP中设�|?lt;Jsp-charset>一��L��效果�Q�称之�ؓ�?/p>

　　注意�Q�文中一共提��C��三个变量�Q?lt;Jsp-charset>�?lt;Compile-charset>�?lt;Servlet-charset>。其中，JSP文�g只与有关�Q��?lt;Compile-charset>�?lt;Servlet-charset>只与Servlet有关�?/p>

　　看下例：

import javax.servlet.*;

import javax.servlet.http.*;

class testServlet extends HttpServlet
{
　public void doGet(HttpServletRequest req,HttpServletResponse resp)
　throws ServletException,java.io.IOException
　{
　　resp.setContentType("text/html; charset=GB2312");
　　java.io.PrintWriter out=resp.getWriter();
　　out.println("");
　　out.println("#中文#");
　　out.println("");
　}
}

　　该文件也是用UltraEdit for Windows�~�写的，其中的“中文”两个字保存为“D6 D0 CE C4”（GB2312�~�码�Q��?/p>

　　开始编译。下表是不同�Ӟ��CLASS文�g中“中文”两字的十六�q�制码。在�~�译�q�程中，不�v��M��作用�?lt;Servlet-charset>只对CLASS文�g的输��Z�生媄响，实际上是�?lt;Compile-charset>一��P��辑ֈ�与JSP文�g中的相同的效果，因�ؓ对编译和CLASS文�g的输出都会��生媄响�?/p>

　　�?　“中文”从Servlet源文件到Class的�{变过�E?br />

Compile-charset	Servlet源文件中	Class文�g�?/td>	�{�效的Unicode�?/td>
GB2312	D6 D0 CE C4 (GB2312)	E4 B8 AD E6 96 87 (UTF)	\u4E2D\u6587 (在Unicode中＝“中文�?
ISO-8859-1	D6 D0 CE C4 (GB2312)	C3 96 C3 90 C3 8E C3 84 (UTF)	\u00D6 \u00D0 \u00CE \u00C4 (在D6 D0 CE C4前面各加了一�?0)
无（默认�Q?/td>	D6 D0 CE C4 (GB2312)	同ISO-8859-1	同ISO-8859-1

　　普通Java�E�序的编译过�E�与Servlet完全一栗��?br />
　　CLASS文�g中的中文表示法是不是昭然若揭了？OK�Q�接下来看看CLASS又是怎样输出中文的呢�Q?br />
　　Class�Q�输出字�W�串

　　上文说过�Q�字�W�串在内存中表现为Unicode�~�码。至于这�U�Unicode�~�码表示了什么，那要看它是从哪种字符集映��过来的�Q�也��是说要看它的祖先。这好比在托�q�行李时�Q�外观都是纸��子�Q�里面装了什么就要看寄邮件的人实际邮了什么东�ѝ�?br />
　　看看上面的例子，如果�l�一串Unicode�~�码�?0D6 00D0 00CE 00C4”，如果不作转换�Q�直接用Unicode码表来对照它�Ӟ��是四个字�W�（而且是特�D�字�W�）�Q�假如把它与“ISO8859-1”进行映��，则直接去掉前面的�?0”即可得到“D6 D0 CE C4”，�q�是ASCII码表中的四个字符�Q�而假如把它当作GB2312来进行映��，得到的结果很可能是一大堆��q��Q�因为在GB2312中有可能没有�Q�也有可能有�Q�字�W�与00D6�{�字�W�对应（如果对应不上�Q�将得到0x3f�Q�也��是问号�Q�如果对应上了，�׃��00D6�{�字�W�太靠前�Q�估计也是一些特�D�符��P��真正的汉字在Unicode中的�~�码�?E00开始）�?br />
　　各位看到了，同样的Unicode字符�Q�可以解释成不同的样子。当�Ӟ��q�其中有一�U�是我们期望的结果。以上例而论�Q�“D6 D0 CE C4”应该是我们所惌��的，当把“D6 D0 CE C4”输出到IE中时�Q�用“简体中文”方式查看，��p��看到清楚的“中文”两个字了。（当然了，如果你一定要用“西�Ƨ字�W�”来看，那也没办法，你将得不��C�Q何有何时何地的东西）��Z��么呢�Q�因为�?0D6 00D0 00CE 00C4”本来就是由ISO8859-1转化�q�去的�?br />　　�l�出如下�l�论�Q?br />
　　在Class输出字符串前�Q�会��Unicode的字�W�串按照某一�U�内码重新生成字节流�Q�然后把字节��输入，相当于进行了一步“String.getBytes(???)”操作�???代表某一�U�字�W�集�?br />
　　如果是Servlet�Q�那么，�q�种内码��是在HttpServletResponse.setContentType()�Ҏ��中指定的内码�Q�也��是上文定义的＜Servlet-charset�Q��?br />
　　如果是JSP�Q�那么，�q�种内码��是在＜%@ page contentType=""%�Q�中指定的内码，也就是上文定义的�Q�Jsp-charset�Q��?br />
　　如果是Java�E�序�Q�那么，�q�种内码��是file.encoding中指定的内码�Q�默认�ؓISO8859-1�?br />
　　当输出对象是��览器时

　　以流行的��览器IE��Z��。IE支持多种内码。假如IE接收��C��一个字节流“D6 D0 CE C4”，你可以尝试用各种内码��L��看。你会发现用“简体中文”时能得到正��的�l�果。因为“D6 D0 CE C4”本来就是简体中文中“中文”两个字的编码�?br />
　　OK�Q�完整地看一遍�?br />
　　JSP�Q�源文�g为GB2312格式的文本文�Ӟ��且JSP源文件中有“中文”这两个汉字

　　如果指定了＜Jsp-charset�Q��ؓGB2312�Q��{化过�E�如下表�?br />
　　�?　Jsp-charset = GB2312时的变化�q�程

序号	步骤说明	�l�果
1	�~�写JSP源文�Ӟ��且存为GB2312格式	D6 D0 CE C4 �Q�D6D0=�?CEC4=文）
2	jspc把JSP源文件�{化�ؓ临时JAVA文�g�Q��ƈ把字�W�串按照GB2312映射到Unicode�Q��ƈ用UTF格式写入JAVA文�g�?/td>	E4 B8 AD E6 96 87
3	把��时JAVA文�g�~�译成CLASS文�g	E4 B8 AD E6 96 87
4	�q�行�Ӟ��先从CLASS文�g中用readUTF��d��字符�Ԍ��在内存中的是Unicode�~�码	4E 2D 65 87�Q�在Unicode�?E2D=�?6587=文）
5	�Ҏ��Jsp-charset=GB2312把Unicode转化为字节流	D6 D0 CE C4
6	把字节流输出到IE中，�q�设�\|�IE的编码�ؓGB2312�Q�作者按�Q�这个信息隐藏在HTTP头中�Q?/td>	D6 D0 CE C4
7	IE用“简体中文”查看结�?/td>	“中文”（正确昄��Q?/td>

　　如果指定了＜Jsp-charset�Q��ؓISO8859-1�Q��{化过�E�如下表�?br />
　　�?　Jsp-charset = ISO8859-1时的变化�q�程

序号	步骤说明	�l�果
1	�~�写JSP源文�Ӟ��且存为GB2312格式	D6 D0 CE C4 �Q�D6D0=�?CEC4=文）
2	jspc把JSP源文件�{化�ؓ临时JAVA文�g�Q��ƈ把字�W�串按照ISO8859-1映射到Unicode�Q��ƈ用UTF格式写入JAVA文�g�?/td>	C3 96 C3 90 C3 8E C3 84
3	把��时JAVA文�g�~�译成CLASS文�g	C3 96 C3 90 C3 8E C3 84
4	�q�行�Ӟ��先从CLASS文�g中用readUTF��d��字符�Ԍ��在内存中的是Unicode�~�码	00 D6 00 D0 00 CE 00 C4 �Q�啥都不是！�Q�！�Q?/td>
5	�Ҏ��Jsp-charset=ISO8859-1把Unicode转化为字节流	D6 D0 CE C4
6	把字节流输出到IE中，�q�设�\|�IE的编码�ؓISO8859-1�Q�作者按�Q�这个信息隐藏在HTTP头中�Q?/td>	D6 D0 CE C4
7	IE用“西�Ƨ字�W�”查看结�?/td>	��q��Q�其实是四个ASCII字符�Q�但�׃��大于128�Q�所以显�C�出来的怪模怪样
8	改变IE的页面编码�ؓ“简体中文�?/td>	“中文”（正确昄��Q?/td>

　　奇怪了�Q��ؓ什么把�Q�Jsp-charset�Q�设成GB2312和ISO8859-1是一个样的，都能正确昄��Q�因��4�?中的�W?步和�W?步互逆，是相互“抵消”的。只不过当指定�ؓISO8859-1�Ӟ��要增加第8步操作，�D��ؓ不便�?br />
　　再看看不指定�Q�Jsp-charset�Q?时的情况�?br />
　　�?　未指定Jsp-charset 时的变化�q�程

序号	步骤说明	�l�果
1	�~�写JSP源文�Ӟ��且存为GB2312格式	D6 D0 CE C4 �Q�D6D0=�?CEC4=文）
2	jspc把JSP源文件�{化�ؓ临时JAVA文�g�Q��ƈ把字�W�串按照ISO8859-1映射到Unicode�Q��ƈ用UTF格式写入JAVA文�g�?/td>	C3 96 C3 90 C3 8E C3 84
3	把��时JAVA文�g�~�译成CLASS文�g	C3 96 C3 90 C3 8E C3 84
4	�q�行�Ӟ��先从CLASS文�g中用readUTF��d��字符�Ԍ��在内存中的是Unicode�~�码	00 D6 00 D0 00 CE 00 C4
5	�Ҏ��Jsp-charset=ISO8859-1把Unicode转化为字节流	D6 D0 CE C4
6	把字节流输出到IE�?/td>	D6 D0 CE C4
7	IE用发��求时的页面的�~�码查看�l�果	视情况而定。如果是��体中文，则能正确昄��Q�否则，需执行�?中的�W?�?/td>

　　Servlet�Q�源文�g为JAVA文�g�Q�格式是GB2312�Q�源文�g中含有“中文”这两个汉字

　　如果�Q�Compile-charset�Q�＝GB2312�Q�＜Servlet-charset�Q?GB2312

　　�?　Compile-charset=Servlet-charset=GB2312 时的变化�q�程

序号	步骤说明	�l�果
1	�~�写Servlet源文�Ӟ��且存为GB2312格式	D6 D0 CE C4 �Q�D6D0=�?CEC4=文）
2	用javac –encoding GB2312把JAVA源文件编译成CLASS文�g	E4 B8 AD E6 96 87　�Q�UTF�Q?/td>
3	�q�行�Ӟ��先从CLASS文�g中用readUTF��d��字符�Ԍ��在内存中的是Unicode�~�码	4E 2D 65 87 (Unicode)
4	�Ҏ��Servlet-charset=GB2312把Unicode转化为字节流	D6 D0 CE C4 (GB2312)
5	把字节流输出到IE中�ƈ讄��IE的编码属性�ؓServlet-charset=GB2312	D6 D0 CE C4 (GB2312)
6	IE用“简体中文”查看结�?/td>	“中文”（正确昄��Q?/td>

　　如果�Q�Compile-charset�Q�＝ISO8859-1�Q�＜Servlet-charset�Q?ISO8859-1

　　�?　Compile-charset=Servlet-charset=ISO8859-1时的变化�q�程

序号	步骤说明	�l�果
1	�~�写Servlet源文�Ӟ��且存为GB2312格式	D6 D0 CE C4 �Q�D6D0=�?CEC4=文）
2	用javac –encoding ISO8859-1把JAVA源文件编译成CLASS文�g	C3 96 C3 90 C3 8E C3 84　�Q�UTF�Q?/td>
3	�q�行�Ӟ��先从CLASS文�g中用readUTF��d��字符�Ԍ��在内存中的是Unicode�~�码	00 D6 00 D0 00 CE 00 C4
4	�Ҏ��Servlet-charset=ISO8859-1把Unicode转化为字节流	D6 D0 CE C4
5	把字节流输出到IE中�ƈ讄��IE的编码属性�ؓServlet-charset=ISO8859-1	D6 D0 CE C4 (GB2312)
6	IE用“西�Ƨ字�W�”查看结�?/td>	��q��Q�原因同�?�Q?/td>
7	改变IE的页面编码�ؓ“简体中文�?/td>	“中文”（正确昄��Q?/td>

　　如果不指定Compile-charset或Servlet-charset�Q�其默认值均为ISO8859-1�?br />
　　当Compile-charset=Servlet-charset�Ӟ��W?步和�W?步能互逆，“抵消”，昄��l�果均能正确。读者可试着写一下Compile-charset�Q�＞Servlet-charset时的情况�Q�肯定是不正��的�?br />
　　当输出对象是数据库时

　　输出到数据库�Ӟ��原理与输出到��览器也是一��L��。本节只是Servlet��Z��Q�JSP的情况请读者自行推对{�?br />
　　假设有一个Servlet�Q�它能接收来自客��L��Q�IE�Q�简体中文）的汉字字�W�串�Q�然后把它写入到内码为ISO8859-1的数据库中，然后再从数据库中取出�q�个字符�Ԍ��昄��到客��L��?br />
　　�?　输出对象是数据库时的变化�q�程�Q?�Q?br />

序号	步骤说明	�l�果	�?/td>
1	在IE中输入“中文�?/td>	D6 D0 CE C4	IE
2	IE把字�W�串转变成UTF�Q��ƈ送入传输��中	E4 B8 AD E6 96 87	IE
3	Servlet接收到输入流�Q�用readUTF��d��	4E 2D 65 87(unicode)	Servlet
4	�~�程者在Servlet中必��L��字符串根据GB2312�q�原为字节流	D6 D0 CE C4
5	�~�程者根据数据库内码ISO8859-1生成新的字符�?/td>	00 D6 00 D0 00 CE 00 C4
6	把新生成的字�W�串提交�l�JDBC	00 D6 00 D0 00 CE 00 C4
7	JDBC��到数据库内码�ؓISO8859-1	00 D6 00 D0 00 CE 00 C4	JDBC
8	JDBC把接收到的字�W�串按照ISO8859-1生成字节��?/td>	D6 D0 CE C4
9	JDBC把字节流写入数据库中	D6 D0 CE C4
10	完成数据存储工作	D6 D0 CE C4 数据�?/td>
以下是从数据库中取出数的�q�程
11	JDBC从数据库中取出字节流	D6 D0 CE C4	JDBC
12	JDBC按照数据库的字符集ISO8859-1生成字符�Ԍ��q�提交给Servlet	00 D6 00 D0 00 CE 00 C4 (Unicode)
13	Servlet获得字符�?/td>	00 D6 00 D0 00 CE 00 C4 (Unicode)	Servlet
14	�~�程者必��L��据数据库的内码ISO8859-1�q�原成原始字节流	D6 D0 CE C4
15	�~�程者必��L��据客��L��字符集GB2312生成新的字符�?/td>	4E 2D 65 87 �Q�Unicode�Q?/td>
Servlet准备把字�W�串输出到客��L��
16	Servlet�Ҏ��Q�Servlet-charset�Q�生成字节流	D6D0 CE C4	Servlet
17	Servlet把字节流输出到IE中，如果已指定＜Servlet-charset�Q�，�q�会讄��IE的编码�ؓ�Q�Servlet-charset�Q?/td>	D6 D0 CE C4	Servlet
18	IE�Ҏ��指定的编码或默认�~�码查看�l�果	“中文”（正确昄��Q?/td>	IE

　　解释一下，表中�W?�W?步和�W?5�W?6步是用红色标记的�Q�表�C��q��码者来作�{换。第4�?两步其实��是一句话�Q�“new String(source.getBytes("GB2312"), "ISO8859-1")”。第15�?6两步也是一句话�Q�“new String(source.getBytes("ISO8859-1"), "GB2312")”。亲��q��读者，你在�q�样�~�写代码时是否意识到了其中的每一个细节呢�Q?br />
　　至于客户端内码和数据库内码�ؓ其它值时的流�E�，和输出对象是�pȝ��控制台时的流�E�，误��者自己想吧。明白了上述��程的原理，�怿�你可以轻村֜�写出来�?br />
　　行文��x��Q�已可告一�D�落了。终点又回到了�v点，对于�~�程者而言�Q�几乎是什么媄响都没有�?br />
　　因�ؓ我们早就被告之要�q�么做了�?br />
　　以下�l�出一个结论，作�ؓ�l�尾�?br />
　　1�?在Jsp文�g中，要指定contentType�Q�其中，charset的��D��与客��L��览器所用的字符集一��P��对于其中的字�W�串帔R��Q�不需做�Q何内码�{换；对于字符串变量，要求能根据ContentType中指定的字符集还原成客户端能识别的字节流�Q�简单地��_��是“字�W�串变量是基于＜Jsp-charset�Q�字�W�集的”；

　　2�?在Servlet中，必须用HttpServletResponse.setContentType()讄��charset�Q�且讄��成与客户端内码一��_��对于其中的字�W�串帔R��Q�需要在Javac�~�译时指定encoding�Q�这个encoding必须与编写源文�g的��^台的字符集一��P��一般说来都是GB2312或GBK�Q�对于字�W�串变量�Q�与JSP一��P��必须“是��Z��Q�Servlet-charset�Q�字�W�集的”�?/span>

Sayyid 2006-05-22 17:01 发表评论

对于初学者学习Java语言的徏�?转蝲)

Sayyid — Wed, 03 May 2006 17:15:00 GMT

      都凌�?点多了，朋友们还在玩�Q�没有睡意，��闲着看看�|�页�Q�忽然想起了前几天看的这��文章，又找来脓出来~
原文��:http://www.eDaYang.Com/trackback.asp?tbID=10

      初学者的��d��是掌握Java的语�a�规则和养成良好的�~�程习惯�Q�其�ơ才谈到对类库��用的熟练�E�度�Q�再其次是OO思想的掌握与应用�Q�再其次��是Design Pattern的问题了。�?br />      在这里我只想介绍几个�Ҏ��功完成第一个阶�D�很有用的资料。�?br />      以下按照循序渐进的顺序进行：
      1.The Java Tutorial和它的examples:
             ftp://ftp.javasoft.com/docs/tutorial.zip
               ftp://ftp.javasoft.com/docs/tut-examples.zip
               以上资料学习完成后，请参看以下资料：
       2.Java2 Certification Tutorial:
              http://automation.seu.edu.cn/auto/content/tutorial.zip
       3.Complete Java 2 Certification Study Guide:
              http://www.3344520.net/book/3344520...va013.zip&id=65
      以上两个资料都是备考SCJP用的�Q�十分注重语�a�规范的学习与考察�Q�可以先�?�Q�因�?相对��l�，�?讲解更加�l�致入微。在看以上资料的同时�Q�你免不了写些程序，�q�就要用到API的手册，你用的是JDK的那个版本就�?java.sun.com 下蝲那个版本的doc来用��p��了，全称叫：Java 2 SDK, Standard|Enterprise|Micro Edition, v1.4.0(�q�有其他) beta 3 Documentation.
     以上提供的资料都是英文资料，�?font color="#000080">技术资料中没有复杂的语法，而且如果你想成�ؓ一个优�U�的Java�E�序员也必须要过阅读英文资料�q�一养I��ȝ��着别�h把新资料��译成中文给你看�Q�你的步伐就永远会比别�h慢一步。所以，我希望处在初学阶�D늚�朋友可以借这个机会锻��D��U�读英文资料的能�?/strong>�?/font>
      如果你学�q�C++�Q�请在学习过�E�中比较两种语言的异同，会收到更好效果。当�Ӟ��你也可以把C++和Java攑֜�一起学习，有�h说这样学习会出现��h��Q�但万事不可一概而论�Q�有的�h通过�q�种比较的学习方式，可能会掌握的更好。一��L��ȝ��样�h�Q�我告诉你，8爪型的都�?..(抱歉�Q�正在看鹉K��讎ͼ�串词儿了)...
最后希望初学者们学习��利�?

Sayyid 2006-05-04 01:15 发表评论

Sayyid — Thu, 27 Apr 2006 10:33:00 GMT

Eclipse快捷键大�?以前觉得�q�些东西没什么用�Q�主要是那时�q�没用eclipse�Q�现在刚开始用eclipse�Q�这些东西算是配上用��Z��?br />(一下内�Ҏ��源于�|�络)
Ctrl+1 快速修�?br />Ctrl+D: 删除当前�?
Ctrl+Alt+�?复制当前行到下一�?复制增加)
Ctrl+Alt+�?复制当前行到上一�?复制增加)

Alt+�?当前行和下面一行交互位�|?特别实用,可以省去先剪�?再粘贴了)
Alt+�?当前行和上面一行交互位�|?同上)
Alt+�?前一个编辑的��面
Alt+�?下一个编辑的��面(当然是针对上面那条来说了)

Alt+Enter 昄��当前选择资源(工程,or 文�g or文�g)的属�?/p>
Shift+Enter 在当前行的下一行插入空�?�q�时鼠标可以在当前行的�Q一位置,不一定是最�?
Shift+Ctrl+Enter 在当前行插入�I��(原理同上�?

Ctrl+Q 定位到最后编辑的地方
Ctrl+L 定位在某�?(对于�E�序��过100的�h��有��音�?
Ctrl+M 最大化当前的Edit或View (再按则反�?
Ctrl+/ 注释当前�?再按则取消注�?br />Ctrl+O 快速显�C?OutLine
Ctrl+T 快速显�C�当前类的��承结�?br />Ctrl+W 关闭当前Editer
Ctrl+K 参照选中的Word快速定位到下一�?br />Ctrl+E 快速显�C�当前Editer的下拉列�?如果当前��面没有昄��的用黑体表示)

Ctrl+/(��键�? 折叠当前�c�M��的所有代�?/p>
Ctrl+×(��键�? 展开当前�c�M��的所有代�?/p>
Ctrl+Space 代码助手完成一些代码的插入(但一般和输入法有冲突,可以修改输入法的热键,也可以暂用Alt+/来代�?

Ctrl+Shift+E 昄��理当前打开的所有的View的管理器(可以选择关闭,�Ȁ�zȝ��操作)

Ctrl+J 正向增量查找(按下Ctrl+J�?你所输入的每个字母编辑器都提供快速匹配定位到某个单词,如果没有,则在stutes line中显�C�没有找��C��,查一个单词时,特别实用,�q�个功能Idea两年前就有了)

Ctrl+Shift+J 反向增量查找(和上条相�?只不�q�是从后往前查)

Ctrl+Shift+F4 关闭所有打开的Editer

Ctrl+Shift+X 把当前选中的文本全部变呛_��?/p>
Ctrl+Shift+Y 把当前选中的文本全部变为小�?/p>
Ctrl+Shift+F 格式化当前代�?/p>
Ctrl+Shift+P 定位到对于的匚w��W?譬如{}) (从前面定位后面时,光标要在匚w��W�里�?后面到前�?则反�?

下面的快捷键是重构里面常用的,本�h��p��己喜�Ƣ且常用的整理一�?�?一般重构的快捷键都是Alt+Shift开头的�?

Alt+Shift+R 重命�?(是我自己最��q��的一个了,��其是变量和�cȝ��Rename,比手工方法能节省很多力_��?

Alt+Shift+M 抽取�Ҏ�� (�q�是重构里面最常用的方法之一�?��其是对一大堆泥团代码有用)

Alt+Shift+C 修改函数�l�构(比较实用,有N个函数调用了�q�个�Ҏ��,修改一�ơ搞�?

Alt+Shift+L 抽取本地变量( 可以直接把一些魔法数字和字符串抽取成一个变�?��其是多处调用的时�?

Alt+Shift+F 把Class中的local变量变�ؓfield变量 (比较实用的功�?

Alt+Shift+I 合�ƈ变量(可能�q�样说有点不妥Inline)
Alt+Shift+V �U�d��函数和变�?不怎么常用)
Alt+Shift+Z 重构的后悔药(Undo)

Sayyid 2006-04-27 18:33 发表评论

Sayyid — Tue, 07 Mar 2006 10:12:00 GMT

    以前看网上说�q�书�q�不�?之后��M��店买了这本书,攑֜�书架上一直没好好�?前几天大概的看了�?觉得书中主要��是讲SWT,对于不用SWT的初学者来�?帮不上很大的�?

Sayyid 2006-03-07 18:12 发表评论

学习thinking in java的困惑（求助�Q?

Sayyid — Thu, 26 Jan 2006 03:54:00 GMT
在大家的推荐下我��C��THINKING IN JAVA ,可是学习了一�D�|��间了,觉得�q�展不是很满�?
   对于JAVA语言,我也看过几本基础的书,然后才看的THINKING IN JAVA,可是看了好久觉得很难�?有很多东西书上讲的很详细,�q�些内容是其他书上都没涉及到�?我努力去理解他上面讲的每一点东�?发现��来��困难了,所以现在开始怀疑我的学习方法是否存在问题了.今天来这里向大家求助^
   我想问问大家,�q�本书你们是怎么学习,有什么好的方法请大家指教!
      �?看的时候是有选择的看�q�是�_�读�???
      �?把这本书看完大概要多��时�???
      �?nbsp;书上有很多代�?是不是都要去看懂�???
    好了��先写这么一点了,�{�再遇上问题在来求教,希望各位有经验的朋友帮帮�? 在此我表�C�忠心的感谢!

Sayyid 2006-01-26 11:54 发表评论

文�g名与�c�d��一致性的问题(新手、基��)

Sayyid — Thu, 05 Jan 2006 14:31:00 GMT

文�g名与�c�d��一致性的问题
如果文�g只有一个类�Q�文件名必须与类名一�?BR>如果文�g�?FONT color=#0000ff>不止一个类�Q�文件名必须与含public�cȝ��c�d��保持一�?BR>如果文�g�?FONT color=#0000ff>不止一个类�Q�且没有public�c�，文�g名可以与其他�c�d��一�?BR>如果文�g中有main函数�Q?FONT color=#ff1493>也有public�c�，main函数必须位于public�c�M��
如果文�g中有main函数�Q?FONT color=#ff1493>没有public�c�，文�g名与含有main函数的类名一�?BR>注：忘了在那本书上看的，可能记得不清楚，如有问题�Q�请指教�Q?/FONT>

Sayyid 2006-01-05 22:31 发表评论

亚洲AV成人精品日韩一区18p,2020天堂在线亚洲精品专区,国产美女亚洲精品久久久综合

深入剖析JSP和Servlet对中文的处理

对于初学者学习Java语言的徏�?转蝲)

学习thinking in java的困惑（求助�Q?

文�g名与�c�d��一致性的问题(新手、基���)

文�g名与�c�d��一致性的问题(新手、基��)