亚洲精品无码久久久久秋霞,亚洲欧洲尹人香蕉综合,亚洲国产日韩精品

happytian — Wed, 14 May 2008 12:50:00 GMT

关键字列�?

abstract boolean break byte case
catch char class continue default
do double else extends false
final finally float for if
implements import instanceof int interface
long native new null package
private protected public return short
static super switch synchronized this
throw throws transient true try
void volatile while

保留�?
&n bsp;const�Q�goto

注意�?

识别java语言的关键字�Q�不要和其他语言如c/c++的关键字��h��?
�?nbsp;
const和goto是java的保留字�?
所有的关键字都是小�?
friendly�Q�sizeof不是java的关键字　

1. 标识�W�变�?�c�M��Ҏ��都需要一定的名称,我们��这�U�名�U�叫做标识符.java中对标识�W�有一定的限制.首先:所有的标识�W�的首字�W�必��L��字母�Q�大��写�Q?下划�U�＿或美元符�K?其次标示�W�是由数字（0--9�Q?所有从a--z的大写字�?a--z的小写字母与下划�U�＿.��元�W��E与所有在十六�q�制0xc0前的 ascii码等构成;�W�三注意表示�W�不能��用系�l�保留的关键字做标示�W?

happytian 2008-05-14 20:50 发表评论

java 调用存储�q�程

happytian — Wed, 14 May 2008 12:19:00 GMT

本文阐述了怎么使用DBMS存储�q�程。我阐述了��用存储过�E�的基本的和高��Ҏ��，比如�q�回ResultSet。本文假设你对DBMS和JDBC已经非常熟悉�Q�也假设你能够毫无障��地阅读其它语言写成的代码（即不是Java的语�a��Q�，但是�Q��ƈ不要求你有�Q何存储过�E�的�~�程�l�历�?
存储�q�程是指保存在数据库�q�在数据库端执行的程序。你可以使用�Ҏ��的语法在Java�c�M��调用存储�q�程。在调用�Ӟ��存储�q�程的名�U�及指定的参数通过JDBC�q�接发送给DBMS�Q�执行存储过�E��ƈ通过�q�接�Q�如果有�Q�返回结果�?
使用存储�q�程拥有和��用基于EJB或CORBA�q�样的应用服务器一��L��好处。区别是存储�q�程可以从很多流行的DBMS中免费��用，而应用服务器大都非常昂贵。这�q�不只是许可证费用的问题。��用应用服务器所需要花费的��理、编写代码的费用�Q�以及客��L��序所增加的复杂性，都可以通过DBMS中的存储�q�程所整个地替代�?
你可以��用Java�Q�Python�Q�Perl或C�~�写存储�q�程�Q�但是通常使用你的DBMS所指定的特定语�a�。Oracle使用PL/SQL�Q�PostgreSQL使用pl/pgsql�Q�DB2使用Procedural SQL。这些语�a�都非常相伹{��在它们之间�U�L��存储�q�程�q�不比在Sun的EJB规范不同实现版本之间�U�L��Session Bean困难。�ƈ且，存储�q�程是�ؓ嵌入SQL所设计�Q�这使得它们比Java或C�{�语�a�更加友好地方式表达数据库的机制�?
因�ؓ存储�q�程�q�行在DBMS自��n�Q�这可以帮助减少应用�E�序中的�{�待旉��。不是在Java代码中执�?个或5个SQL语句�Q�而只需要在服务器端执行1个存储过�E�。网�l�上的数据往�q�次数的减少可以戏剧性地优化性能�?

使用存储�q�程

��单的老的JDBC通过CallableStatement�c�L��持存储过�E�的调用。该�c�d��际上是PreparedStatement的一个子�c�R��假设我们有一个poets数据库。数据库中有一个设�|�诗人逝世�q�龄的存储过�E�。下面是对老酒鬼Dylan Thomas�Q�old soak Dylan Thomas�Q�不指定是否有关典故、文化，��h��评指正。译注）�q�行调用的详�l�代码：

try{

int age = 39;

String poetName = "dylan thomas";

CallableStatement proc = connection.prepareCall("{ call set_death_age(?, ?) }");

proc.setString(1, poetName);

proc.setInt(2, age);

cs.execute();

}catch (SQLException e){ // ....}

传给prepareCall�Ҏ��的字串是存储�q�程调用的书写规范。它指定了存储过�E�的名称�Q�？代表了你需要指定的参数�?
和JDBC集成是存储过�E�的一个很大的便利�Q��ؓ了从应用中调用存储过�E�，不需要存根（stub�Q�类或者配�|�文�Ӟ��除了你的DBMS的JDBC驱动�E�序外什么也不需要�?
当这�D�代码执行时�Q�数据库的存储过�E�就被调用。我们没有去获取�l�果�Q�因��存储�q�程�q�不�q�回�l�果。执行成功或��p�|��通过例外得知。失败可能意味着调用存储�q�程时的��p�|�Q�比如提供的一个参数的�c�d��不正��）�Q�或者一个应用程序的��p�|�Q�比如抛��Z��个例外指�C�在poets数据库中�q�不存在“Dylan Thomas”�Q?

�l�合SQL操作与存储过�E?

映射Java对象到SQL表中的行相当��单，但是通常需要执行几个SQL语句�Q�可能是一个SELECT查找ID�Q�然后一个INSERT插入指定ID的数据。在高度规格化（�W�合更高的范式，译注�Q�的数据库模式中�Q�可能需要多个表的更斎ͼ�因此需要更多的语句。Java代码会很快地膨胀�Q�每一个语句的�|�络开销也迅速增加�?
��这些SQL语句转移��C��个存储过�E�中��大大简化代码，仅涉及一�ơ网�l�调用。所有关联的SQL操作都可以在数据库内部发生。�ƈ且，存储�q�程语言�Q�例如PL/SQL�Q�允�怋�用SQL语法�Q�这比Java代码更加自然。下面是我们早期的存储过�E�，使用Oracle的PL/SQL语言�~�写�Q?

create procedure set_death_age(poet VARCHAR2, poet_age NUMBER)

poet_id NUMBER;

begin SELECT id INTO poet_id FROM poets WHERE name = poet;

INSERT INTO deaths (mort_id, age) VALUES (poet_id, poet_age);

end set_death_age;

很独特？不。我打赌你一定期待看��C��个poets表上的UPDATE。这也暗�C�Z��使用存储�q�程实现是多么容易的一件事情。set_death_age几乎可以肯定是一个很烂的实现。我们应该在poets表中��d��一列来存储逝世�q�龄。Java代码中�ƈ不关心数据库模式是怎么实现的，因�ؓ它仅调用存储�q�程。我们以后可以改变数据库模式以提高性能�Q�但是我们不必修�Ҏ��们代码�?
下面是调用上面存储过�E�的Java代码�Q?

public static void setDeathAge(Poet dyingBard, int age) throws SQLException{

Connection con = null;

CallableStatement proc = null;

try {

con = connectionPool.getConnection();

proc = con.prepareCall("{ call set_death_age(?, ?) }");

proc.setString(1, dyingBard.getName());

proc.setInt(2, age);

proc.execute();

}

finally {

try { proc.close(); }

catch (SQLException e) {}

con.close();

}

}

��Z��保可维护性，��使用像这儿这��L��static�Ҏ��。这也��得调用存储过�E�的代码集中在一个简单的模版代码中。如果你用到许多存储�q�程�Q�就会发��C��需要拷贝、粘贴就可以创徏新的�Ҏ��。因��Z��码的模版化，甚至也可以通过脚本自动生��调用存储�q�程的代码�?

Functions

存储�q�程可以有返回��|��所以CallableStatement�c�L��c�M��getResultSet�q�样的方法来获取�q�回倹{��当存储�q�程�q�回一个值时�Q�你必须使用registerOutParameter�Ҏ��告诉JDBC驱动器该值的SQL�c�d��是什么。你也必��调整存储过�E�调用来指示该过�E�返回一个倹{�?
下面接着上面的例子。这�ơ我们查询Dylan Thomas逝世时的�q�龄。这�ơ的存储�q�程使用PostgreSQL的pl/pgsql�Q?

create function snuffed_it_when (VARCHAR) returns integer ´declare

poet_id NUMBER;

poet_age NUMBER;

begin

--first get the id associated with the poet.

SELECT id INTO poet_id FROM poets WHERE name = $1;

--get and return the age.

SELECT age INTO poet_age FROM deaths WHERE mort_id = poet_id;

return age;

end;´ language ´pl/pgsql´;

另外�Q�注意pl/pgsql参数名通过Unix和DOS脚本�?n语法引用。同�Ӟ��也注意嵌入的注释�Q�这是和Java代码相比的另一个优��性。在Java中写�q�样的注释当然是可以的，但是看�v来很凌�ؕ�Q��ƈ且和SQL语句��p��Q�必��d��入到Java String中�?
下面是调用这个存储过�E�的Java代码�Q?

connection.setAutoCommit(false);

CallableStatement proc = connection.prepareCall("{ ? = call snuffed_it_when(?) }");

proc.registerOutParameter(1, Types.INTEGER);

proc.setString(2, poetName);

cs.execute();

int age = proc.getInt(2);

如果指定了错误的�q�回值类型会怎样�Q�那么，当调用存储过�E�时��抛��Z��个RuntimeException�Q�正如你在ResultSet操作中��用了一个错误的�c�d��所��到的一栗��?

复杂的返回�?

关于存储�q�程的知识，很多人好像就熟悉我们所讨论的这些。如果这是存储过�E�的全部功能�Q�那么存储过�E�就不是其它�q�程执行机制的替换方案了。存储过�E�的功能比这强大得多�?
当你执行一个SQL查询�Ӟ��DBMS创徏一个叫做cursor�Q�游标）的数据库对象�Q�用于在�q�回�l�果中�P代每一行。ResultSet是当前时间点的游标的一个表�C�。这��是��Z��么没有缓存或者特定数据库的支持，你只能在ResultSet中向前移动�?
某些DBMS允许从存储过�E�中�q�回游标的一个引用。JDBC�q�不支持�q�个功能�Q�但是Oracle、PostgreSQL和DB2的JDBC驱动器都支持在ResultSet上打开到游标的指针�Q�pointer�Q��?
设想列出所有没有活到退休年龄的诗�h�Q�下面是完成�q�个功能的存储过�E�，�q�回一个打开的游标，同样也��用PostgreSQL的pl/pgsql语言�Q?

create procedure list_early_deaths () return refcursor as ´declare

toesup refcursor;

begin

open toesup for SELECT poets.name, deaths.age FROM poets, deaths -- all entries in deaths are for poets. -- but the table might become generic.

WHERE poets.id = deaths.mort_id AND deaths.age < 60;

return toesup;

end;´ language ´plpgsql´;

下面是调用该存储�q�程的Java�Ҏ��Q�将�l�果输出到PrintWriter�Q?
PrintWriter:

static void sendEarlyDeaths(PrintWriter out){

Connection con = null;

CallableStatement toesUp = null;

try {

con = ConnectionPool.getConnection();

// PostgreSQL needs a transaction to do this... con.

setAutoCommit(false); // Setup the call.

CallableStatement toesUp = connection.prepareCall("{ ? = call list_early_deaths () }");

toesUp.registerOutParameter(1, Types.OTHER);

toesUp.execute();

ResultSet rs = (ResultSet) toesUp.getObject(1);

while (rs.next()) {

String name = rs.getString(1);

int age = rs.getInt(2);

out.println(name + " was " + age + " years old.");

}

rs.close();

}

catch (SQLException e) { // We should protect these calls. toesUp.close(); con.close();

}

}

因�ؓJDBC�q�不直接支持从存储过�E�中�q�回游标�Q�我们��用Types.OTHER来指�C�存储过�E�的�q�回�c�d��Q�然后调用getObject()�Ҏ��q�对�q�回��D��行强制类型�{换�?
�q�个调用存储�q�程的Java�Ҏ��是mapping的一个好例子。Mapping是对一个集上的操作�q�行抽象的方法。不是在�q�个�q�程上返回一个集�Q�我们可以把操作传送进��L��行。本例中�Q�操作就是把ResultSet打印��C��个输出流。这是一个值得举例的很常用的例子，下面是调用同一个存储过�E�的另外一个方法实玎ͼ�

public class ProcessPoetDeaths{

public abstract void sendDeath(String name, int age);

}

static void mapEarlyDeaths(ProcessPoetDeaths mapper){

Connection con = null;

CallableStatement toesUp = null;

try {

con = ConnectionPool.getConnection();

con.setAutoCommit(false);

CallableStatement toesUp = connection.prepareCall("{ ? = call list_early_deaths () }");

toesUp.registerOutParameter(1, Types.OTHER);

toesUp.execute();

ResultSet rs = (ResultSet) toesUp.getObject(1);

while (rs.next()) {

String name = rs.getString(1);

int age = rs.getInt(2);

mapper.sendDeath(name, age);

}

rs.close();

} catch (SQLException e) { // We should protect these calls. toesUp.close();

con.close();

}

}

�q�允许在ResultSet数据上执行�Q意的处理�Q�而不需要改变或者复制获取ResultSet的方法：

static void sendEarlyDeaths(final PrintWriter out){

ProcessPoetDeaths myMapper = new ProcessPoetDeaths() {

public void sendDeath(String name, int age) {

out.println(name + " was " + age + " years old.");

}

};

mapEarlyDeaths(myMapper);

}

�q�个�Ҏ��使用ProcessPoetDeaths的一个匿名实例调用mapEarlyDeaths。该实例拥有sendDeath�Ҏ��的一个实玎ͼ�和我们上面的例子一��L��方式把结果写入到输出��。当�Ӟ��q�个技巧�ƈ不是存储�q�程�Ҏ��的，但是和存储过�E�中�q�回的ResultSet�l�合使用�Q�是一个非常强大的工具�?

�l�论

存储�q�程可以帮助你在代码中分��逻辑�Q�这基本上��L��有益的。这个分��ȝ��好处有：
• 快速创建应用，使用和应用一��h��变和改善的数据库模式�?
• 数据库模式可以在以后改变而不影响Java对象�Q�当我们完成应用后，可以重新设计更好的模式�?
• 存储�q�程通过更好的SQL嵌入使得复杂的SQL更容易理解�?
• �~�写存储�q�程比在Java中编写嵌入的SQL拥有更好的工��P��Q�大部分�~�辑器都提供语法高亮�Q?
• 存储�q�程可以在�Q何SQL命��o行中��试�Q�这使得调试更加�Ҏ��?

�q�不是所有的数据库都支持存储�q�程�Q�但是存在许多很��的实现�Q�包括免�?开源的和非免费的，所以移植�ƈ不是一个问题。Oracle、PostgreSQL和DB2都有�c�M��的存储过�E�语�a��Q��ƈ且有在线的社区很好地支持�?
存储�q�程工具很多�Q�有像TOAD或TORA�q�样的编辑器、调试器和IDE�Q�提供了�~�写、维护PL/SQL或pl/pgsql的强大的环境�?
存储�q�程��实增加了你的代码的开销�Q�但是它们和大多数的应用服务器相比，开销��得多。如果你的代码复杂到需要��用DBMS�Q�我��整个采用存储�q�程的方式�?

资源

• JDBC specification
• PostgreSQL
• Oracle Corporation´s Oracle database server
• IBM´s DB2 database server

作者简介：Nic Ferrier 是Web应用斚w��的独立��Y仉��问。顾问�?

happytian 2008-05-14 20:19 发表评论

字符�Q�字节和�~�码

happytian — Wed, 24 Oct 2007 01:33:00 GMT

字符�Q�字节和�~�码

[原创文章�Q��{载请保留或注明出处：http://www.regexlab.com/zh/encoding.htm]

�U�别�Q�中�U?/p>

摘要�Q�本文介�l�了字符与编码的发展�q�程�Q�相��x��늚�正确理解。�D例说明了一些实际应用中�Q�编码的实现�Ҏ��。然后，本文讲述了通常对字�W�与�~�码的几�U�误解，�׃��q�些误解而导致�ؕ码��生的原因�Q�以及消除�ؕ码的办法。本文的内容�늛��?#8220;中文问题”�Q?#8220;��q��问题”�?/p>
掌握�~�码问题的关键是正确地理解相��x��念，�~�码所涉及的技术其实是很简单的。因此，阅读本文旉��要慢��d��惻I��多思考�?/p>

引言

“字符与编�?#8221;是一个被�l�常讨论的话题。即使这��P��时常出现的�ؕ码仍然困扰着大家。虽然我们有很多的办法可以用来消除�ؕ码，但我们�ƈ不一定理解这些办法的内在原理。而有的�ؕ码��生的原因�Q�实际上�׃��底层代码本��n有问题所��D��的。因此，不仅是初学者会对字�W�编码感到模�p�，有的底层开发�h员同样对字符�~�码�~�Z��准确的理解�?/p>

1. �~�码问题的由来，相关概念的理�?/h4>

1.1 字符与编码的发展

从计��机对多国语�a�的支持角度看�Q�大致可以分��Z��个阶�D�：

	�pȝ��内码	说明	�pȝ��
阶段一	ASCII	计算机刚开始只支持��p��Q�其它语�a�不能够在计算��Z��存储和显�C��?/td>	英文 DOS
阶段�?/td>	ANSI�~�码 �Q�本地化�Q?/td>	��Z��计算机支持更多语�a��Q�通常使用 0x80~0xFF 范围�?2 个字节来表示 1 个字�W�。比如：汉字 '�? 在中文操作系�l�中�Q��?[0xD6,0xD0] �q�两个字节存储�?br /> 不同的国家和地区制定了不同的标准�Q�由此��生了 GB2312, BIG5, JIS �{�各自的�~�码标准。这些��?2 个字节来代表一个字�W�的各种汉字延�׾~�码方式�Q�称�?strong> ANSI �~�码。在��体中文系�l�下�Q�ANSI �~�码代表 GB2312 �~�码�Q�在日文操作�pȝ��下，ANSI �~�码代表 JIS �~�码�?br /> 不同 ANSI �~�码之间互不兼容�Q�当信息在国际间交流�Ӟ��无法��属于两�U�语�a�的文字，存储在同一�D?strong> ANSI �~�码的文本中�?/td>	中文 DOS�Q�中�?Windows 95/98�Q�日�?Windows 95/98
阶段�?/td>	UNICODE �Q�国际化�Q?/td>	��Z��使国际间信息交流更加方便�Q�国际组�l�制定了 UNICODE 字符�?/strong>�Q��ؓ各种语言中的每一个字�W�设定了�l�一�q�且唯一的数字编��P��以满��语言、跨�q�_��q�行文本转换、处理的要求�?/td>	Windows NT/2000/XP�Q�Linux�Q�Java

字符串在内存中的存放�Ҏ��Q?/p>

�?ASCII 阶段�Q?strong>单字节字�W�串使用一个字节存放一个字�W�（SBCS�Q�。比如，"Bob123" 在内存中为：

42	6F	62	31	32	33	00

B	o	b	1	2	3	\0

在��?ANSI �~�码支持多种语言阶段�Q�每个字�W��用一个字节或多个字节来表�C�（MBCS�Q�，因此�Q�这�U�方式存攄��字符也被�U�C��多字节字�W?/strong>。比如，"中文123" 在中�?Windows 95 内存中�ؓ7个字节，每个汉字�?个字节，每个英文和数字字�W�占1个字节：

D6 D0 CE C4 31 32 33 00

�?/td> �?/td> 1 2 3 \0

�?UNICODE 被采用之后，计算机存攑֭��W�串�Ӟ��改�ؓ存放每个字符�?UNICODE 字符集中的序受��目前计��机一般��?2 个字节（16 位）来存放一个序��P��DBCS�Q�，因此�Q�这�U�方式存攄��字符也被�U�C��宽字节字�W?/strong>。比如，字符�?"中文123" �?Windows 2000 下，内存中实际存攄��?5 个序��P��

2D 4E 87 65 31 00 32 00 33 00 00 00      ← �?x86 CPU 中，低字节在�?/font>

�?/td> �?/td> 1 2 3 \0 　

一共占 10 个字节�?/p>

1.2 字符�Q�字节，字符�?/h5>
理解�~�码的关键，是要把字�W�的概念和字节的概念理解准确。这两个概念�Ҏ��h��Q�我们在此做一下区分：

　 概念描述 举例

字符 ��Z��使用的记��P��抽象意义上的一个符受��?/td> '1', '�?, 'a', '$', '�K?, ……

字节计算��Z��存储数据的单元，一�?位的二进制数�Q�是一个很具体的存储空间�?/td> 0x01, 0x45, 0xFA, ……

ANSI
字符�?/td> 在内存中�Q�如�?#8220;字符”是以 ANSI �~�码形式存在的，一个字�W�可能��用一个字节或多个字节来表�C�，那么我们�U�这�U�字�W�串�?ANSI 字符�?/strong>或�?strong>多字节字�W�串�?/td> "中文123"
�Q�占7字节�Q?/font>

UNICODE
字符�?/td> 在内存中�Q�如�?#8220;字符”是以�?UNICODE 中的序号存在的，那么我们�U�这�U�字�W�串�?UNICODE 字符�?/strong>或�?strong>宽字节字�W�串�?/td> L"中文123"
�Q�占10字节�Q?/font>

�׃��不同 ANSI �~�码所规定的标准是不相同的�Q�因此，对于一个给定的多字节字�W�串�Q�我们必��ȝ��道它采用的是哪一�U�编码规则，才能够知道它包含了哪�?#8220;字符”。而对�?UNICODE 字符�?/strong>来说�Q�不��在什么环境下�Q�它所代表�?#8220;字符”内容��L��不变的�?/p>

1.3 字符集与�~�码

各个国家和地区所制定的不�?ANSI �~�码标准中，都只规定了各自语�a�所需�?#8220;字符”。比如：汉字标准�Q�GB2312�Q�中没有规定韩国语字�W�怎样存储。这�?ANSI �~�码标准所规定的内容包含两层含义：

使用哪些字符。也��是说哪些汉字，字母和符号会被收入标准中。所包含“字符”的集合就叫做“字符�?/strong>”�?
规定每个“字符”分别用一个字节还是多个字节存储，用哪些字节来存储�Q�这个规定就叫做“�~�码”�?

各个国家和地区在制定�~�码标准的时候，“字符的集�?#8221;�?#8220;�~�码”一般都是同时制定的。因此，�q�_��我们所说的“字符�?#8221;�Q�比如：GB2312, GBK, JIS �{�，除了�?#8220;字符的集�?#8221;�q�层含义外，同时也包含了“�~�码”的含义�?/p>
“UNICODE 字符�?/strong>”包含了各�U�语�a�中��用到的所�?#8220;字符”。用来给 UNICODE 字符集编码的标准有很多种�Q�比如：UTF-8, UTF-7, UTF-16, UnicodeLittle, UnicodeBig �{��?/p>

1.4 常用的编码简�?/h5>
��单介�l�一下常用的�~�码规则�Q��ؓ后边的章节做一个准备。在�q�里�Q�我们根据编码规则的特点�Q�把所有的�~�码分成三类�Q?/p>

分类 �~�码标准 说明

单字节字�W�编�?/td> ISO-8859-1 最��单的�~�码规则�Q�每一个字节直接作��Z��?UNICODE 字符。比如，[0xD6, 0xD0] �q�两个字节，通过 iso-8859-1 转化为字�W�串�Ӟ��直接得�?[0x00D6, 0x00D0] 两个 UNICODE 字符�Q�即 "ÖÐ"�?br />
反之�Q�将 UNICODE 字符串通过 iso-8859-1 转化为字节串�Ӟ��只能正常转化 0~255 范围的字�W��?/td>

ANSI �~�码 GB2312,
BIG5,
Shift_JIS,
ISO-8859-2 …… �?UNICODE 字符串通过 ANSI �~�码转化�?#8220;字节�?#8221;�Ӟ��Ҏ��各自�~�码的规定，一�?UNICODE 字符可能转化成一个字节或多个字节�?br />
反之�Q�将字节串�{化成字符串时�Q�也可能多个字节转化成一个字�W�。比如，[0xD6, 0xD0] �q�两个字节，通过 GB2312 转化为字�W�串�Ӟ��得�?[0x4E2D] 一个字�W�，�?'�? 字�?br />
“ANSI �~�码”的特点：
1. �q�些“ANSI �~�码标准”都只能处理各自语�a�范围之内�?UNICODE 字符�?br /> 2. “UNICODE 字符”�?#8220;转换出来的字�?#8221;之间的关�p�L��Zؓ规定的�?/td>

UNICODE �~�码 UTF-8,
UTF-16, UnicodeBig …… �?#8220;ANSI �~�码”�c�M��的，把字�W�串通过 UNICODE �~�码转化�?#8220;字节�?#8221;�Ӟ��一�?UNICODE 字符可能转化成一个字节或多个字节�?br />
�?#8220;ANSI �~�码”不同的是�Q?br /> 1. �q�些“UNICODE �~�码”能够处理所有的 UNICODE 字符�?br /> 2. “UNICODE 字符”�?#8220;转换出来的字�?#8221;之间是可以通过计算得到的�?/td>

我们实际上没有必要去��q��每一�U�编码具体把某一个字�W�编码成了哪几个字节�Q�我们只需要知�?#8220;�~�码”的概念就是把“字符”转化�?#8220;字节”��可以了。对�?#8220;UNICODE �~�码”�Q�由于它们是可以通过计算得到的，因此�Q�在�Ҏ��的场合，我们可以��M��解某一�U?#8220;UNICODE �~�码”是怎样的规则�?/p>

2. 字符与编码在�E�序中的实现

2.1 �E�序中的字符与字�?/h5>
�?C++ �?Java 中，用来代表“字符”�?#8220;字节”的数据类型，以及�q�行�~�码的方法：

�c�d��或操�?/strong> C++ Java

字符 wchar_t char

字节 char byte

ANSI 字符�?/td> char[] byte[]

UNICODE 字符�?/td> wchar_t[] String

字节�?#8594;字符�?/td> mbstowcs(), MultiByteToWideChar() string = new String(bytes, "encoding")

字符�?#8594;字节�?/td> wcstombs(), WideCharToMultiByte() bytes = string.getBytes("encoding")

以上需要注意几点：

Java 中的 char 代表一�?#8220;UNICODE 字符�Q�宽字节字符�Q?#8221;�Q��?C++ 中的 char 代表一个字节�?
MultiByteToWideChar() �?WideCharToMultiByte() �?Windows API 函数�?

2.2 C++ 中相兛_��现方�?/h5>
声明一�D�字�W�串帔R��Q?/p>

// ANSI 字符�Ԍ��内容长度 7 字节
char     sz[20] = "中文123";

// UNICODE 字符�Ԍ��内容长度 5 �?wchar_t�Q?0 字节�Q?/span>
wchar_t wsz[20] = L"\x4E2D\x6587\x0031\x0032\x0033";

UNICODE 字符串的 I/O 操作�Q�字�W�与字节的�{换操作：

// �q�行时设定当�?ANSI �~�码�Q�VC 格式
setlocale(LC_ALL, ".936");

// GCC 中格�?/span>
setlocale(LC_ALL, "zh_CN.GBK");

// Visual C++ 中��用小�?%s�Q�按�?setlocale 指定�~�码输出到文�?br /> // GCC 中��用大�?%S
fwprintf(fp, L"%s\n", wsz);

// �?UNICODE 字符串按�?setlocale 指定的编码�{换成字节
wcstombs(sz, wsz, 20);
// 把字节串按照 setlocale 指定的编码�{换成 UNICODE 字符�?br /> mbstowcs(wsz, sz, 20);

�?Visual C++ 中，UNICODE 字符串常量有更简单的表示�Ҏ��。如果源�E�序的编码与当前默认 ANSI �~�码不符�Q�则需要��?#pragma setlocale�Q�告诉编译器源程序��用的�~�码�Q?/p>

// 如果源程序的�~�码与当前默�?ANSI �~�码不一��_��
// 则需要此行，�~�译时用来指明当前源�E�序使用的编�?/font>
#pragma setlocale(".936")

// UNICODE 字符串常量，内容长度 10 字节
wchar_t wsz[20] = L"中文123";

以上需要注�?#pragma setlocale �?setlocale(LC_ALL, "") 的作用是不同的，#pragma setlocale 在编译时起作用，setlocale() 在运行时起作用�?/p>

2.3 Java 中相兛_��现方�?/h5>
字符串类 String 中的内容�?UNICODE 字符�Ԍ��

// Java 代码�Q�直接写中文
String string = "中文123";

// 得到长度�?5�Q�因为是 5 个字�W?/span>
System.out.println(string.length());

字符�?I/O 操作�Q�字�W�与字节转换操作。在 Java �?java.io.* 中，�?#8220;Stream”�l�尾的类一般是用来操作“字节�?#8221;的类�Q�以“Reader”�Q?#8220;Writer”�l�尾的类一般是用来操作“字符�?#8221;的类�?/p>

// 字符串与字节串间�怺�转化

// 按照 GB2312 得到字节�Q�得到多字节字符�Ԍ��
byte [] bytes = string.getBytes("GB2312");

// 从字节按�?GB2312 得到 UNICODE 字符�?/span>
string = new String(bytes, "GB2312");

// 要将 String 按照某种�~�码写入文本文�g�Q�有两种�Ҏ��Q?br />
// �W�一�U�办法：�?Stream �c�d��入已�l�按照指定编码�{化好的字节串
OutputStream os = new FileOutputStream("1.txt");
os.write(bytes);
os.close();

// �W�二�U�办法：构造指定编码的 Writer 来写入字�W�串
Writer ow = new OutputStreamWriter(new FileOutputStream("2.txt"), "GB2312");
ow.write(string);
ow.close();

/* 最后得到的 1.txt �?2.txt 都是 7 个字�?*/

如果 java 的源�E�序�~�码与当前默�?ANSI �~�码不符�Q�则在编译的时候，需要指明一下源�E�序的编码。比如：

E:\>javac -encoding BIG5 Hello.java

以上需要注意区分源�E�序的编码与 I/O 操作的编码，前者是在编译时起作用，后者是在运行时起作用�?/p>

3. 几种误解�Q�以及�ؕ码��生的原因和解军_��?/h4>
3.1 �Ҏ��产生的误�?/h5>

　 对编码的误解

误解一在将“字节�?#8221;转化�?#8220;UNICODE 字符�?#8221;�Ӟ��比如在读取文本文件时�Q�或者通过�|�络传输文本�Ӟ��Ҏ��?#8220;字节�?#8221;��单地作�ؓ单字节字�W�串�Q�采用每“一个字�?#8221;��是“一个字�W?#8221;的方法进行�{化�?br />
而实际上�Q�在非英文的环境中，应该��?#8220;字节�?#8221;作�ؓ ANSI 字符�Ԍ��采用适当的编码来得到 UNICODE 字符�Ԍ��有可�?#8220;多个字节”才能得到“一个字�W?#8221;�?br />
通常�Q�一直在英文环境下做开发的�E�序员们�Q�容易有�q�种误解�?/td>

误解�?/td> �?DOS�Q�Windows 98 �{�非 UNICODE 环境下，字符串都是以 ANSI �~�码的字节�Ş式存在的。这�U�以字节形式存在的字�W�串�Q�必��ȝ��道是哪种�~�码才能被正��地使用。这使我们�Ş成了一个惯性思维�Q?#8220;字符串的�~�码”�?br />
�?UNICODE 被支持后�Q�Java 中的 String 是以字符�?#8220;序号”来存储的�Q�不是以“某种�~�码的字�?#8221;来存储的�Q�因此已�l�不存在“字符串的�~�码”�q�个概念了。只有在“字符�?#8221;�?#8220;字节�?#8221;转化�Ӟ��或者，��一�?#8220;字节�?#8221;当成一�?ANSI 字符串时�Q�才有编码的概念�?br />
不少的�h都有�q�个误解�?/td>

�W�一�U�误解，往往是导致�ؕ码��生的原因。第二种误解�Q�往往��D��本来�Ҏ��U�正的�ؕ码问题变得更复杂�?/p>
在这里，我们可以看到�Q�其中所讲的“误解一”�Q�即采用�?#8220;一个字�?#8221;��是“一个字�W?#8221;的�{化方法，实际上也��q��同于采用 iso-8859-1 �q�行转化。因此，我们常常使用 bytes = string.getBytes("iso-8859-1") 来进行逆向操作�Q�得到原始的“字节�?#8221;。然后再使用正确�?ANSI �~�码�Q�比�?string = new String(bytes, "GB2312")�Q�来得到正确�?#8220;UNICODE 字符�?#8221;�?/p>

3.2 �?UNICODE �E�序在不同语�a�环境间移植时的�ؕ�?/h5>
�?UNICODE �E�序中的字符�Ԍ��都是以某�U?ANSI �~�码形式存在的。如果程序运行时的语�a�环境与开发时的语�a�环境不同�Q�将会导�?ANSI 字符串的昄��p�|�?/p>
比如�Q�在日文环境下开发的�?UNICODE 的日文程序界面，拿到中文环境下运行时�Q�界面上��显�C�Zؕ码。如果这个日文程序界面改为采�?UNICODE 来记录字�W�串�Q�那么当在中文环境下�q�行�Ӟ��界面上将可以昄��正常的日文�?/p>
�׃��客观原因�Q�有时候我们必��d��中文操作�pȝ��下运行非 UNICODE 的日文��Y�Ӟ��q�时我们可以采用一些工��P��比如�Q�南极星�Q�AppLocale �{�，暂时的模拟不同的语言环境�?/p>

3.3 �|�页提交字符�?/h5>
当页面中的表单提交字�W�串�Ӟ��首先把字�W�串按照当前��面的编码，转化成字节串。然后再��每个字节�{化成 "%XX" 的格式提交到 Web 服务器。比如，一个编码�ؓ GB2312 的页面，提交 "�? �q�个字符串时�Q�提交给服务器的内容�?"%D6%D0"�?/p>
在服务器端，Web 服务器把收到�?"%D6%D0" 转化�?[0xD6, 0xD0] 两个字节�Q�然后再�Ҏ�� GB2312 �~�码规则得到 "�? 字�?/p>
�?Tomcat 服务器中�Q�request.getParameter() 得到��q��Ӟ��常常是因为前面提到的“误解一”造成的。默认情况下�Q�当提交 "%D6%D0" �l?Tomcat 服务器时�Q�request.getParameter() ��返�?[0x00D6, 0x00D0] 两个 UNICODE 字符�Q�而不是返回一�?"�? 字符。因此，我们需要��?bytes = string.getBytes("iso-8859-1") 得到原始的字节串�Q�再�?string = new String(bytes, "GB2312") 重新得到正确的字�W�串 "�?�?/p>

3.4 从数据库��d��字符�?/h5>
通过数据库客��L��Q�比�?ODBC �?JDBC�Q�从数据库服务器中读取字�W�串�Ӟ��客户端需要从服务器获知所使用�?ANSI �~�码。当数据库服务器发送字节流�l�客��L��Ӟ��客户端负责将字节��按照正��的�~�码转化�?UNICODE 字符丌Ӏ?/p>
如果从数据库��d��字符串时得到��q��Q�而数据库中存攄��数据又是正确的，那么往往�q�是因�ؓ前面提到�?#8220;误解一”造成的。解决的办法�q�是通过 string = new String( string.getBytes("iso-8859-1"), "GB2312") 的方法，重新得到原始的字节串�Q�再重新使用正确的编码�{化成字符丌Ӏ?/p>

3.5 电子邮�g中的字符�?/h5>
当一�D?Text 或�?HTML 通过电子邮�g传送时�Q�发送的内容首先通过一�U�指定的字符�~�码转化�?#8220;字节�?#8221;�Q�然后再�?#8220;字节�?#8221;通过一�U�指定的传输�~�码�Q�Content-Transfer-Encoding�Q�进行�{化得到另一�?#8220;字节�?#8221;。比如，打开一��电子邮件源代码�Q�可以看到类似的内容�Q?/p>

Content-Type: text/plain;
        charset="gb2312"
Content-Transfer-Encoding: base64

sbG+qcrQuqO17cf4yee74bGjz9W7+b3wudzA7dbQ0MQNCg0KvPKzxqO6uqO17cnnsaPW0NDEDQoNCg==

最常用�?Content-Transfer-Encoding �?Base64 �?Quoted-Printable 两种。在对二�q�制文�g或者中文文本进行�{化时�Q�Base64 得到�?#8220;字节�?#8221;�?Quoted-Printable 更短。在对英文文本进行�{化时�Q�Quoted-Printable 得到�?#8220;字节�?#8221;�?Base64 更短�?/p>
邮�g的标题，用了一�U�更��短的格式来标�?#8220;字符�~�码”�?#8220;传输�~�码”。比如，标题内容�?"�?�Q�则在邮件源代码中表�C�Zؓ�Q?/p>

// 正确的标题格�?/span>
Subject: =?GB2312?B?1tA=?=

其中�Q?/p>

�W�一�?#8220;=?”�?#8220;?”中间的部分指定了字符�~�码�Q�在�q�个例子中指定的�?GB2312�?
“?”�?#8220;?”中间�?#8220;B”代表 Base64。如果是“Q”则代�?Quoted-Printable�?
最�?#8220;?”�?#8220;?=”之间的部分，��是�l�过 GB2312 转化成字节串�Q�再�l�过 Base64 转化后的标题内容�?

如果“传输�~�码”改�ؓ Quoted-Printable�Q�同��P��如果标题内容�?"�?�Q?/p>

// 正确的标题格�?/span>
Subject: =?GB2312?Q?=D6=D0?=

如果阅读邮�g时出��Cؕ码，一般是因�ؓ“字符�~�码”�?#8220;传输�~�码”指定有误�Q�或者是没有指定。比如，有的发邮件组件在发送邮件时�Q�标�?"�?�Q?/p>

// 错误的标题格�?/span>
Subject: =?ISO-8859-1?Q?=D6=D0?=

�q�样的表�C�，实际上是明确指明了标题�ؓ [0x00D6, 0x00D0]�Q�即 "ÖÐ"�Q�而不�?"�?�?/p>

4. 几种错误理解的纠�?/h4>
误解�Q?#8220;ISO-8859-1 是国际编码？”

非也。iso-8859-1 只是单字节字�W�集中最��单的一�U�，也就�?#8220;字节�~�号”�?#8220;UNICODE 字符�~�号”一致的那种�~�码规则。当我们要把一�?#8220;字节�?#8221;转化�?#8220;字符�?#8221;�Q�而又不知道它是哪一�U?ANSI �~�码�Ӟ��先暂时地�?#8220;每一个字�?#8221;作�ؓ“一个字�W?#8221;�q�行转化�Q�不会造成信息丢失。然后再使用 bytes = string.getBytes("iso-8859-1") 的方法可恢复到原始的字节丌Ӏ?/p>
误解�Q?#8220;Java 中，怎样知道某个字符串的内码�Q?#8221;

Java 中，字符串类 java.lang.String 处理的是 UNICODE 字符�Ԍ��不是 ANSI 字符丌Ӏ�我们只需要把字符串作�?#8220;抽象的符��L��?#8221;来看待。因此不存在字符串的内码的问题�?/p>
　

happytian 2007-10-24 09:33 发表评论

消除jsp中get�Ҏ��传递中文参数的��q��问题

happytian — Mon, 27 Aug 2007 01:43:00 GMT
首先�Q�进入tomcat目录�Q?/usr/local/jakarta-tomcat-5.0.28/conf)
sudo vim server.xml
在如下添加红色部�?br>
                   maxThreads="150" minSpareThreads="25" maxSpareThreads="75"
               enableLookups="false" redirectPort="8443" acceptCount="100"
               debug="0" connectionTimeout="20000"
               disableUploadTimeout="true" URIEncoding="UTF-8或GBK"/>

保存�Q�重启tomcat卛_��
注意
�l�一资源标识�W?(Uniform Resource Identifier, URI)
�l�一资源定位�W?(Uniform Resource Locator, URL)

happytian 2007-08-27 09:43 发表评论

��d��LDAP

happytian — Wed, 22 Aug 2007 03:58:00 GMT
1�Q�先用hashTable初始化ldap用到的参数�?br>Hashtable env = new Hashtable();
env.put(Context.INITIAL_CONTEXT_FACTORY,"com.sun.jndi.ldap.LdapCtxFactory");
env.put(Context.PROVIDER_URL,"ldap://192.***.***.***:portNumber(389 is defualt)"�Q?
env.put(Context.SECURITY_PRINCIPAL,userID+"yourDomain(@***.com)");//
env.put(Context.SECURITY_CREDENTIALS, pass);
userID �?nbsp;pass��是��d��域的账号。不要用全称。因��Z��在上面用��C��域名�?br>2�Q�开始验证。通过try..catch来判断用��L��合法性�?br>try{
LdapContext ctx = new InitialLdapContext(env, null);
System.out.println("Succeess");
} catch �Q�Exception e) {
if (e.getMessage().indexOf("775") > = 0) {
System.out.println("你的账号被锁了�?);
}else {
System.out.println("Invalid User");
}
}

happytian 2007-08-22 11:58 发表评论

2D	4E	87	65	31	00	32	00	33	00	00	00	← �?x86 CPU 中，低字节在�?/font>

�?/td>		�?/td>		1		2		3		\0

	概念描述	举例
字符	��Z��使用的记��P��抽象意义上的一个符受��?/td>	'1', '�?, 'a', '$', '�K?, ……
字节	计算��Z��存储数据的单元，一�?位的二进制数�Q�是一个很具体的存储空间�?/td>	0x01, 0x45, 0xFA, ……
ANSI 字符�?/td>	在内存中�Q�如�?#8220;字符”是以 ANSI �~�码形式存在的，一个字�W�可能��用一个字节或多个字节来表�C�，那么我们�U�这�U�字�W�串�?ANSI 字符�?/strong>或�?strong>多字节字�W�串�?/td>	"中文123" �Q�占7字节�Q?/font>
UNICODE 字符�?/td>	在内存中�Q�如�?#8220;字符”是以�?UNICODE 中的序号存在的，那么我们�U�这�U�字�W�串�?UNICODE 字符�?/strong>或�?strong>宽字节字�W�串�?/td>	L"中文123" �Q�占10字节�Q?/font>

分类	�~�码标准	说明
单字节字�W�编�?/td>	ISO-8859-1	最��单的�~�码规则�Q�每一个字节直接作��Z��?UNICODE 字符。比如，[0xD6, 0xD0] �q�两个字节，通过 iso-8859-1 转化为字�W�串�Ӟ��直接得�?[0x00D6, 0x00D0] 两个 UNICODE 字符�Q�即 "ÖÐ"�?br /> 反之�Q�将 UNICODE 字符串通过 iso-8859-1 转化为字节串�Ӟ��只能正常转化 0~255 范围的字�W��?/td>
ANSI �~�码	GB2312, BIG5, Shift_JIS, ISO-8859-2 ……	�?UNICODE 字符串通过 ANSI �~�码转化�?#8220;字节�?#8221;�Ӟ��Ҏ��各自�~�码的规定，一�?UNICODE 字符可能转化成一个字节或多个字节�?br /> 反之�Q�将字节串�{化成字符串时�Q�也可能多个字节转化成一个字�W�。比如，[0xD6, 0xD0] �q�两个字节，通过 GB2312 转化为字�W�串�Ӟ��得�?[0x4E2D] 一个字�W�，�?'�? 字�?br /> “ANSI �~�码”的特点： 1. �q�些“ANSI �~�码标准”都只能处理各自语�a�范围之内�?UNICODE 字符�?br /> 2. “UNICODE 字符”�?#8220;转换出来的字�?#8221;之间的关�p�L��Zؓ规定的�?/td>
UNICODE �~�码	UTF-8, UTF-16, UnicodeBig ……	�?#8220;ANSI �~�码”�c�M��的，把字�W�串通过 UNICODE �~�码转化�?#8220;字节�?#8221;�Ӟ��一�?UNICODE 字符可能转化成一个字节或多个字节�?br /> �?#8220;ANSI �~�码”不同的是�Q?br /> 1. �q�些“UNICODE �~�码”能够处理所有的 UNICODE 字符�?br /> 2. “UNICODE 字符”�?#8220;转换出来的字�?#8221;之间是可以通过计算得到的�?/td>

�c�d��或操�?/strong>	C++	Java
字符	wchar_t	char
字节	char	byte
ANSI 字符�?/td>	char[]	byte[]
UNICODE 字符�?/td>	wchar_t[]	String
字节�?#8594;字符�?/td>	mbstowcs(), MultiByteToWideChar()	string = new String(bytes, "encoding")
字符�?#8594;字节�?/td>	wcstombs(), WideCharToMultiByte()	bytes = string.getBytes("encoding")

	对编码的误解
误解一	在将“字节�?#8221;转化�?#8220;UNICODE 字符�?#8221;�Ӟ��比如在读取文本文件时�Q�或者通过�\|�络传输文本�Ӟ��Ҏ��?#8220;字节�?#8221;��单地作�ؓ单字节字�W�串�Q�采用每“一个字�?#8221;��是“一个字�W?#8221;的方法进行�{化�?br /> 而实际上�Q�在非英文的环境中，应该��?#8220;字节�?#8221;作�ؓ ANSI 字符�Ԍ��采用适当的编码来得到 UNICODE 字符�Ԍ��有可�?#8220;多个字节”才能得到“一个字�W?#8221;�?br /> 通常�Q�一直在英文环境下做开发的�E�序员们�Q�容易有�q�种误解�?/td>
误解�?/td>	�?DOS�Q�Windows 98 �{�非 UNICODE 环境下，字符串都是以 ANSI �~�码的字节�Ş式存在的。这�U�以字节形式存在的字�W�串�Q�必��ȝ��道是哪种�~�码才能被正��地使用。这使我们�Ş成了一个惯性思维�Q?#8220;字符串的�~�码”�?br /> �?UNICODE 被支持后�Q�Java 中的 String 是以字符�?#8220;序号”来存储的�Q�不是以“某种�~�码的字�?#8221;来存储的�Q�因此已�l�不存在“字符串的�~�码”�q�个概念了。只有在“字符�?#8221;�?#8220;字节�?#8221;转化�Ӟ��或者，��一�?#8220;字节�?#8221;当成一�?ANSI 字符串时�Q�才有编码的概念�?br /> 不少的�h都有�q�个误解�?/td>

亚洲精品无码久久久久秋霞,亚洲欧洲尹人香蕉综合,亚洲国产日韩精品

java 调用存储�q�程

字符�Q�字节和�~�码

字符�Q�字节和�~�码

引言

1. �~�码问题的由来，相关概念的理�?/h4>

1.1 字符与编码的发展

1.3 字符集与�~�码

2. 字符与编码在�E�序中的实现

3. 几种误解�Q�以及�ؕ码��生的原因和解军_���?/h4>

4. 几种错误理解的纠�?/h4>

误解�Q?#8220;ISO-8859-1 是国际编码？”

误解�Q?#8220;Java 中，怎样知道某个字符串的内码�Q?#8221;

消除jsp中get�Ҏ��传递中文参数的��q��问题

��d��LDAP

3. 几种误解�Q�以及�ؕ码��生的原因和解军_��?/h4>