亚洲免费在线播放,亚洲?V无码乱码国产精品 ,亚洲免费视频网站

使用 domj4 API 创徏与修�?XML 文��

yy — Wed, 17 Aug 2005 09:02:00 GMT

Deepak Vohra (dvohra09@yahoo.com)
Web 开发�h�?BR>2004 �q?4 �?/FONT>

dom4j 是一�U�解�?XML 文��的开放源代码 XML 框架。本文介�l�如何��用包含在 dom4j 中的解析器创建�ƈ修改 XML 文��?/FONT>

dom4j API 包含一个解�?XML 文档的工兗��本文中��用这个解析器创徏一个示�?XML 文档。清�?1 昄��了这个示�?XML 文��Q�catalog.xml�?/FONT>

清单 1. �C�Z�� XML 文��Q�catalog.xml�Q?/FONT>


 
 
 

   


 Java configuration with XML Schema 
  
     Marcello 
     Vitaletti

然后使用同一个解析器修改 catalog.xml�Q�清�?2 是修改后�?XML 文��Q�catalog-modified.xml�?/FONT>

清单 2. 修改后的 XML 文��Q�catalog-modified.xml�Q?/FONT>


 
 
 

   


 Create flexible and extensible XML schemas 
  
     Ayesha 
     Malik

�?W3C DOM API 相比�Q��?dom4j 所包含的解析器的好处是 dom4j 拥有本地�?XPath 支持。DOM 解析器不支持使用 XPath 选择节点�?/FONT>

本文包括以下几个部分�Q?/FONT>

预先讄��
创徏文档
修改文��

预先讄��
�q�个解析器可以从 http://dom4j.org 获取。通过讄��?dom4j-1.4/dom4j-full.jar 能够�?classpath 中访问，该文件中包括 dom4j �c�R��XPath 引擎以及 SAX �?DOM 接口。如果已�l��用了 JAXP 解析器中包含�?SAX �?DOM 接口�Q�向 classpath 中增�?dom4j-1.4/dom4j.jar�?CODE>dom4j.jar 包括 dom4j �c�d�� XPath 引擎�Q�但是不�?SAX �?DOM 接口�?

创徏文��
本节讨论使用 dom4j API 创徏 XML 文��的过�E�，�q�创建示�?XML 文档 catalog.xml�?/FONT>

使用 import 语句导入 dom4j API �c�：


import org.dom4j.Document;
import org.dom4j.DocumentHelper;
import org.dom4j.Element;

使用 DocumentHelper �c�d��Z��个文档实例�?CODE>DocumentHelper 是生�?XML 文档节点�?dom4j API 工厂�c�R�?

 Document document = DocumentHelper.createDocument();

使用 addElement() �Ҏ��创徏根元�?catalog�?CODE> addElement() 用于�?XML 文��中增加元素�?/FONT>

Element catalogElement = document.addElement("catalog");

�?catalog 元素中��?addComment() �Ҏ��d��注释“An XML catalog”�?

 catalogElement.addComment("An XML catalog");

�?catalog 元素中��?addProcessingInstruction() �Ҏ��增加一个处理指令�?/FONT>

catalogElement.addProcessingInstruction("target","text");

�?catalog 元素中��?addElement() �Ҏ��增加 journal 元素�?/FONT>

Element journalElement =  catalogElement.addElement("journal");

使用 addAttribute() �Ҏ��?journal 元素��d�� title �?publisher 属性�?/FONT>

journalElement.addAttribute("title", "XML Zone");
         journalElement.addAttribute("publisher", "IBM developerWorks");

�?article 元素中添�?journal 元素�?/FONT>

Element articleElement=journalElement.addElement("article");

�?article 元素增加 level �?date 属性�?/FONT>

articleElement.addAttribute("level", "Intermediate");
      articleElement.addAttribute("date", "December-2001");

�?article 元素中增�?title 元素�?/FONT>

Element titleElement=articleElement.addElement("title");

使用 setText() �Ҏ��讄�� article 元素的文本�?/FONT>

titleElement.setText("Java configuration with XML Schema");

�?article 元素中增�?author 元素�?/FONT>

Element authorElement=articleElement.addElement("author");

�?author 元素中增�?firstname 元素�q�设�|�该元素的文本�?/FONT>

Element  firstNameElement=authorElement.addElement("firstname");
     firstNameElement.setText("Marcello");

�?author 元素中增�?lastname 元素�q�设�|�该元素的文本�?/FONT>

Element lastNameElement=authorElement.addElement("lastname");
     lastNameElement.setText("Vitaletti");

可以使用 addDocType() �Ҏ��d��文��c�d��说明�?/FONT>

document.addDocType("catalog", null,"file://c:/Dtds/catalog.dtd");

�q�样��向 XML 文档中增加文��类型说明：

如果文��要��用文��类型定义（DTD�Q�文��验证则必须�?Doctype�?/FONT>

XML 声明自动��d��?XML 文档中�?/FONT>

清单 3 所�C�的例子�E�序 XmlDom4J.java 用于创徏 XML 文档 catalog.xml�?/FONT>

清单 3. 生成 XML 文�� catalog.xml 的程序（XmlDom4J.java�Q?/FONT>


import org.dom4j.Document;
import org.dom4j.DocumentHelper;
import org.dom4j.Element;
import org.dom4j.io.XMLWriter;
import java.io.*;



public class XmlDom4J{


public void generateDocument(){
Document document = DocumentHelper.createDocument();
     Element catalogElement = document.addElement("catalog");
     catalogElement.addComment("An XML Catalog");
     catalogElement.addProcessingInstruction("target","text");
     Element journalElement =  catalogElement.addElement("journal");
     journalElement.addAttribute("title", "XML Zone");
     journalElement.addAttribute("publisher", "IBM developerWorks");


     Element articleElement=journalElement.addElement("article");
     articleElement.addAttribute("level", "Intermediate");
     articleElement.addAttribute("date", "December-2001");
     Element  titleElement=articleElement.addElement("title");
     titleElement.setText("Java configuration with XML Schema");
     Element authorElement=articleElement.addElement("author");
     Element  firstNameElement=authorElement.addElement("firstname");
     firstNameElement.setText("Marcello");
     Element lastNameElement=authorElement.addElement("lastname");
     lastNameElement.setText("Vitaletti");

     document.addDocType("catalog",
                           null,"file://c:/Dtds/catalog.dtd");
    try{
    XMLWriter output = new XMLWriter(
            new FileWriter( new File("c:/catalog/catalog.xml") ));
        output.write( document );
        output.close();
        }
     catch(IOException e){System.out.println(e.getMessage());}
}

public static void main(String[] argv){
XmlDom4J dom4j=new XmlDom4J();
dom4j.generateDocument();
}}

�q�一节讨��Z��创徏 XML 文��的过�E�，下一节将介绍使用 dom4j API 修改�q�里创徏�?XML 文档�?

修改文档
�q�一节说明如何��?dom4j API 修改�C�Z�� XML 文�� catalog.xml�?/FONT>

使用 SAXReader 解析 XML 文�� catalog.xml�Q?/FONT>

SAXReader saxReader = new SAXReader();
 Document document = saxReader.read(inputXml);

SAXReader 包含�?org.dom4j.io 包中�?/FONT>

inputXml 是从 c:/catalog/catalog.xml 创徏�?java.io.File。��?XPath 表达式从 article 元素中获�?level 节点列表。如�?level 属性值是“Intermediate”则改�ؓ“Introductory”�?/FONT>

List list = document.selectNodes("http://article/@level" );
      Iterator iter=list.iterator();
        while(iter.hasNext()){
            Attribute attribute=(Attribute)iter.next();
               if(attribute.getValue().equals("Intermediate"))
               attribute.setValue("Introductory"); 
       }

获取 article 元素列表�Q�从 article 元素中的 title 元素得到一个�P代器�Q��ƈ修改 title 元素的文本�?/FONT>

list = document.selectNodes("http://article" );
     iter=list.iterator();
   while(iter.hasNext()){
       Element element=(Element)iter.next();
      Iterator iterator=element.elementIterator("title");
   while(iterator.hasNext()){
   Element titleElement=(Element)iterator.next();
   if(titleElement.getText().equals("Java configuration with XML Schema"))
     titleElement.setText("Create flexible and extensible XML schema");

    }}

通过�?title 元素�c�M��的过�E�修�?author 元素�?/FONT>

清单 4 所�C�的�C�Z��E�序 Dom4JParser.java 用于�?catalog.xml 文��修改�?catalog-modified.xml 文��?/FONT>

清单 4. 用于修改 catalog.xml 的程序（Dom4Jparser.java�Q?/FONT>


import org.dom4j.Document;
import org.dom4j.Element;
import org.dom4j.Attribute;
import java.util.List;
import java.util.Iterator;
import org.dom4j.io.XMLWriter;
import java.io.*;
import org.dom4j.DocumentException;
import org.dom4j.io.SAXReader; 

public class Dom4JParser{

 public void modifyDocument(File inputXml){

  try{
   SAXReader saxReader = new SAXReader();
   Document document = saxReader.read(inputXml);

   List list = document.selectNodes("http://article/@level" );
   Iterator iter=list.iterator();
   while(iter.hasNext()){
    Attribute attribute=(Attribute)iter.next();
    if(attribute.getValue().equals("Intermediate"))
      attribute.setValue("Introductory"); 

       }
   
   list = document.selectNodes("http://article/@date" );
   iter=list.iterator();
   while(iter.hasNext()){
    Attribute attribute=(Attribute)iter.next();
    if(attribute.getValue().equals("December-2001"))
      attribute.setValue("October-2002");

       }

   list = document.selectNodes("http://article" );
   iter=list.iterator();
   while(iter.hasNext()){
    Element element=(Element)iter.next();
    Iterator iterator=element.elementIterator("title");
      while(iterator.hasNext()){
        Element titleElement=(Element)iterator.next();
        if(titleElement.getText().equals("Java configuration with XML

      Schema"))
        titleElement.setText("Create flexible and extensible XML schema");

                                          }

                                }

    list = document.selectNodes("http://article/author" );
    iter=list.iterator();
     while(iter.hasNext()){
     Element element=(Element)iter.next();
     Iterator iterator=element.elementIterator("firstname");
     while(iterator.hasNext()){
      Element firstNameElement=(Element)iterator.next();
      if(firstNameElement.getText().equals("Marcello"))
      firstNameElement.setText("Ayesha");
                                     }

                              }

    list = document.selectNodes("http://article/author" );
    iter=list.iterator();
     while(iter.hasNext()){
      Element element=(Element)iter.next();
      Iterator iterator=element.elementIterator("lastname");
     while(iterator.hasNext()){
      Element lastNameElement=(Element)iterator.next();
      if(lastNameElement.getText().equals("Vitaletti"))
      lastNameElement.setText("Malik");

                                  }

                               }
     XMLWriter output = new XMLWriter(
      new FileWriter( new File("c:/catalog/catalog-modified.xml") ));
     output.write( document );
     output.close();
   }
 
  catch(DocumentException e)
                 {
                  System.out.println(e.getMessage());
                            }

  catch(IOException e){
                       System.out.println(e.getMessage());
                    }
 }

 public static void main(String[] argv){

  Dom4JParser dom4jParser=new Dom4JParser();
  dom4jParser.modifyDocument(new File("c:/catalog/catalog.xml"));

                                        }

   }

�q�一节说明了如何使用 dom4j 中的解析器修改示�?XML 文��。这个解析器不��?DTD 或者模式验�?XML 文��。如�?XML 文档需要验证，可以解释�?dom4j �?JAXP SAX 解析器�?/FONT>

�l�束�?/FONT>
包含�?dom4j 中的解析器是一�U�用于解�?XML 文��的非验证性工��P��可以与JAXP、Crimson �?Xerces 集成。本文说明了如何使用该解析器创徏和修�?XML 文��?

参考资�?/FONT>

误��?dom4j Web 站点�Q�那里有一个很有用�?FAQ�?BR>

阅读 XML.com 上的文章�?/FONT>dom4j: the flexible XML framework for Java”�?BR>

通过 Dennis Sosnoski �?developerWorks 文章�?/FONT>文��模型�Q�第一部分�Q�性能”（2001 �q? 月）和�?/FONT>Java 文档模型的用�?/FONT>”（2002 �q?2 月）�q�一步研�I?dom4j�?BR>

通过 Elliotte Rusty Harold 的�?/FONT>Processing XML with Java”了解如何编制读�?XML 文��?Java �E�序�?BR>

�?developerWorks XML �?Web 服务专区可以扑ֈ�更多�?XML 资源。也可以订阅每周一期的 Web 服务/XML 技巧新闻邮�?/FONT>�?BR>

�?developerWorks Developer Bookstore 可以扑ֈ�各种关于 XML 的书�c��?BR>

了解如何才能成�ؓ一�?IBM 认证�?XML 及相��x��术的开发�h�?/FONT>�?BR>

关于作�?/FONT>
Deepak Vohra�Q�dvohra09@yahoo.com�Q�是一�?Web 开发�h员、NuBean ��N��?Sun 认证�?Java 1.4 �E�序员。可以通过 dvohra09@yahoo.com 与他联系�?

yy 2005-08-17 17:02 发表评论

yy — Mon, 15 Aug 2005 08:27:00 GMT

�q�篇文章转自www.jdon.com�Q�也是一个很好的学习java的站炏V�?/FONT>

内容�Q?/FONT>

XML配置文�g的读取处�?BR>板桥里�h jdon.com 2002/2

Java和XML是黄金组�?�|�上已经有很多文章介�l?XML作�ؓ电子商务中数据交�?已经有其不可替代的作�?但是在��^时系�l�开发中,我们不一定都用到数据交换,是不是无法��用XML�?

现在关键是如何读取XML配置文�g?有好几种XML解析�?主要有DOM和SAX ,�q�些区别�|�上文章介绍很多.

在apache的XML��目�l�中,目前有Xerces Xalan Cocoon几个开发XML相关技术的project.Tomcat本��n使用的是 Sun �?JAXP,而其XSL Taglib project中��用Xerces解析�?

好了,上面都是比较烦�h的理论问�?�q�是赶快切入XML的配�|�文件的��d��?

在我们的�E�序�?通常要有一些根据主机环境确定的变量.比如数据库访问用户名和密�?不同的主机可能设�|�不一�?只要更改XML配置文�g,��可以正常运�?

localhost
sqlname
username
password

上面�q�个myenv.xml配置文�g一般是攑֜�tomcat的WEB-INF/classes目录�?

我们�~�制一个Java�E�序直接��d��,��dbhost dbuser dbpassword提取出来供其他程序访问数据库�?

目前使用SAX比较的多,与DOM主要区别�?SAX是一行一行读取XML文�g�q�行分析,适合比较大文�?DOM是一�ơ性读入内�?昄��不能对付大文�?�q�里我们使用SAX解析,�׃��SAX解析器不断在发展,�|�上有不��文章是针对老版本的.如果你��用JDK1.4 ,可以参�?使用SAX处理XML文�� 一�?�q�里的程序是�Ҏ��其改�q��ƈ且经�q�实践调试得来的.

对上面myenv.xml��d��的Java�E�序:

import org.xml.sax.Attributes;
import org.xml.sax.helpers.DefaultHandler;
import org.xml.sax.SAXException;
import java.util.Properties;

//使用DefaultHandler的好�?�?不必陈列出所有方�?
public class ConfigParser extends DefaultHandler {

////定义一个Properties 用来存放 dbhost dbuser dbpassword的�?BR>private Properties props;

private String currentSet;
private String currentName;
private StringBuffer currentValue = new StringBuffer();

//构徏器初始化props
public ConfigParser() {

this.props = new Properties();
}

public Properties getProps() {
return this.props;
}

//定义开始解析元素的�Ҏ��. �q�里是将中的名称xxx提取出来.
public void startElement(String uri, String localName, String qName, Attributes attributes)
throws SAXException {
currentValue.delete(0, currentValue.length());
this.currentName =qName;

}

//�q�里是将之间的值加入到currentValue

public void characters(char[] ch, int start, int length) throws SAXException {

currentValue.append(ch, start, length);

}

//在遇�?lt;/xxx>�l�束�?��之前的名称和��g��一对应保存在props�?/FONT>

public void endElement(String uri, String localName, String qName) throws SAXException {

props.put(qName.toLowerCase(), currentValue.toString().trim());
}

}

上面的这个解析程序比较简单吧? 其实解析XML��是�q�么��?

现在我们已经��dbhost dbuser dbpassword的值localhost sqlname username password提取了出�?但是�q�只是在在解析器内部,我们的程序还不能讉K��.需要再�~�制一个程�?

import java.util.Properties;
import javax.xml.parsers.SAXParser;
import javax.xml.parsers.SAXParserFactory;
import java.net.URL;

public class ParseXML{

//定义一个Properties 用来存放 dbhost dbuser dbpassword的�?BR>private Properties props;

//�q�里的props
public Properties getProps() {
return this.props;
}

public void parse(String filename) throws Exception {

//��我们的解析器对象化
ConfigParser handler = new ConfigParser();

//获取SAX工厂对象
SAXParserFactory factory = SAXParserFactory.newInstance();
factory.setNamespaceAware(false);
factory.setValidating(false);

//获取SAX解析
SAXParser parser = factory.newSAXParser();

//得到配置文�gmyenv.xml所在目�? tomcat中是在WEB-INF/classes
//下例中BeansConstants是用来存放xml文�g中配�|�信息的�c?可以自己代替或定�?BR>URL confURL = BeansConstants.class.getClassLoader().getResource(filename);

try
{
//��解析器和解析对象myenv.xml联系��h��,开始解�?
parser.parse(confURL.toString(), handler);
//获取解析成功后的属�?以后我们其他应用�E�序只要调用本程序的props��可以提取出属性名�U�和��g��
props = handler.getProps();
}finally{
factory=null;
parser=null;
handler=null;
}

}

�׃��我们的XML文�g是��用最��单的形式 ,因此解析器相对简�?但是�q�已�l��够对付我们的配置文�g�?

判断一个程序系�l�的先进�?我们先看看他的配�|�文�?如果�q�在使用老套的xxx=123 �q�样�c�M��.ini的文�?
我们也许会微微一�W?他又落伍�?....

yy 2005-08-15 16:27 发表评论

谈谈Unicode�~�码�Q�简要解释UCS、UTF、BMP、BOM�{�名�?ZT)

yy — Mon, 15 Aug 2005 03:15:00 GMT

谈谈Unicode�~�码�Q�简要解释UCS、UTF、BMP、BOM�{�名�?BR>�q�是一��程序员写给�E�序员的��味�ȝ��。所谓趣��x��指可以比较轻村֜�了解一些原来不清楚的概念，增进知识�Q�类��g��打RPG游戏的升�U�。整理这��文章的动机是两个问题：

问题一�Q?
使用Windows��C��本的“另存�ؓ”，可以在GBK、Unicode、Unicode big endian和UTF-8�q�几�U�编码方式间�怺�转换。同��h��txt文�g�Q�Windows是怎样识别�~�码方式的呢�Q?/FONT>

我很早前��发现Unicode、Unicode big endian和UTF-8�~�码的txt文�g的开头会多出几个字节�Q�分别是FF、FE�Q�Unicode�Q?FE、FF�Q�Unicode big endian�Q?EF、BB、BF�Q�UTF-8�Q�。但�q�些标记是基于什么标准呢�Q?/FONT>

问题二：
最�q�在�|�上看到一个ConvertUTF.c�Q�实��C��UTF-32、UTF-16和UTF-8�q�三�U�编码方式的�怺�转换。对于Unicode(UCS2)、GBK、UTF-8�q�些�~�码方式�Q�我原来��׃��解。但�q�个�E�序让我有些�p�涂�Q�想不�v来UTF-16和UCS2有什么关�p�R�?
查了查相兌��料，�ȝ��这些问题弄清楚了，��带也了解了一些Unicode的细节。写成一��文章，送给有过�c�M��疑问的朋友。本文在写作时尽量做到通俗易懂�Q�但要求读者知道什么是字节�Q�什么是十六�q�制�?/FONT>

0、big endian和little endian
big endian和little endian是CPU处理多字节数的不同方式。例如“汉”字的Unicode�~�码�?C49。那么写到文仉��Ӟ��I�竟是将6C写在前面�Q�还是将49写在前面�Q�如果将6C写在前面�Q�就是big endian。如果将49写在前面�Q�就是little endian�?/FONT>

“endian”这个词��《格列佛游记》。小人国的内战就源于吃鸡蛋时是究竟从大头(Big-Endian)敲开�q�是从小�?Little-Endian)敲开�Q�由此曾发生�q�六�ơ叛乱，一个皇帝送了命，另一个丢了王位�?/FONT>

我们一般将endian��译成“字节序”，��big endian和little endian�U�C��“大��䏀�和“小��䏀��?/FONT>

1、字�W�编码、内码，��带介绍汉字�~�码
字符必须�~�码后才能被计算机处理。计��机使用的缺省编码方式就是计��机的内码。早期的计算��Z��?位的ASCII�~�码�Q��ؓ了处理汉字，�E�序员设计了用于��体中文的GB2312和用于繁体中文的big5�?/FONT>

GB2312(1980�q?一共收录了7445个字�W�，包括6763个汉字和682个其它符受��汉字区的内码范围高字节从B0-F7�Q�低字节从A1-FE�Q�占用的码位�?2*94=6768。其中有5个空位是D7FA-D7FE�?/FONT>

GB2312支持的汉字太��?995�q�的汉字扩展规范GBK1.0收录�?1886个符��P��它分为汉字区和图形符号区。汉字区包括21003个字�W��?/FONT>

从ASCII、GB2312到GBK�Q�这些编码方法是向下兼容的，卛_��一个字�W�在�q�些�Ҏ��中��L��有相同的�~�码�Q�后面的标准支持更多的字�W�。在�q�些�~�码中，英文和中文可以统一地处理。区分中文编码的�Ҏ��是高字节的最高位不�ؓ0。按照程序员的称��|��GB2312、GBK都属于双字节字符�?(DBCS)�?/FONT>

2000�q�的GB18030是取代GBK1.0的正式国家标准。该标准收录�?7484个汉字，同时�q�收录了藏文、蒙文、维向ְ�文等主要的少数民族文字。从汉字字汇上说�Q�GB18030在GB13000.1�?0902个汉字的基础上增加了CJK扩展A�?582个汉字（Unicode�?x3400-0x4db5�Q�，一共收录了27484个汉字�?/FONT>

CJK��是中日韩的意思。Unicode��Z��节省码位�Q�将中日韩三国语�a�中的文字�l�一�~�码。GB13000.1��是ISO/IEC 10646-1的中文版�Q�相当于Unicode 1.1�?/FONT>

GB18030的编码采用单字节、双字节�?字节�Ҏ��。其中单字节、双字节和GBK是完全兼容的�?字节�~�码的码位就是收录了CJK扩展A�?582个汉字�?例如�Q�UCS�?x3400在GB18030中的�~�码应该�?139EF30�Q�UCS�?x3401在GB18030中的�~�码应该�?139EF31�?/FONT>

微��Y提供了GB18030的升�U�包�Q�但�q�个升��包只是提供了一套支持CJK扩展A�?582个汉字的新字体：新宋�?18030�Q��ƈ不改变内码。Windows 的内码仍然是GBK�?/FONT>

�q�里�q�有一些细节：

GB2312的原文还是区位码�Q�从��Z��码到内码�Q�需要在高字节和低字节上分别加上A0�?/FONT>

对于��M��字符�~�码�Q�编码单元的��序是由�~�码�Ҏ��指定的，与endian无关。例如GBK的编码单元是字节�Q�用两个字节表示一个汉字�?�q�两个字节的��序是固定的�Q�不受CPU字节序的影响。UTF-16的编码单元是word�Q�双字节�Q�，word之间的顺序是�~�码�Ҏ��指定的，word内部的字节排列才会受到endian的媄响。后面还会介�l�UTF-16�?/FONT>

GB2312的两个字节的最高位都是1。但�W�合�q�个条�g的码位只�?28*128=16384个。所以GBK和GB18030的低字节最高位都可能不�?。不�q�这不媄响DBCS字符��的解析�Q�在��d��DBCS字符��时�Q�只要遇到高位�ؓ1的字节，��可以将下两个字节作��Z��个双字节�~�码�Q�而不用管低字节的高位是什么�?/FONT>

2、Unicode、UCS和UTF
前面提到从ASCII、GB2312、GBK到GB18030的编码方法是向下兼容的。而Unicode只与ASCII兼容�Q�更准确地说�Q�是与ISO-8859-1兼容�Q�，与GB码不兼容。例如“汉”字的Unicode�~�码�?C49�Q�而GB码是BABA�?/FONT>

Unicode也是一�U�字�W�编码方法，不过它是由国际组�l�设计，可以容纳全世界所有语�a�文字的编码方案。Unicode的学名是"Universal Multiple-Octet Coded Character Set"�Q�简�U�CؓUCS。UCS可以看作�?Unicode Character Set"的羃写�?/FONT>

�Ҏ��l�基癄��全书(http://zh.wikipedia.org/wiki/)的记载：历史上存在两个试囄��立设计Unicode的组�l�，卛_��际标准化�l�织�Q�ISO�Q�和一个��Y件制造商的协会（unicode.org�Q�。ISO开发了ISO 10646��目�Q�Unicode协会开发了Unicode��目�?/FONT>

�?991�q�前后，双方都认识到世界不需要两个不兼容的字�W�集。于是它们开始合�q�双方的工作成果�Q��ƈ为创立一个单一�~�码表而协同工作。从Unicode2.0开始，Unicode��目采用了与ISO 10646-1相同的字库和字码�?/FONT>

目前两个��目仍都存在�Q��ƈ独立地公布各自的标准。Unicode协会现在的最新版本是2005�q�的Unicode 4.1.0。ISO的最新标准是ISO 10646-3:2003�?/FONT>

UCS只是规定如何�~�码�Q��ƈ没有规定如何传输、保存这个编码。例如“汉”字的UCS�~�码�?C49�Q�我可以�?个ascii数字来传输、保存这个编码；也可以用utf-8�~�码:3个连�l�的字节E6 B1 89来表�C�它。关键在于通信双方都要认可。UTF-8、UTF-7、UTF-16都是被广泛接受的�Ҏ��。UTF-8的一个特别的好处是它与ISO-8859-1完全兼容。UTF是“UCS Transformation Format”的�~�写�?/FONT>

IETF的RFC2781和RFC3629以RFC的一贯风��|��清晰、明快又不失严�}地描�q�C��UTF-16和UTF-8的编码方法。我��L��C��得IETF是Internet Engineering Task Force的羃写。但IETF负责�l�护的RFC是Internet上一切规范的基础�?/FONT>

2.1、内码和code page
目前Windows的内核已�l�采用Unicode�~�码�Q�这样在内核上可以支持全世界所有的语言文字。但是由于现有的大量�E�序和文档都采用了某�U�特定语�a�的编码，例如GBK�Q�Windows不可能不支持现有的编码，而全部改用Unicode�?/FONT>

Windows使用代码��?code page)来适应各个国家和地区。code page可以被理解�ؓ前面提到的内码。GBK对应的code page是CP936�?/FONT>

微��Y也�ؓGB18030定义了code page�Q�CP54936。但是由于GB18030有一部分4字节�~�码�Q�而Windows的代码页只支持单字节和双字节�~�码�Q�所以这个code page是无法真正��用的�?/FONT>

3、UCS-2、UCS-4、BMP
UCS有两�U�格式：UCS-2和UCS-4。顾名思义�Q�UCS-2��是用两个字节编码，UCS-4��是�?个字节（实际上只用了31位，最高位必须�?�Q�编码。下面让我们做一些简单的数学游戏�Q?/FONT>

UCS-2�?^16=65536个码位，UCS-4�?^31=2147483648个码位�?/FONT>

UCS-4�Ҏ��最高位�?的最高字节分�?^7=128个group。每个group再根据次高字节分�?56个plane。每个plane�Ҏ��W?个字节分�?56�?(rows)�Q�每行包�?56个cells。当然同一行的cells只是最后一个字节不同，其余都相同�?/FONT>

group 0的plane 0被称作Basic Multilingual Plane, 即BMP。或者说UCS-4中，高两个字节�ؓ0的码位被�U�C��BMP�?/FONT>

��UCS-4的BMP��L��前面的两个零字节��得��C��UCS-2。在UCS-2的两个字节前加上两个零字节，��得��C��UCS-4的BMP。而目前的UCS-4规范中还没有��M��字符被分配在BMP之外�?/FONT>

4、UTF�~�码

UTF-8��是�?位�ؓ单元对UCS�q�行�~�码。从UCS-2到UTF-8的编码方式如下：

UCS-2�~�码(16�q�制) UTF-8 字节��?二进�?
0000 - 007F       0xxxxxxx
0080 - 07FF       110xxxxx 10xxxxxx
0800 - FFFF       1110xxxx 10xxxxxx 10xxxxxx

例如“汉”字的Unicode�~�码�?C49�?C49�?800-FFFF之间�Q�所以肯定要�?字节模板了：1110xxxx 10xxxxxx 10xxxxxx。将6C49写成二进制是�Q?110 110001 001001�Q?用这个比�Ҏ��依次代替模板中的x�Q�得刎ͼ�11100110 10110001 10001001�Q�即E6 B1 89�?/FONT>

读者可以用��C��本测试一下我们的�~�码是否正确。需要注意，UltraEdit在打开utf-8�~�码的文本文件时会自动�{换�ؓUTF-16�Q�可能��生�؜淆。你可以在设�|�中��x��q�个选项。更好的工具是Hex Workshop�?/FONT>

UTF-16�?6位�ؓ单元对UCS�q�行�~�码。对于小�?x10000的UCS码，UTF-16�~�码��q��于UCS码对应的16位无�W�号整数。对于不��于0x10000的UCS码，定义了一个算法。不�q�由于实际��用的UCS2�Q�或者UCS4的BMP必然��于0x10000�Q�所以就目前而言�Q�可以认为UTF-16和UCS-2基本相同。但UCS-2只是一个编码方案，UTF-16却要用于实际的传输，所以就不得不考虑字节序的问题�?/FONT>

5、UTF的字节序和BOM
UTF-8以字节�ؓ�~�码单元�Q�没有字节序的问题。UTF-16以两个字节�ؓ�~�码单元�Q�在解释一个UTF-16文本前，首先要弄清楚每个�~�码单元的字节序。例如“奎”的Unicode�~�码�?94E�Q�“乙”的Unicode�~�码�?E59。如果我们收到UTF-16字节��?94E”，那么�q�是“奎”还是“乙”？

Unicode规范中推荐的标记字节��序的方法是BOM。BOM不是“Bill Of Material”的BOM表，而是Byte Order Mark。BOM是一个有点小聪明的想法：

在UCS�~�码中有一个叫�?ZERO WIDTH NO-BREAK SPACE"的字�W�，它的�~�码是FEFF。而FFFE在UCS中是不存在的字符�Q�所以不应该出现在实际传输中。UCS规范��我们在传输字节流前，先传输字�W?ZERO WIDTH NO-BREAK SPACE"�?/FONT>

�q�样如果接收者收到FEFF�Q�就表明�q�个字节��是Big-Endian的；如果收到FFFE�Q�就表明�q�个字节��是Little-Endian的。因此字�W?ZERO WIDTH NO-BREAK SPACE"又被�U�C��BOM�?/FONT>

UTF-8不需要BOM来表明字节顺序，但可以用BOM来表明编码方式。字�W?ZERO WIDTH NO-BREAK SPACE"的UTF-8�~�码是EF BB BF�Q�读者可以用我们前面介绍的编码方法验证一下）。所以如果接收者收��C��EF BB BF开头的字节��，��q��道这是UTF-8�~�码了�?/FONT>

Windows��是使用BOM来标记文本文件的�~�码方式的�?/FONT>

6、进一步的参考资�?BR>本文主要参考的资料�?"Short overview of ISO-IEC 10646 and Unicode" (http://www.nada.kth.se/i18n/ucs/unicode-iso10646-oview.html)�?/FONT>

我还找了两篇看上��M��错的资料�Q�不�q�因为我开始的疑问都找��C��{�案�Q�所以就没有看：

"Understanding Unicode A general introduction to the Unicode Standard" (http://scripts.sil.org/cms/scripts/page.php?site_id=nrsi&item_id=IWS-Chapter04a)
"Character set encoding basics Understanding character set encodings and legacy encodings" (http://scripts.sil.org/cms/scripts/page.php?site_id=nrsi&item_id=IWS-Chapter03)
我写�q�UTF-8、UCS-2、GBK�怺�转换的��Y件包�Q�包括��用Windows API和不使用Windows API的版本。以后有旉��的话�Q�我会整理一下放到我的个��Z��上(http://fmddlmyy.home4u.china.com)�?/FONT>

我是��x��楚所有问题后才开始写�q�篇文章的，原以��Z��会儿��p��写好。没惛_��考虑措辞和查证细节花费了很长旉��Q�竟然从下午1:30写到9:00。希望有读者能从中受益�?/FONT>

附录1 再说说区位码、GB2312、内码和代码��?BR>有的朋友�Ҏ��章中�q�句话还有疑问：
“GB2312的原文还是区位码�Q�从��Z��码到内码�Q�需要在高字节和低字节上分别加上A0。�?/FONT>

我再详细解释一下：

“GB2312的原文”是指国�?980�q�的一个标准《中华�h民共和国国家标准信息交换用汉字编码字�W�集基本�?GB 2312-80》。这个标准用两个数来�~�码汉字和中文符受��第一个数�U�Cؓ“区”，�W�二个数�U�Cؓ“位”。所以也�U�Cؓ��Z��码�?-9区是中文�W�号�Q?6-55区是一�U�汉字，56-87区是二��汉字。现在Windows也还有区位输入法�Q�例如输�?601得到“啊”�?/FONT>

内码是指操作�pȝ��内部的字�W�编码。早期操作系�l�的内码是与语言相关�?现在的Windows在内部统一使用Unicode�Q�然后用代码��适应各种语言,“内码”的概念��比较模�p�了。微软一般将�~�省代码��|��定的�~�码说成是内码，在特�D�的场合也会说自��q��内码是Unicode�Q�例如在GB18030问题的处理上�?/FONT>

所谓代码页(code page)��是针对一�U�语�a�文字的字�W�编码。例如GBK的code page是CP936�Q�BIG5的code page是CP950�Q�GB2312的code page是CP20936�?/FONT>

Windows中有�~�省代码��늚�概念�Q�即�~�省用什么编码来解释字符。例如Windows的记事本打开了一个文本文�Ӟ��里面的内�Ҏ��字节��：BA、BA、D7、D6。Windows应该��L��么解释它呢�Q?/FONT>

是按照Unicode�~�码解释、还是按照GBK解释、还是按照BIG5解释�Q�还是按照ISO8859-1去解释？如果按GBK去解释，��׃��得到“汉字”两个字。按照其它编码解释，可能找不到对应的字符�Q�也可能扑ֈ�错误的字�W�。所谓“错误”是指与文本作者的本意不符�Q�这时就产生了�ؕ码�?/FONT>

�{�案是Windows按照当前的缺省代码页去解释文本文仉��的字节流。缺省代码页可以通过控制面板的区域选项讄��。记事本的另存�ؓ中有一��ANSI�Q�其实就是按照缺省代码页的编码方法保存�?/FONT>

Windows的内码是Unicode�Q�它在技术上可以同时支持多个代码��c��只要文件能说明自己使用什么编码，用户又安装了对应的代码页�Q�Windows��p��正确昄��Q�例如在HTML文�g中就可以指定charset�?/FONT>

有的HTML文�g作者，特别是英文作者，认�ؓ世界上所有�h都��用英文，在文件中不指定charset。如果他使用�?x80-0xff之间的字�W�，中文Windows又按照缺省的GBK去解释，��׃��出现��q��。这时只要在�q�个html文�g中加上指定charset的语句，例如�Q?BR>
如果原作者��用的代码��和ISO8859-1兼容�Q�就不会出现��q��了�?/FONT>

再说��Z��码，啊的��Z��码是1601�Q�写�?6�q�制�?x10,0x01。这和计��机�q�泛使用的ASCII�~�码冲突。�ؓ了兼�?0-7f的ASCII�~�码�Q�我们在��Z��码的高、低字节上分别加上A0。这样“啊”的�~�码��成为B0A1。我们将加过两个A0的编码也�U�CؓGB2312�~�码�Q�虽然GB2312的原文根本没提到�q�一炏V�?

yy 2005-08-15 11:15 发表评论

亚洲免费在线播放,亚洲?V无码乱码国产精品 ,亚洲免费视频网站

使用 domj4 API 创徏与修�?XML 文���

谈谈Unicode�~�码�Q�简要解释UCS、UTF、BMP、BOM�{�名�?ZT)

使用 domj4 API 创徏与修�?XML 文��