[tips]使用Java��中文字�W��{换成Unicode�~�码

leon — Sat, 28 Oct 2006 12:53:00 GMT

�q�两天操作XML使用��C��Jdom�Q�在创徏XML文�g�q�输出到��盘的时候遇��C��个中文编码的问题�Q�Jdom默认输出的XML�~�码是UTF-8�Q�但是文��中如果出现中文字符那么该中文字�W�就�?x��)变成�ؕ码，造成XML文�g无法被正��解析�?/p>

UTF-8应该是可以用来表�C�Z��文的吧？我不知道�q�是不是Jdom的一个BUG�Q�Jdom 1.0�Q�beta�?0�ơ的产物哦！�Q�。我google了一下，大家解决�q�个问题的办法无非是把Jdom的输出字�W�集改�ؓ(f��)GBK或者GB2312�Q�但是这样就�?x��)有一些副作用�Q�如果在没有特定字符集（GBK或者GB2312�Q�的操作�pȝ��上不是依然不能正��解析吗�Q�一个比较好的解军_��法是先把中文转换成Unicode�~�码在直接输出，�E�序解析XML后的时候再把Unicode�~�码转回中文��没有问题了�?/p>

于是我查看了JDK的文��，截至Java 5好像都没有做�c�M��转换的类可以直接使用�Q�但是我发现一个类 java.util.Properties�Q�它的源代码里有两个�U�有�Q�private�Q�方�?loadConvert (char[] in, int off, int len, char[] convtBuf) �?saveConvert(String theString, boolean escapeSpace) 其实��是做特�D�字�W�和Unicode�~�码字符间�{换的�Q�我把它们提取出来，单独包装��C��个类里就可以使用了�?/p>

下面是我包装的类 CharacterSetToolkit

/*
* CharacterSetToolkit.java
*
* Created on 2006�q?0�?7�? 下午2:06
*
* To change this template, choose Tools | Template Manager
* and open the template in the editor.
*/

package mobi.chenwei.lang;

/**
* �q�行字符操作的工��L(f��ng)��
* @author Chen Wei
* @email chenwei.mobi@gmail.com
*/
public class CharacterSetToolkit {

    /** Creates a new instance of CharacterSetToolkit */
    public CharacterSetToolkit() {
    }

    private static final char[] hexDigit = {
        '0','1','2','3','4','5','6','7','8','9','A','B','C','D','E','F'
    };

    private static char toHex(int nibble) {
        return hexDigit[(nibble & 0xF)];
    }

    /**
     * ��字�W�串�~�码�?Unicode �?br />     * @param theString 待�{换成Unicode�~�码的字�W�串�?br />     * @param escapeSpace 是否忽略�I�格�?br />     * @return �q�回转换后Unicode�~�码的字�W�串�?br />     */
    public static String toUnicode(String theString, boolean escapeSpace) {
        int len = theString.length();
        int bufLen = len * 2;
        if (bufLen < 0) {
            bufLen = Integer.MAX_VALUE;
        }
        StringBuffer outBuffer = new StringBuffer(bufLen);

        for(int x=0; x            char aChar = theString.charAt(x);
            // Handle common case first, selecting largest block that
            // avoids the specials below
            if ((aChar > 61) && (aChar < 127)) {
                if (aChar == '\\') {
                    outBuffer.append('\\'); outBuffer.append('\\');
                    continue;
                }
                outBuffer.append(aChar);
                continue;
            }
            switch(aChar) {
                case ' ':
                    if (x == 0 || escapeSpace)
                        outBuffer.append('\\');
                    outBuffer.append(' ');
                    break;
                case '\t':outBuffer.append('\\'); outBuffer.append('t');
                          break;
                case '\n':outBuffer.append('\\'); outBuffer.append('n');
                          break;
                case '\r':outBuffer.append('\\'); outBuffer.append('r');
                          break;
                case '\f':outBuffer.append('\\'); outBuffer.append('f');
                          break;
                case '=': // Fall through
                case ':': // Fall through
                case '#': // Fall through
                case '!':
                    outBuffer.append('\\'); outBuffer.append(aChar);
                    break;
                default:
                    if ((aChar < 0x0020) || (aChar > 0x007e)) {
                        outBuffer.append('\\');
                        outBuffer.append('u');
                        outBuffer.append(toHex((aChar >> 12) & 0xF));
                        outBuffer.append(toHex((aChar >> 8) & 0xF));
                        outBuffer.append(toHex((aChar >> 4) & 0xF));
                        outBuffer.append(toHex( aChar        & 0xF));
                    } else {
                        outBuffer.append(aChar);
                    }
            }
        }
        return outBuffer.toString();
    }

    /**
     * �?Unicode 码�{换成�~�码前的�Ҏ(gu��)��字符丌Ӏ?br />     * @param in Unicode�~�码的字�W�数�l��?br />     * @param off 转换的�v始偏�U�量�?br />     * @param len 转换的字�W�长度�?br />     * @param convtBuf 转换的缓存字�W�数�l��?br />     * @return 完成转换�Q�返回编码前的特�D�字�W�串�?br />     */
    public String fromUnicode(char[] in, int off, int len, char[] convtBuf) {
        if (convtBuf.length < len) {
            int newLen = len * 2;
            if (newLen < 0) {
                newLen = Integer.MAX_VALUE;
            }
            convtBuf = new char[newLen];
        }
        char aChar;
        char[] out = convtBuf;
        int outLen = 0;
        int end = off + len;

        while (off < end) {
            aChar = in[off++];
            if (aChar == '\\') {
                aChar = in[off++];
                if (aChar == 'u') {
                    // Read the xxxx
                    int value = 0;
                    for (int i = 0; i < 4; i++) {
                        aChar = in[off++];
                        switch (aChar) {
                        case '0':
                        case '1':
                        case '2':
                        case '3':
                        case '4':
                        case '5':
                        case '6':
                        case '7':
                        case '8':
                        case '9':
                            value = (value << 4) + aChar - '0';
                            break;
                        case 'a':
                        case 'b':
                        case 'c':
                        case 'd':
                        case 'e':
                        case 'f':
                            value = (value << 4) + 10 + aChar - 'a';
                            break;
                        case 'A':
                        case 'B':
                        case 'C':
                        case 'D':
                        case 'E':
                        case 'F':
                            value = (value << 4) + 10 + aChar - 'A';
                            break;
                        default:
                            throw new IllegalArgumentException(
                                    "Malformed \\uxxxx encoding.");
                        }
                    }
                    out[outLen++] = (char) value;
                } else {
                    if (aChar == 't') {
                        aChar = '\t';
                    } else if (aChar == 'r') {
                        aChar = '\r';
                    } else if (aChar == 'n') {
                        aChar = '\n';
                    } else if (aChar == 'f') {
                        aChar = '\f';
                    }
                    out[outLen++] = aChar;
                }
            } else {
                out[outLen++] = (char) aChar;
            }
        }
        return new String(out, 0, outLen);
    }
}

leon 2006-10-28 20:53 发表评论

[tips]Java 中十�q�制十六�q�制�怺�转换

leon — Tue, 19 Sep 2006 04:02:00 GMT

// 十进制�{化�ؓ(f��)十六�q�制�Q�结果�ؓ(f��)C8�?br /> Integer.toHexString(200);

// 十六�q�制转化为十�q�制�Q�结�?40�?br /> Integer.parseInt("8C",16);

leon 2006-09-19 12:02 发表评论

[tips] Java中的四舍五入

leon — Wed, 07 Jun 2006 03:50:00 GMT

Java.lang.Math的round()�Ҏ(gu��)��q�回的是整型�Q�如果要保留��数位的话可以先乘以�Q�小��C��?* 10�Q�，使用Java.lang.Math的round()�Ҏ(gu��)��计算之后再除以（��数位数 * 10�Q��?br />

     /**
     * ��点数的四舍五入�?br />     * @param f float 代表源��Q�Ҏ(gu��)��
     * @param digits int 保留的小数点后位�?br />     * @return float
      */
     public static float round( float f, int digits) {
         float offset = 1f;
         if (digits == 0 ) {
            offset = 1f;
        } else if (digits > 0 ) {
            offset = digits * 10f;
        } else if (digits < 0 ) {
             return f;
        }

        f = java.lang.Math.round(f * offset) / offset;
         return f;
    }

leon 2006-06-07 11:50 发表评论

国产亚洲精品AA片在线观看不加载,亚洲日本va中文字幕久久,亚洲av无码专区在线

[tips]使用Java���中文字�W��{换成Unicode�~�码

[tips]Java 中十�q�制十六�q�制�怺�转换

[tips] Java中的四舍五入

[tips]使用Java��中文字�W��{换成Unicode�~�码