本文為原創(chuàng),如需轉(zhuǎn)載,請注明作者和出處,謝謝!
由于Java是基于Unicode編碼的,因此,一個漢字的長度為1,而不是2。但有時需要以字節(jié)單位獲得字符串的長度。例如,“123abc長城”按字節(jié)長度計算是10,而按Unicode計算長度是8。為了獲得10,需要從頭掃描根據(jù)字符的Ascii來獲得具體的長度。如果是標(biāo)準(zhǔn)的字符,Ascii的范圍是0至255,如果是漢字或其他全角字符,Ascii會大于255。因此,可以編寫如下的方法來獲得以字節(jié)為單位的字符串長度。
public int getWordCount(String s)
{
int length = 0;
for(int i = 0; i < s.length(); i++)
{
int ascii = Character.codePointAt(s, i);
if(ascii >= 0 && ascii <=255)
length++;
else
length += 2;
}
return length;
}
當(dāng)然,也可以采用正則表達式來簡化上面的方法,代碼如下:
public int getWordCount(String s)
{
s = s.replaceAll("[^\\x00-\\xff]", "**");
int length = s.length();
return length;
}
上面代碼的基本原理是將字符串中所有的非標(biāo)準(zhǔn)字符(雙字節(jié)字符)替換成兩個標(biāo)準(zhǔn)字符(**,或其他的也可以)。這樣就可以直接例用length方法獲得字符串的字節(jié)長度了。
新浪微博:http://t.sina.com.cn/androidguy 昵稱:李寧_Lining