原帖地址 最近和JavaScript糾纏上了。
遇到這么一個(gè)問題,數(shù)據(jù)庫(kù)的字符集為UTF-8的,要在頁面上使用JavaScript驗(yàn)證輸入的文本用UTF-8存儲(chǔ)時(shí)占用字節(jié)長(zhǎng)度。JavaScript的String對(duì)象有l(wèi)ength屬性,但是這個(gè)計(jì)算的是字符數(shù),不是字節(jié)數(shù)(問題總是翻來覆去的,記得當(dāng)年玩Delphi的時(shí)候,還得寫程序計(jì)算字符串的字符數(shù),因?yàn)镈elphi中String的length是字節(jié)數(shù)...)。偷懶一點(diǎn)的辦法是將驗(yàn)證代碼中最大長(zhǎng)度設(shè)置為數(shù)據(jù)庫(kù)中對(duì)應(yīng)字段的長(zhǎng)度的1/3,但是這樣準(zhǔn)確來說有點(diǎn)不合適。
所以想辦法在JavaScript中判斷在UTF-8下存儲(chǔ)的String的字節(jié)數(shù),在網(wǎng)上找到很多關(guān)于Unicode介紹的文檔,最重要的是字符編碼數(shù)值對(duì)應(yīng)的存儲(chǔ)長(zhǎng)度:
UCS-2編碼(16進(jìn)制) UTF-8 字節(jié)流(二進(jìn)制) 0000 - 007F 0xxxxxxx (1字節(jié)) 0080 - 07FF 110xxxxx 10xxxxxx (2字節(jié)) 0800 - FFFF 1110xxxx 10xxxxxx 10xxxxxx (3字節(jié))
于是代碼如下:
實(shí)際上,0x0080到0x07ff之間的字符很少會(huì)在實(shí)際用戶輸入中用到。
參考文檔:
程序員趣味讀物:談?wù)刄nicode編碼 http://www.lihuasoft.net/article/show.php?id=2778
posted on 2008-05-30 10:09 々上善若水々 閱讀(2931) 評(píng)論(1) 編輯 收藏 所屬分類: JavaScript
Powered by: BlogJava Copyright © 々上善若水々