亚洲av一本岛在线播放,精品亚洲成a人在线观看,国产亚洲精品不卡在线

[轉]Python的ASCII, GB2312, Unicode , UTF-8

Posted on 2008-01-20 14:54 pts 閱讀(25724) 評論(1) 編輯收藏所屬分類: Python

李李 - 網易博客
Python的ASCII, GB2312, Unicode , UTF-8
ASCII 是一種字符集,包括大小寫的英文字母、數字、控制字符等，它用一個字節表示，范圍是 0-127 Unicode分為UTF-8和UTF-16。
UTF-8變長度的，最多 6 個字節，小于 127 的字符用一個字節表示，與 ASCII 字符集的結果一樣，ASCII 編碼下的英語文本不需要修改就可以當作 UTF-8 編碼進行處理。
Python 從 2.2 開始支持 Unicode ，函數 decode( char_set )可以實現其它編碼到 Unicode 的轉換，函數 encode( char_set )實現 Unicode 到其它編碼方式的轉換。
比如
("你好").decode( "GB2312")

將得到
u'\u4f60\u597d'，

即 "你"和“好"的 Unicode 碼分別是 0x4f60 和 0x597d

再用
(u'\u4f60\u597d').encode("UTF-8")

將得到
'\xe4\xbd\xa0\xe5\xa5\xbd'

它是 “你好”的UTF-8編碼結果。

python中使用 unicode的關鍵：unicode是一個類，函數unicode(str,"utf8")從utf8編碼（當然也可以是別的編碼）的字符串str生成 unicode類的對象，而函數unc.encode("utf8")將unicode類的對象unc轉換為（編碼為）utf8編碼（當然也可以是別的編碼）的字符串。于是，編寫unicode相關程序，需要做的事情是 * 獲取數據（字符串）時，用unicode(str, "utf8")生成unicode對象 * 在程序中僅使用unicode對象，對程序中出現的字符串常量都以u"字符串"的形式書寫 * 輸出時，可將unicode對象轉換為任意編碼輸出，使用str.encode("some_encoding")

>>> unicode("你好", "utf8")
       u'\u4f60\u597d'

>>> x = _

>>> type(x)

>>> type("你好")

>>> x.encode("utf8")
       '\xe4\xbd\xa0\xe5\xa5\xbd'

>>> x.encode("gbk")
       '\xc4\xe3\xba\xc3'

>>> x.encode("gb2312")
       '\xc4\xe3\xba\xc3'

>>> print x
       你好

>>> print x.encode("utf8")
       你好

>>> print x.encode("gbk")
       ???

以上是測試結果（Ubuntu 6.06，locale為utf8），注意type(x)和type("你好")的區別。從編碼上可以看出utf8編碼與gbk不同。在utf8的 locale設置下，打印x按該環境變量編碼（我猜我猜我猜猜猜），而打印x.encode("gbk")則是亂碼。

# re: [轉]Python的ASCII, GB2312, Unicode , UTF-8 回復 更多評論

2011-09-17 15:41 by faicker

錯誤

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關文章: PYTON與EXCEL：使用pyExcelerator來讀寫 Excel文件 PYTHON與EXCEL：openpyxl 讀寫excel2007 [轉]Python GUI開發環境的搭建 win32 api : About Messages and Message Queues [轉]python win32api 使用小技巧【轉】python與sqlite中文數據的問題 python操作sqlite3 碰到中文問題為pamie增加兩個有關獲取指定td、tr的函數 pamie 中getElementsList對中文內容的處理 pamie 中對網頁中有的處理

海上月明

[轉]Python的ASCII, GB2312, Unicode , UTF-8

評論

# re: [轉]Python的ASCII, GB2312, Unicode , UTF-8 回復 更多評論

日歷

留言簿

隨筆分類(137)

隨筆檔案(162)

文章分類(4)

文章檔案(8)

Good Blogs

搜索

積分與排名

最新評論

評論排行榜

海上月明

[轉]Python的ASCII, GB2312, Unicode , UTF-8

評論

# re: [轉]Python的ASCII, GB2312, Unicode , UTF-8 回復 更多評論

日歷

留言簿

隨筆分類(137)

隨筆檔案(162)

文章分類(4)

文章檔案(8)

Good Blogs

搜索

積分與排名

最新評論

評論排行榜

# re: [轉]Python的ASCII, GB2312, Unicode , UTF-8 回復更多評論