久久久无码精品亚洲日韩软件,亚洲色成人中文字幕网站,亚洲AV一宅男色影视

[轉]Python中文全攻略

Posted on 2008-01-20 15:37 pts 閱讀(520) 評論(0) 編輯收藏所屬分類: Python

轉自| 2007-10-16 10:54:29

1. 在Python中使用中文

在Python中有兩種默認的字符串：str和unicode。在Python中一定要注意區分“Unicode字符串”和“unicode對象”的區別。后面所有的“unicode字符串”指的都是python里的“unicode對象”。

事實上在Python中并沒有“Unicode字符串”這樣的東西，只有“unicode”對象。一個傳統意義上的unicode字符串完全可以用str對象表示。只是這時候它僅僅是一個字節流，除非解碼為unicode對象，沒有任何實際的意義。

我們用“哈哈”在多個平臺上測試，其中“哈”對應的不同編碼是：

1． UNICODE (UTF8-16)， C854；

2． UTF-8， E59388；

3． GBK， B9FE。

1.1 Windows控制臺

下面是在windows控制臺的運行結果：

可以看出在控制臺，中文字符的編碼是GBK而不是UTF-16。將字符串s（GBK編碼）使用decode進行解碼后，可以得到同等的unicode對象。

注意：可以在控制臺打印ss并不代表它可以直接被序列化，比如：

向文件直接輸出ss會拋出同樣的異常。在處理unicode中文字符串的時候，必須首先對它調用encode函數，轉換成其它編碼輸出。這一點對各個環境都一樣。
總結：在Python中，“str”對象就是一個字節數組，至于里面的內容是不是一個合法的字符串，以及這個字符串采用什么編碼（gbk, utf-8, unicode）都不重要。這些內容需要用戶自己記錄和判斷。這些的限制也同樣適用于“unicode”對象。要記住“unicode”對象中的內容可絕對不一定就是合法的unicode字符串，我們很快就會看到這種情況。

總結：在windows的控制臺上，支持gbk編碼的str對象和unicode編碼的unicode對象。

1.2 Windows IDLE（在Shell上運行）

在windows下的IDLE中，運行效果和windows控制臺不完全一致：

可以看出，對于不使用“u”作標識的字符串，IDLE把其中的中文字符進行GBK編碼。但是對于使用“u”的unicode字符串，IDLE居然一樣是用了GBK編碼，不同的是，這時候每一個字符都是unicode（對象）字符！！此時len(ss) = 4。

這樣產生了一個神奇的問題，現在的ss無法在IDLE中正常顯示。而且我也沒有辦法把ss轉換成正常的編碼！比如采用下面的方法：

這有可能是因為IDLE本地化做得不夠好，對中文的支持有問題。建議在IDLE的SHELL中，不要使用u“中文“

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關文章: PYTON與EXCEL：使用pyExcelerator來讀寫 Excel文件 PYTHON與EXCEL：openpyxl 讀寫excel2007 [轉]Python GUI開發環境的搭建 win32 api : About Messages and Message Queues [轉]python win32api 使用小技巧【轉】python與sqlite中文數據的問題 python操作sqlite3 碰到中文問題為pamie增加兩個有關獲取指定td、tr的函數 pamie 中getElementsList對中文內容的處理 pamie 中對網頁中有的處理

海上月明

[轉]Python中文全攻略

日歷

留言簿

隨筆分類(137)

隨筆檔案(162)

文章分類(4)

文章檔案(8)

Good Blogs

搜索

積分與排名

最新評論

評論排行榜