Posted on 2008-10-09 21:46
leekiang 閱讀(1208)
評論(0) 編輯 收藏 所屬分類:
python
用python處理字符串很容易,但是在處理中文的時候需要注意一些問題。
比如:
a = "我們是python愛好者"
print a[0]
只能輸出“我”字的前半部分,要想輸出整個的我字還需要
b = a[0:2]
print b
才行,很不方便,并且當一段文本中同時有中英文?氖焙蠔苣汛懟?
最好的辦法就是轉換為unicode。
像這樣:
c = unicode(a, "gb2312")
print c[0]
這個時候c的下標對應的就是每一字,不再是字節,并且通過 len(c) 就可以獲得字數!
還可以很方便的轉換為其他編碼,比如轉換為 utf-8
d = c.encode("utf-8")
轉自 http://www.okpython.com/bbs/viewthread.php?tid=311