<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    海上月明

    editer by sun
    posts - 162, comments - 51, trackbacks - 0, articles - 8
       :: 首頁 :: 新隨筆 ::  :: 聚合  :: 管理

    [轉]Python、Unicode和中文

    Posted on 2008-02-25 19:42 pts 閱讀(24222) 評論(0)  編輯  收藏 所屬分類: Python

    Python、Unicode和中文[轉]

    python的中文問題一直是困擾新手的頭疼問題,這篇文章將給你詳細地講解一下這方面的知識。當然,幾乎可以確定的是,在將來的版本中,python會徹底解決此問題,不用我們這么麻煩了。

    先來看看python的版本:
    >>> import sys
    >>> sys.version
    '2.5.1 (r251:54863, Apr 18 2007, 08:51:08) [MSC v.1310 32 bit (Intel)]'

    (一)
    用記事本創(chuàng)建一個文件ChineseTest.py,默認ANSI:
    s = "中文"
    print s

    測試一下瞧瞧:
    E:\Project\Python\Test>python ChineseTest.py
      File "ChineseTest.py", line 1
    SyntaxError: Non-ASCII character '\xd6' in file ChineseTest.py on line 1, but no encoding declared; see http://www.pytho
    n.org/peps/pep-0263.html for details

    偷偷地把文件編碼改成UTF-8:
    E:\Project\Python\Test>python ChineseTest.py
      File "ChineseTest.py", line 1
    SyntaxError: Non-ASCII character '\xe4' in file ChineseTest.py on line 1, but no encoding declared; see http://www.pytho
    n.org/peps/pep-0263.html for details

    無濟于事。。。
    既然它提供了網(wǎng)址,那就看看吧。簡單地瀏覽一下,終于知道如果文件里有非ASCII字符,需要在第一行或第二行指定編碼聲明。把ChineseTest.py文件的編碼重新改為ANSI,并加上編碼聲明:
    # coding=gbk
    s = "中文"
    print s

    再試一下:
    E:\Project\Python\Test>python ChineseTest.py
    中文

    正常咯:)
    (二)
    看一看它的長度:
    # coding=gbk
    s = "中文"
    print len(s)
    結果:4。
    s這里是str類型,所以計算的時候一個中文相當于兩個英文字符,因此長度為4。
    我們這樣寫:
    # coding=gbk
    s = "中文"
    s1 = u"中文"
    s2 = unicode(s, "gbk") #省略參數(shù)將用python默認的ASCII來解碼
    s3 = s.decode("gbk") #把str轉換成unicode是decode,unicode函數(shù)作用與之相同
    print len(s1)
    print len(s2)
    print len(s3)
    結果:
    2
    2
    2
    (三)
    接著來看看文件的處理:
    建立一個文件test.txt,文件格式用ANSI,內(nèi)容為:
    abc中文
    用python來讀取
    # coding=gbk
    print open("Test.txt").read()
    結果:abc中文
    把文件格式改成UTF-8:
    結果:abc涓枃
    顯然,這里需要解碼:
    # coding=gbk
    import codecs
    print open("Test.txt").read().decode("utf-8")
    結果:abc中文
    上面的test.txt我是用Editplus來編輯的,但當我用Windows自帶的記事本編輯并存成UTF-8格式時,
    運行時報錯:
    Traceback (most recent call last):
      File "ChineseTest.py", line 3, in <module>
        print open("Test.txt").read().decode("utf-8")
    UnicodeEncodeError: 'gbk' codec can't encode character u'\ufeff' in position 0: illegal multibyte sequence

    原來,某些軟件,如notepad,在保存一個以UTF-8編碼的文件時,會在文件開始的地方插入三個不可見的字符(0xEF 0xBB 0xBF,即BOM)。
    因此我們在讀取時需要自己去掉這些字符,python中的codecs module定義了這個常量:
    # coding=gbk
    import codecs
    data = open("Test.txt").read()
    if data[:3] == codecs.BOM_UTF8:
     data = data[3:]
    print data.decode("utf-8")
    結果:abc中文

    (四)一點遺留問題
    在第二部分中,我們用unicode函數(shù)和decode方法把str轉換成unicode。為什么這兩個函數(shù)的參數(shù)用"gbk"呢?
    第一反應是我們的編碼聲明里用了gbk(# coding=gbk),但真是這樣?
    修改一下源文件:
    # coding=utf-8
    s = "中文"
    print unicode(s, "utf-8")
    運行,報錯:
    Traceback (most recent call last):
      File "ChineseTest.py", line 3, in <module>
        s = unicode(s, "utf-8")
    UnicodeDecodeError: 'utf8' codec can't decode bytes in position 0-1: invalid data
    顯然,如果前面正常是因為兩邊都使用了gbk,那么這里我保持了兩邊utf-8一致,也應該正常,不至于報錯。
    更進一步的例子,如果我們這里轉換仍然用gbk:
    # coding=utf-8
    s = "中文"
    print unicode(s, "gbk")
    結果:中文
    翻閱了一篇英文資料,它大致講解了python中的print原理:
    When Python executes a print statement, it simply passes the output to the operating system (using fwrite() or something like it), and some other program is responsible for actually displaying that output on the screen. For example, on Windows, it might be the Windows console subsystem that displays the result. Or if you're using Windows and running Python on a Unix box somewhere else, your Windows SSH client is actually responsible for displaying the data. If you are running Python in an xterm on Unix, then xterm and your X server handle the display.

    To print data reliably, you must know the encoding that this display program expects.

    簡單地說,python中的print直接把字符串傳遞給操作系統(tǒng),所以你需要把str解碼成與操作系統(tǒng)一致的格式。Windows使用CP936(幾乎與gbk相同),所以這里可以使用gbk。
    最后測試:
    # coding=utf-8
    s = "中文"
    print unicode(s, "cp936")
    結果:中文


    如果以上的還看不明白,再來個對話看看:
    [轉自http://hi.baidu.com/zjw0358/blog/item/aab19652b51e00080cf3e3ed.html]

    str和unicode解析
    2008-08-26 16:50
    未來(初學者)(41934583) 16:33:58
    其次把str轉成unicode不是直接構造,是用str對象的decode方法
    Django-venjiang-.Net(69583868) 16:34:03
    有漢字必須用u'...'這個嗎?
    未來(初學者)(41934583) 16:34:18
    不是
    未來(初學者)(41934583) 16:34:38
    用u構造出來的是unicode類型,不用的話構造出來是str類型
    未來(初學者)(41934583) 16:35:54
    str的編碼是與系統(tǒng)環(huán)境相關的,一般就是sys.getfilesystemencoding()得到的值
    Django-venjiang-.Net(69583868) 16:36:12
    嗯.明白了.
    未來(初學者)(41934583) 16:36:25
    unicode你可以不管它是怎么存的,就把它看做是系統(tǒng)能夠識別其中內(nèi)容的文本類型
    未來(初學者)(41934583) 16:37:11
    所以從unicode轉str,被看做是把一個信息文本編碼為二進制字節(jié)流的過程,要用encode方法
    Python 2.X(43602410) 16:37:18
    有辦法判斷截取出來的那部分是漢字的前半部分后半部分么?
    頭太暈django(2538288) 16:37:31
    我一個同事,前些天找了一本python的電子書學習.
    未來(初學者)(41934583) 16:37:46
    從str轉unicode,看作是從二進制串出解讀出有意義的信息文本,所以要用decode

    主站蜘蛛池模板: 国产精品无码一区二区三区免费| 国产日韩AV免费无码一区二区三区 | 亚洲av无码天堂一区二区三区| 亚洲香蕉成人AV网站在线观看| 亚洲国产综合在线| 免费看一级高潮毛片| 1000部拍拍拍18勿入免费视频软件 | 一个人免费观看www视频| 国产四虎免费精品视频| 亚洲老妈激情一区二区三区| 亚洲国产成人久久精品软件| 51在线视频免费观看视频| 青青草原亚洲视频| 国产成人精品亚洲一区| 黄页网站免费观看| 亚洲AV日韩AV永久无码免下载| 国产精品亚洲五月天高清| 免费人成网站在线高清| 亚洲熟女综合色一区二区三区| 十九岁在线观看免费完整版电影| 亚洲国产精品无码久久青草| 国产裸体美女永久免费无遮挡| 国产精一品亚洲二区在线播放| 久久aⅴ免费观看| 亚洲日本乱码一区二区在线二产线 | 亚洲国产精品一区二区第一页免| 黄色短视频免费看| 亚洲一区二区在线免费观看| 国产在线观看无码免费视频| 九月婷婷亚洲综合在线| 亚洲av无码成人精品区一本二本| 免费a级毛片无码a∨蜜芽试看| 亚洲日本乱码一区二区在线二产线| 免费在线观看的网站| 青青草国产免费国产是公开| 国产亚洲精品资源在线26u| 青娱乐免费在线视频| 免费一级毛suv好看的国产网站| 亚洲国产国产综合一区首页| 三级黄色片免费看| 亚洲成A人片在线播放器|