Python編碼類型轉換方法詳解

本文實例講述了Python編碼類型轉換方法。分享給大家供大家參考,具體如下:

1:Python和unicode

為了正確處理多語言文本,Python在2.0版后引入了Unicode字符串。

2:python中的print

雖然python內部需要將文本編碼轉換為unicode編碼來處理,而終端顯示工作則由傳統的Python字符串完成(實際上,Python的print語句根本無法打印出雙字節的Unicode編碼字符)。

python的print會對輸出的unicode編碼(對其它非unicode編碼,print會原樣輸出)做自動的編碼轉換(輸出到控制臺時),而文件對象的write方法就不會做,因此,當一些字符串用print輸出正常時,write到文件確不一定和print的一樣。

在linux下是按照環境變量來轉換的,在linux下使用locale命令就可以看到。print語句它的實現是將要輸出的內容傳送了操作系統,操作系統會根據系統的編碼對輸入的字節流進行編碼。


    >>>str='學習python'
    >>> str
    '\xe5\xad\xa6\xe4\xb9\xa0python' #asII編碼
    >>> print str
    學習python
    >>> str=u'學習python'
    >>> str       ####unicode編碼
    '\xe5u\xad\xa6\xe4\xb9\xa0python'

3: python中的decode

將其他字符集轉化為unicode編碼(只有中文字符才需要轉換)


    >>> str='學習'
    >>> ustr=str.decode('utf-8')
    >>> ustr
    u'\u5b66\u4e60'

這樣就對中文字符進行了編碼轉換,可用python進行后續的處理;(如果不轉換的話,python會根據機器的環境變量進行默認的編碼轉換,這樣就可能出現亂碼)

4:python中的encode

將unicode轉化為其它字符集


    >>> str='學習'
    >>> ustr=str.decode('utf-8')
    >>> ustr
    u'\u5b66\u4e60'
    >>> ustr.encode('utf-8')
    '\xe5\xad\xa6\xe4\xb9\xa0'
    >>> print ustr.encode('utf-8')
    學習

更多關于Python相關內容感興趣的讀者可查看本站專題:《Python編碼操作技巧總結》、《Python圖片操作技巧總結》、《Python數據結構與算法教程》、《Python Socket編程技巧總結》、《Python函數使用技巧總結》、《Python字符串操作技巧匯總》、《Python入門與進階經典教程》及《Python文件與目錄操作技巧匯總

希望本文所述對大家Python程序設計有所幫助。


所屬標簽

無標簽

25选5玩法中奖