Python編碼介紹——encode和decode

jopen 11年前發布 | 13K 次閱讀 Python Python開發
在 python 源代碼文件中，如果你有用到非ASCII字符，則需要在文件頭部進行字符編碼的聲明，聲明如下：
# code: UTF-8

</ol>
</div>


因為python 只檢查 #、coding 和編碼字符串，所以你可能回見到下面的聲明方式，這是有些人為了美觀等原因才這樣寫的：
#-*- coding: UTF-8 -*-

</ol>
</div>


常見編碼介紹：

</div>
GB2312編碼：適用于漢字處理、漢字通信等系統之間的信息交換
GBK編碼：是漢字編碼標準之一，是在 GB2312-80 標準基礎上的內碼擴展規范，使用了雙字節編碼
ASCII編碼：是對英語字符和二進制之間的關系做的統一規定
Unicode編碼：這是一種世界上所有字符的編碼。當然了它沒有規定的存儲方式。
UTF-8編碼：是 Unicode Transformation Format - 8 bit 的縮寫， UTF-8 是 Unicode 的一種實現方式。它是可變長的編碼方式，可以使用 1~4 個字節表示一個字符，可根據不同的符號而變化字節長度。

</ul>



</div>
</blockquote>
編碼轉換：
Python內部的字符串一般都是 Unicode編碼。代碼中字符串的默認編碼與代碼文件本身的編碼是一致的。所以要做一些編碼轉換通常是要以Unicode作為中間編碼進行轉換的，即先將其他編碼的字符串解碼（decode）成 Unicode，再從 Unicode編碼（encode）成另一種編碼。

</div>
decode 的作用是將其他編碼的字符串轉換成 Unicode 編碼，eg name.decode(“GB2312”)，表示將GB2312編碼的字符串name轉換成Unicode編碼
encode 的作用是將Unicode編碼轉換成其他編碼的字符串，eg name.encode(”GB2312“)，表示將GB2312編碼的字符串name轉換成GB2312編碼

</ul>
</div>
</blockquote>
 
所以在進行編碼轉換的時候必須先知道 name 是那種編碼，然后 decode 成 Unicode 編碼，最后載 encode 成需要編碼的編碼。當然了，如果 name 已經就是 Unicode 編碼了，那么就不需要進行 decode 進行解碼轉換了，直接用 encode 就可以編碼成你所需要的編碼。值得注意的是：對 Unicode 進行編碼和對 str 進行編碼都是錯誤的。



具體的說就是：如果在UTF-8文件中，則這個字符串就是 UTF-8編碼的。它的編碼取決于當前的文本編碼。當然了，GB2312文本的編碼就是GB2312。要在同一個文本中進行兩種編碼的輸出等操作就必須進行編碼的轉換，先用decode將文本原來的編碼轉換成Unicode，再用encode將編碼轉換成需要轉換成的編碼。
eg：

由于內置函數 open() 打開文件時，read() 讀取的是 str，讀取后需要使用正確的編碼格式進行 decode()。write() 寫入時，如果參數是 Unicode，則需要使用你希望寫入的編碼進行 encode()，如果是其他編碼格式的 str，則需要先用該 str 的編碼進行 decode()，轉成 Unicode 后再使用寫入的編碼進行 encode()。如果直接將 Unicode 作為參數傳入 write() ，python 將先使用源代碼文件聲明的字符編碼進行編碼然后寫入。

# coding: UTF-8

 

fp1 = open('test.txt', 'r')

info1 = fp1.read()

# 已知是 GBK 編碼，解碼成 Unicode

tmp = info1.decode('GBK')

 

fp2 = open('test.txt', 'w')

# 編碼成 UTF-8 編碼的 str

info2 = tmp.encode('UTF-8')

fp2.write(info2)

fp2.close()

</ol>
</div>

獲取編碼的方式：

判斷是 s 字符串否為Unicode，如果是返回True，不是返回False ：
isinstance(s, unicode)

</ol>
</div>


下面代碼可以獲取系統默認編碼：
#!/usr/bin/env python

#coding=utf-8

import sys

print sys.getdefaultencoding()

</ol>
</div>
</div>
</div>
來自：http://blog.sina.com.cn/s/blog_b16c24450102vc8j.html
 本文由用戶 jopen 自行上傳分享，僅供網友學習交流。所有權歸原作者，若您的權利被侵害，請聯系管理員。
 轉載本站原創文章，請注明出處，并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺，歡迎各類分享！
 本文地址：http://www.baiduhome.net/lib/view/open1419576277703.html
 Python Python開發
相關經驗
 Python編碼介紹——encode和decode
 Python 編碼風格
 Python的字符編碼
 Python的中文編碼問題
 python編碼的意義
相關資訊
 談談編碼風格與編碼規范
 編碼風格不是編碼規范
 提高編碼效率的15個最新JavaScript包和工具
 程序員和編碼員之間的區別
 python-stdnum 0.8 發布，解析常見標準編碼和條形碼的Python模塊
相關文檔
  python編碼問題
  Python 介紹
  Python 開發編碼規范
  Python編碼規范
  Python介紹
  wireshark和tcpdump介紹
  python cookbook(第3版)高清中文完整版
  開放群組及togaf企業架構框架介紹
  python cookbook第三版中文v2.0.0
目錄