python怎么编码？深入理解字符集、乱码及实用技巧。

蜗牛先森

2025-6-30

嘿，我说你是不是也被python怎么编码这事儿给折腾过？别装，我知道你肯定有过那段痛不欲生的经历。眼瞅着代码写得好好的，文件名是中文，或者从文件里读点啥，甚至是网页爬下来的内容，本来都是活生生的文字，结果一运行，屏幕上蹦出来一堆像火星文一样的玩意儿，什么\xe4\xbd\xa0啊，或者直接给你甩个UnicodeDecodeError、UnicodeEncodeError，那感觉，就像一盆冷水从头浇到脚，瞬间崩溃有没有？我告诉你，这绝对是很多初学者甚至不少老手都会踩的大坑。别慌，今天咱们就来掰扯掰扯，这Python里的编码，到底是个什么鬼，以及怎么才能治住那些烦人的乱码。

首先得明白，电脑这玩意儿，它压根儿不认识咱们写的字，什么“你好”、“世界”，它就认识0和1。所以，人类的文字要想让电脑理解、存储、传输，就得给它们穿上“数字衣服”。这个穿衣服的过程，就是编码；脱衣服变回文字，就是解码。而这套衣服的款式、大小、布料，就叫字符集或者编码标准。

刚开始那会儿，大家伙儿都各自为政，比如美国人弄了个ASCII，用一个字节（8个0和1）来表示英文大小写字母、数字、符号啥的，够用了。可一到欧洲，各种带音调的字母就冒出来了，ASCII不够用了，得扩展，ISO-8859系列就来了。再到咱们中国，那汉字浩如烟海，一个字节肯定装不下，得两个甚至更多字节。于是，GB2312、GBK、GB18030这些中文编码标准就诞生了。

问题就来了，如果你的文件是用GBK保存的，结果Python拿UTF-8的方式去读，或者反过来，那肯定驴唇不对马嘴，出来的不是乱码是啥？这就好比你穿着一套英式西装，结果去了个要求穿燕尾服的场合，或者更糟，你对着一个说中文的人，硬是叽里呱啦地说英语，鸡同鸭讲啊！

Python 3呢，相比Python 2，在这方面做了个巨大的改进。它把字符串数据类型统一成了str，这个str内部存的都是Unicode。Unicode是个啥？你可以理解成一个巨大的字典，地球上几乎所有的文字、符号，都给它编了个唯一的号码。比如“你”这个字，它的Unicode号码就是20320（十六进制是4F60）。Unicode本身只是个标准，规定了每个字符的号码，但没说这个号码怎么存到文件里或者在内存里表示。这时候就需要具体的编码方式了，比如UTF-8、UTF-16、UTF-32。其中，UTF-8是现在互联网上最最流行的一种编码方式，因为它聪明啊！对于ASCII字符，它就用一个字节表示，跟ASCII兼容；对于汉字或其他复杂字符，它用2到4个字节表示。这样既省空间，又兼容老代码，简直是万金油！

所以，python怎么编码，首先你得搞清楚你正在处理的文本数据是什么编码。是从文件里读的？那文件是什么编码保存的？是从网页抓的？那网页声明的是什么编码？是用户输入的？那终端用的是什么编码？

在Python里，字符串（str类型）就是Unicode。当你需要把这个字符串存到文件里、通过网络发送出去，或者打印到终端上时，就需要把它从Unicode编码成字节串（bytes类型）。反过来，从文件、网络或者用户输入那里拿到的是字节串，需要处理其中的文字时，就得把字节串解码成Unicode字符串。

这个编码和解码的过程，在Python里主要通过字符串对象的.encode()和字节串对象的.decode()方法来完成。

比如说，你有个字符串s = "你好，世界"，这是个str类型，内部是Unicode。你想把它保存到文件里，用UTF-8编码：
python b_utf8 = s.encode('utf-8') print(b_utf8) # 输出类似 b'\xe4\xbd\xa0\xe5\xa5\xbd\xef\xbc\x8c\xe4\xb8\x96\xe7\x95\x8c'
看到没，原本的文字变成了前面带b的一串十六进制数字，这就是字节串。每个汉字在UTF-8里通常占3个字节。

如果你想用GBK编码呢？
python b_gbk = s.encode('gbk') print(b_gbk) # 输出类似 b'\xc4\xe3\xba\xc3\xa3\xac\xca\xc0\xbd\xe7'
你看，跟UTF-8的字节串完全不一样，因为GBK对汉字的编码方式不同。

那怎么把字节串变回字符串呢？用.decode()：
```python
s_from_utf8 = b_utf8.decode('utf-8')
print(s_from_utf8) # 输出 "你好，世界"

s_from_gbk = b_gbk.decode('gbk')
print(s_from_gbk) # 输出 "你好，世界"
`` 注意了，.decode()时指定的**编码**方式，必须和原来.encode()`时用的编码方式一致，否则就出乱码了！

```python

故意用错误的编码方式解码

s_wrong = b_utf8.decode('gbk')
print(s_wrong) # 很有可能输出乱码，或者直接抛异常
```
这就是典型的乱码产生过程之一。你用UTF-8存的，结果拿GBK去读，能不乱吗？

文件操作是乱码的重灾区。用open()函数打开文件时，有个关键的参数叫encoding。默认情况下，这个参数的值取决于你的操作系统和Python的设置，但这个默认值往往不靠谱，特别是在不同操作系统之间或者处理不同来源的文件时。所以，强烈建议你打开文件时，总是明确指定encoding参数！

```python

写入文件，指定编码为UTF-8

with open('test.txt', 'w', encoding='utf-8') as f:
f.write("这是一段中文文本。")

读取文件，指定编码为UTF-8

with open('test.txt', 'r', encoding='utf-8') as f:
content = f.read()
print(content) # 正常输出中文
```

如果你的文件是GBK编码保存的，那你读的时候就得这样：
```python

假设 'gbk_file.txt' 是用GBK编码保存的

with open('gbk_file.txt', 'r', encoding='gbk') as f:
content = f.read()
print(content) # 正常输出中文
`` 如果读的时候还是指定encoding='utf-8'`，那恭喜你，乱码又出现了！

除了文件，终端输出也是一个容易出问题的地方。你的Python脚本可能是用UTF-8编码保存的，代码里的字符串也都是Unicode，但是如果你的终端不支持UTF-8，或者设置的是别的编码，那print出来的中文就可能变成问号或者其他奇怪的符号。这种情况，有时候需要调整终端的编码设置，或者在代码里做一些特殊的处理（虽然不常用）。

爬虫抓取网页内容时，网页的编码尤其重要。大部分网页都会在HTML的<meta>标签里声明自己的编码，比如<meta charset="UTF-8">或者<meta http-equiv="Content-Type" content="text/html; charset=gb2312">。拿到响应后，第一件事往往是判断或者猜这个网页的编码，然后用正确的编码去解码。requests库就做得比较好，它会尝试自动检测编码，但有时候也需要手动指定response.encoding。

遇到乱码怎么办？别慌，深呼吸，然后像个侦探一样分析。
1. 搞清楚源头：数据是从哪来的？文件？网络？数据库？用户输入？
2. 确定源头的编码：如果源头是文件，用文本编辑器打开看看它的编码（很多编辑器右下角会显示）。如果是网页，看<meta>标签。如果是数据库，看数据库和表的编码设置。
3. 检查你的代码：在哪里进行了编码或解码操作？.encode()和.decode()用的编码对不对？open()文件时的encoding参数设对了吗？
4. 查看报错信息：Python抛出的UnicodeDecodeError或UnicodeEncodeError往往会告诉你是在尝试用哪种编码进行操作时失败的，这能帮你定位问题。比如UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 100: illegal multibyte sequence，这说明Python正在尝试用GBK解码某个字节流，但在位置100遇到了一个GBK不认识的字节0x80，那很可能这个字节流根本就不是GBK编码的，而是别的编码，比如UTF-8。

一个实用的经验是：尽量全程使用UTF-8。保存文件用UTF-8，数据库用UTF-8，网络传输用UTF-8。这样能最大程度地减少编码问题的发生。如果必须处理其他编码的数据，务必在进入Python内部（转成str，即Unicode）时就正确解码，在离开Python（转成bytes）时正确编码。

python怎么编码？它内部用Unicode管理字符串，与外界交互时需要根据实际情况进行编码和解码。理解字符集、编码、解码这几个概念，搞清楚数据来源的编码，并且在代码中明确指定编码方式，是解决绝大多数乱码问题的关键。这事儿没有捷径，只能多实践，多犯错，然后总结经验。别被那些错误吓倒，它们只是在告诉你：“嘿，你的编码没对！”耐心地去找到正确的编码，问题自然迎刃而解。

所以，下次再遇到乱码，别急着抓狂，想想我说的这些，一步一步去排查。记住，Python本身对编码的支持是很好的，问题往往出在你的数据源或者你的代码里没有正确地告诉Python该用哪种编码方式去处理。掌握了python怎么编码这个技能点，你就能在处理各种文本数据时游刃有余，告别那些让人头秃的乱码！加油！

作者：蜗牛先森

链接：https://www.livip.net/791

文章版权归作者所有，未经允许请勿转载。

THE END

Python重启怎么处理？掌握这几种方法，让你的程序焕发生机！

<<上一篇

python怎么保留：精确控制小数位、对象状态与代码成果

下一篇>>