解决Python输入中文难题：告别乱码，超详细实操指南

蜗牛先森

2025-6-21

嗨，朋友！聊聊那个让人头大的问题：python怎么输入中文？说实话，刚开始学 Python 那会儿，这玩意儿简直是我的噩梦。写个小程序，想让它打印一句“你好，世界！”，结果呢？屏幕上蹦出来的不是中文，而是一堆奇奇怪怪的符号，问号、方框、乱码满天飞，那感觉，别提多郁闷了。辛辛苦苦敲的代码，就像被人施了咒，瞬间变得面目全非。你是不是也遇到过？

这事儿，其实都怪“编码”这个小妖精在作怪。你看，电脑里存的、跑的都是二进制数据，0和1。文字呢？中文有几万个汉字，还有各种标点、符号。怎么让这几万个“长相”各异的字符，都对应到一串串0和1上呢？这就需要一套规则，一套“密码本”，也就是我们说的编码。

早年间，各国人民各自为政，搞出了各种各样的编码。国内有 GB2312、GBK，台湾有 Big5，日本有 Shift_JIS……想象一下，你用 GBK 编码写了篇文章，发给一个用 Big5 的朋友，他打开一看，保准也是乱码，因为他们的“密码本”对不上号。就像两个说不同方言的人鸡同鸭讲。

好在，后来出现了个“联合国统一语言”——Unicode。它给地球上几乎所有的字符都分配了一个唯一的编号。而 UTF-8 呢，就是实现 Unicode 的一种主流方式，它最大的优点是能表示所有 Unicode 字符，而且对于英文字符，它只用一个字节，跟老式的 ASCII 编码一样，兼容性好，又省地方。这也就是为什么，全世界现在都在大力推广 UTF-8。

Python 3 的世界里，字符串在内存中默认就是以 Unicode 来处理的，这是个好事儿。理论上，你写个 '你好'，Python 内部是能正确认识的。问题常常出在：

你的 Python 代码文件本身，是以什么编码保存的？
你的代码在运行时，从哪里“读入”中文（比如用户输入、读取文件），又是以什么编码读入的？
你的代码输出中文到哪里（比如打印到终端、写入文件），那个地方又期望以什么编码接收？

这三点，哪一个不对付，都可能导致乱码。

咱们逐个击破！

第一招：给你的代码文件一个明确的“身份证明”

很多时候，最直接的原因是你的 Python 源代码文件保存时使用的编码和 Python 解释器默认去读它的编码不一致。特别是如果你用的编辑器或者系统默认不是 UTF-8 的话。

怎么破？很简单，在你的 Python 脚本文件的第一行或者第二行，加上这句“魔法注释”：

```python

-- coding: utf-8 --

```

或者更简洁、现代一点的：

```python

coding: utf-8

```

这句话，就像给你的 Python 文件贴了个标签，大声告诉 Python 解释器：“喂！看好了！我这个文件里的代码，包括那些字符串字面量（比如 '你好'），都是用 UTF-8 编码写的！” Python 解释器读到这句，就知道该用 UTF-8 的规则去解析整个文件内容了。

当然，这句注释得写对地方，通常是在文件开头，所有 import 语句之前，或者在 shebang（#!）行之后。

第二招：确保你的编辑器“听话”地用 UTF-8 保存

第一招是告诉 Python 解释器怎么读你的文件，但这招的前提是你的文件“实际”就是用 UTF-8 保存的！如果你的编辑器，比如 Sublime Text, VS Code, PyCharm 或者其他什么，默认保存文件用的是 GBK 或者别的什么编码，那么即便你加了 # -*- coding: utf-8 -*-，解释器是会尝试用 UTF-8 去读，但文件内容的二进制表示本身就不符合 UTF-8 的规范，结果还是会出错，可能是 SyntaxError，也可能还是乱码。

所以，去检查你的编辑器设置！找到文件保存的编码选项，务必设置为 UTF-8，而且最好是“不带 BOM (Byte Order Mark)” 的 UTF-8。BOM 是个可选的标记，有些程序喜欢它，有些不喜欢，为了兼容性，不带 BOM 更稳妥。

这是一个常常被忽略但至关重要的一步。想想看，你写信，告诉收信人“请用中文读”，但你实际写的是火星文，那能怪谁呢？

第三招：关注你的“舞台”——运行环境的编码

即便你的代码文件是 UTF-8 的，代码逻辑也对，但在某些环境下运行，比如老旧的 Windows 命令提示符 (cmd.exe)，你用 print() 输出中文，或者用 input() 输入中文，可能依然会看到乱码。这是因为 cmd.exe 默认使用的编码（通常是 GBK 或 CP936）和你的程序内部处理的 UTF-8 对不上。

这就像你写好了剧本，演员（Python 程序）也排练好了，结果演出的剧场（终端）音响设备（编码）有问题，声音（中文）传出来就失真了。

怎么解决终端的乱码？

Windows 用户： 老实说，cmd.exe 对 UTF-8 的支持一直不太好。你可以尝试改变 cmd 的代码页，比如输入 chcp 65001 命令，但这不总是管用，而且很多时候显示效果也不完美。更好的办法是换个现代化的终端模拟器，比如 Windows Terminal、Powershell、Git Bash 或者在 Windows 上安装 WSL (Windows Subsystem for Linux)，这些环境对 UTF-8 的支持要好得多。很多 Python 开发者在 Windows 上干脆就用 WSL 或者虚拟机里的 Linux 来跑代码，很大一部分原因就是为了避免这些奇奇怪怪的编码问题。
macOS 和 Linux 用户： 大多数现代的 macOS 和 Linux 发行版，系统默认编码就是 UTF-8。通常情况下，终端也能很好地支持 UTF-8。如果遇到问题，检查一下系统的区域设置（Locale），确保它们是类似 en_US.UTF-8 或者 zh_CN.UTF-8 这样的设置。

当你在终端里用 input() 接收用户输入的中文时，Python 3 默认会尝试用终端的编码去解码输入。如果终端是 UTF-8，那就没问题；如果不是，输入的中文可能就会变成乱码传到你的程序里。同样，print() 输出时，Python 3 也会尝试用终端编码去编码字符串再输出。所以，终端编码和程序内部编码的匹配非常关键。

第四招：文件读写时的“对口供”

除了代码文件和终端，我们还经常需要读写包含中文的文件，比如文本文件、CSV 文件等等。这时候，打开文件时一定要明确告诉 Python 这个文件是用什么编码写的，或者希望它用什么编码保存。

Python 的 open() 函数有个 encoding 参数，务必用起来！

读取文件：

```python

假设 article.txt 文件是用 UTF-8 编码保存的

with open('article.txt', 'r', encoding='utf-8') as f:
content = f.read()
print(content) # 如果终端支持UTF-8，应该能正常显示中文
```

写入文件：

```python

将包含中文的字符串写入到文件中，指定使用 UTF-8 编码保存

chinese_text = "这是写入文件的中文内容。"
with open('output.txt', 'w', encoding='utf-8') as f:
f.write(chinese_text)
```

如果你不指定 encoding 参数，Python 会使用一个默认的编码，这个默认编码在不同操作系统和 Python 版本上可能不一样，非常不可靠！特别是在 Windows 上，默认编码通常是 GBK，这和现在主流的 UTF-8 格格不入。所以，养成习惯，读写文件时总是明确指定 encoding='utf-8'，能省掉你无数的麻烦。

稍微深一点点：编码和解码

在 Python 内部，字符串（str 类型）是 Unicode。当数据从外部进入 Python（比如从文件读取、从网络接收、用户输入）时，如果它是字节序列（bytes 类型），就需要“解码”（decode），把它从特定的编码（比如 UTF-8、GBK）转换成 Python 内部的 Unicode 字符串。反过来，当 Python 内部的 Unicode 字符串要发送到外部（比如写入文件、发送到网络）时，就需要“编码”（encode），把它转换成特定的编码的字节序列。

比如：

```python

一个 UTF-8 编码的字节序列

utf8_bytes = b'\xe4\xbd\xa0\xe5\xa5\xbd' # 对应中文“你好”的 UTF-8 字节表示

解码：从 UTF-8 字节序列变成 Unicode 字符串

unicode_string = utf8_bytes.decode('utf-8')
print(unicode_string) # 输出: 你好

一个 Unicode 字符串

my_string = '世界'

编码：从 Unicode 字符串变成 UTF-8 字节序列

utf8_bytes_from_string = my_string.encode('utf-8')
print(utf8_bytes_from_string) # 输出: b'\xe4\xb8\x96\xe7\x95\x8c'

尝试用错误的编码解码

try:
gbk_bytes = b'\xc4\xe3\xba\xc3' # 对应中文“你好”的 GBK 字节表示
unicode_string_wrong = gbk_bytes.decode('utf-8') # 用 UTF-8 尝试解码 GBK
print(unicode_string_wrong) # 这里会出错或者得到乱码
except UnicodeDecodeError as e:
print(f"解码错误：{e}")

用正确的编码解码

unicode_string_correct = gbk_bytes.decode('gbk')
print(unicode_string_correct) # 输出: 你好
```

理解编码（encode）和解码（decode）是处理中文（以及其他非 ASCII 字符）的底层逻辑。虽然不是所有时候都需要手动调用这两个方法，但知道它们的存在和作用，能帮你更好地理解乱码为什么发生，以及在处理来自不同源的数据时如何进行正确的编码转换。

总结一下我的经验吧

折腾 python怎么输入中文 这个事儿，一路走来，感觉就是跟编码这个概念死磕。刚开始觉得它好麻烦，为什么不能就像英文那样随心所欲？后来才明白，这是不同语言文字特性的必然结果。

我的心得就是：

把 UTF-8 当作你的默认和首选编码。无论是写代码、保存文件、还是处理外部数据，优先考虑 UTF-8。因为它几乎能表示所有语言的字符，是事实上的国际标准。
代码文件开头加 # -*- coding: utf-8 -*-。这是告诉 Python 解释器文件编码的“暗号”。
编辑器保存文件时，一定设置为 UTF-8 (无 BOM)。这是文件本身的编码基础。
如果遇到终端乱码，考虑更换一个支持 UTF-8 更好的终端环境。特别是 Windows 用户，这是治本的方法。
读写文件时， ALWAYS 指定 encoding='utf-8' 参数。别偷懒，这一步能避免 90% 的文件乱码问题。
理解 encode 和 decode，知道数据在字节和字符串之间转换需要指定编码。遇到复杂情况，它们是解决问题的终极武器。

你看，解决 python怎么输入中文 的乱码问题，本质上就是确保你的代码、你的文件、你的运行环境、你处理的数据源，大家在编码这个事情上，都能“说同一种语言”，或者至少知道怎么互相“翻译”。

一开始可能会觉得这些编码、解码、UTF-8、GBK 什么的好烦好抽象，但相信我，一旦你花点时间把这些概念搞清楚，并且在实际操作中养成指定编码的好习惯，以后在 Python 世界里处理中文，就会像呼吸一样自然顺畅。那个让人抓狂的乱码，就会慢慢从你的世界里消失，变成一个只存在于新手回忆里的传说。

所以，别再让乱码绊住你学习 Python 的脚步了！动手去检查你的文件编码、编辑器设置、终端编码吧。搞定它，你就能在你的 Python 程序里，自由自在地输入、输出、处理各种美妙的中文了！加油！

作者：蜗牛先森

链接：https://www.livip.net/168

文章版权归作者所有，未经允许请勿转载。

THE END

Python新建文件：多种方法轻松实现，快速掌握文件创建技巧

<<上一篇

Python程序退出方法详解：告别运行状态，安全退出Python代码，掌握多种退出技巧

下一篇>>