Python怎么导入Excel：超详细攻略，高效读取Excel数据

蜗牛先森

2025-7-20

想用Python来导入Excel数据？这绝对是个明智的选择！别再手动复制粘贴了，累死不说，还容易出错。我跟你说，掌握了Python导入Excel的技巧，简直打开了新世界的大门。

首先，你要准备好你的武器：Python和几个好用的库。最常用的就是pandas，它简直是数据处理界的瑞士军刀。还有openpyxl，专门用来读写Excel文件，特别是.xlsx格式的。当然，如果你处理的是老式的.xls文件，那可能还需要xlrd这个库。

安装这些库超级简单，打开你的命令行窗口，输入：

bash pip install pandas openpyxl xlrd

回车，搞定！

现在，我们来点实际的。假设你有一个名为my_data.xlsx的Excel文件，里面有一些数据，你想用Python把它们导入进来。

用pandas读取它，就像呼吸一样简单：

```python
import pandas as pd

读取Excel文件

df = pd.read_excel("my_data.xlsx")

打印数据的前几行，看看效果

print(df.head())
```

这段代码干了什么？首先，我们导入了pandas库，并且给它起了个简称pd，方便后面使用。然后，使用pd.read_excel()函数读取my_data.xlsx文件，并将读取到的数据存储在一个名为df的变量中。这个df其实是一个DataFrame对象，是pandas中最核心的数据结构，可以把它想象成一张表格。最后，我们使用df.head()打印了DataFrame的前几行数据，让你看看是不是成功导入了数据。

怎么样，是不是感觉超级简单？

但是，事情往往没有那么顺利。Excel文件可能有很多坑，比如：

表头不在第一行： 有时候，Excel文件的表头可能不在第一行，而是在第二行或者其他行。这时候，你可以使用header参数来指定表头所在的行数。例如，如果表头在第二行，你可以这样写：

python df = pd.read_excel("my_data.xlsx", header=1)
有多个sheet： 一个Excel文件可能包含多个sheet，每个sheet都存储着不同的数据。默认情况下，pd.read_excel()只会读取第一个sheet。如果你想读取其他sheet，可以使用sheet_name参数来指定sheet的名称或者索引。例如，要读取名为"Sheet2"的sheet，你可以这样写：

python df = pd.read_excel("my_data.xlsx", sheet_name="Sheet2")

或者，要读取第二个sheet，你可以这样写：

python df = pd.read_excel("my_data.xlsx", sheet_name=1)
有空行或者空列： Excel文件中可能存在一些空行或者空列，这些空行或者空列可能会影响数据的读取。你可以使用skiprows和usecols参数来跳过空行或者指定要读取的列。例如，要跳过前三行，你可以这样写：

python df = pd.read_excel("my_data.xlsx", skiprows=3)

要只读取A列到C列的数据，你可以这样写：

python df = pd.read_excel("my_data.xlsx", usecols="A:C")
日期格式问题： Excel中存储的日期，Python读取后可能变成奇怪的数字。这时候，你需要告诉pandas哪些列是日期列，让它自动转换。可以使用parse_dates参数来指定要解析为日期的列。例如，要将"Date"列解析为日期，你可以这样写：

python df = pd.read_excel("my_data.xlsx", parse_dates=["Date"])

更进一步，如果日期格式不标准，比如 "2023年10月26日"，pandas可能无法自动识别。这时候，你需要自定义日期解析函数：

```python
from datetime import datetime

def parse_chinese_date(date_string):
try:
return datetime.strptime(date_string, "%Y年%m月%d日")
except ValueError:
return None # 或者其他处理方式

df = pd.read_excel("my_data.xlsx", converters={"日期列名": parse_chinese_date})
```

这里，converters参数允许你对特定列应用自定义的转换函数。
数据类型问题： Excel中存储的数据类型可能与Python中的数据类型不一致，比如数字可能被当做字符串读取。你可以使用dtype参数来指定每列的数据类型。例如，要将"Age"列指定为整数类型，你可以这样写：

python df = pd.read_excel("my_data.xlsx", dtype={"Age": int})

还有一点很重要，编码问题。如果你的Excel文件包含中文，而Python默认的编码方式不是UTF-8，那么读取出来的中文可能会乱码。这时候，你需要指定编码方式。例如，如果你的Excel文件使用GBK编码，你可以这样写：

python df = pd.read_excel("my_data.xlsx", encoding="gbk")

通常情况下，UTF-8编码是最常用的，建议优先尝试。

除了pandas，openpyxl也是一个很强大的库，它可以让你更精细地控制Excel文件的读取。比如，你可以逐个单元格地读取数据，或者修改单元格的样式。

```python
import openpyxl

加载Excel文件

workbook = openpyxl.load_workbook("my_data.xlsx")

选择sheet

sheet = workbook["Sheet1"]

遍历单元格

for row in sheet.iter_rows(min_row=1, max_row=5, min_col=1, max_col=3):
for cell in row:
print(cell.value)
```

这段代码使用了openpyxl库来导入Excel文件，并遍历了前5行的前3列数据。openpyxl相对于pandas来说，更加底层，可以让你更灵活地操作Excel文件，但同时也更加复杂。

总而言之，Python导入Excel的方法有很多，pandas通常是你的首选，因为它简单易用，功能强大。但是，当你需要更精细地控制Excel文件时，openpyxl也是一个不错的选择。记住，选择合适的工具，才能事半功倍。希望这些技巧能帮助你更高效地处理Excel数据，让你的工作更加轻松愉快！

作者：蜗牛先森

链接：https://www.livip.net/1463

文章版权归作者所有，未经允许请勿转载。

THE END

Python线程怎么解？多线程难题破解之道，高效并发编程指南

<<上一篇

用Python查房价：手把手教你爬取、分析房产数据，轻松掌握楼市信息！

下一篇>>