Python读取CSV数据：轻松搞定！多种方法详解与实践案例分享

蜗牛先森

2025-6-26

Python读取CSV数据，这事儿听起来高大上，其实真没那么难。我第一次接触CSV文件，那还是在帮朋友整理电商平台导出的销售数据，几万行的表格，简直要崩溃。当时Excel卡到爆，想按个销量排序都得等半天。后来，我发现了Python，简直打开了新世界的大门！

最最基础的：csv 模块

csv 模块绝对是Python读取CSV数据的基本功，必须掌握。你只需要 import csv 一下，就能开始你的数据读取之旅。

```python
import csv

with open('your_data.csv', 'r') as file:
reader = csv.reader(file)
for row in reader:
print(row) #每一行数据就这样打印出来了！
```

这段代码简单粗暴，直接把CSV文件里的每一行数据都打印出来。csv.reader 返回的是一个迭代器，你可以逐行读取数据。不过，你会发现每行数据都是一个列表，里面的元素都是字符串。如果你需要数值类型，还得自己转换，略微麻烦。

进阶玩家：pandas 库

如果说 csv 模块是自行车，那 pandas 库就是法拉利。pandas 提供了一个叫做 DataFrame 的数据结构，简直是为了处理表格数据而生的。

首先，你需要安装一下： pip install pandas

然后，就可以这样读取CSV文件：

```python
import pandas as pd

df = pd.read_csv('your_data.csv')
print(df) # 漂亮的数据表格就出现在你的眼前了！
```

一行代码搞定！而且，pandas 会自动识别数据类型，你再也不用手动转换了。更爽的是，你可以像操作数据库一样操作 DataFrame，筛选、排序、分组、聚合，想怎么玩就怎么玩。

实际案例：分析电商销售数据

还记得我前面提到的电商销售数据吗？用 pandas 分析起来简直不要太爽。假设我们的CSV文件里有 订单ID、商品名称、购买数量、单价、购买时间 几个字段。

```python
import pandas as pd

df = pd.read_csv('sales_data.csv')

1. 计算总销售额

df['总价'] = df['购买数量'] * df['单价']
total_sales = df['总价'].sum()
print(f"总销售额：{total_sales}")

2. 找出销量最高的商品

top_selling_product = df.groupby('商品名称')['购买数量'].sum().sort_values(ascending=False).index[0]
print(f"销量最高的商品：{top_selling_product}")

3. 按月统计销售额

df['购买时间'] = pd.to_datetime(df['购买时间']) #先转成日期时间类型
df['月份'] = df['购买时间'].dt.month
monthly_sales = df.groupby('月份')['总价'].sum()
print("每月销售额：")
print(monthly_sales)
```

看到了吗？只需要几行代码，就能轻松完成各种数据分析任务。 pandas 简直是数据分析师的瑞士军刀。groupby、sum、sort_values 这些函数用起来简直不要太顺手。

一些小技巧和注意事项

编码问题：CSV文件可能会有各种编码问题，比如 UTF-8、GBK 等等。如果读取时出现乱码，可以尝试指定编码方式： pd.read_csv('your_data.csv', encoding='gbk')
分隔符：默认情况下，csv.reader 和 pd.read_csv 都使用逗号作为分隔符。如果你的CSV文件使用其他分隔符，比如制表符，可以指定 delimiter 参数： csv.reader(file, delimiter='\t') 或 pd.read_csv('your_data.csv', sep='\t')
处理缺失值：CSV文件中可能会有缺失值，pandas 会把它们识别为 NaN。你可以使用 fillna 函数填充缺失值： df.fillna(0)
大数据量：如果你的CSV文件非常大，pandas 可能会占用大量内存。可以考虑使用 chunksize 参数分块读取： pd.read_csv('your_data.csv', chunksize=10000)，然后逐块处理数据。
数据清洗:真实的数据往往不干净，比如有空白行、错误的数据类型等，需要在使用前进行清洗。pandas提供了强大的数据清洗功能，例如删除重复行(drop_duplicates)，替换特定值(replace)，删除包含缺失值的行(dropna)等等。善用这些函数，可以大大提高数据分析的准确性。
索引的妙用: pandas中的DataFrame 拥有索引，可以方便地定位和选取数据。你可以将某一列设置为索引(set_index)，然后使用loc和iloc方法进行数据访问。 loc基于标签进行选择，而iloc基于整数位置进行选择。

更高级的玩法

除了上面这些基本操作，pandas 还可以做更多的事情：

数据可视化：pandas 可以和 matplotlib、seaborn 等库结合，绘制各种图表，让数据更直观。
机器学习：pandas 可以作为机器学习模型的输入，进行各种预测和分类任务。
数据存储：pandas 可以将数据保存到各种格式的文件中，比如 Excel、JSON、SQL 数据库等等。

总结

Python读取CSV数据，就像搭积木一样，你可以选择最适合你的工具和方法。如果你只是简单地读取数据，csv 模块就足够了。如果你需要进行复杂的数据分析，pandas 绝对是你的不二之选。希望这篇文章能帮助你更好地掌握Python读取CSV数据的技巧，让你的数据分析工作更加轻松愉快！记住，实践才是检验真理的唯一标准，多动手尝试，你才能真正掌握这些技能。

别怕遇到问题，搜索引擎是你的好朋友。遇到不懂的地方，查一下文档，看看别人的代码，很快就能解决。祝你学习顺利！

作者：蜗牛先森

链接：https://www.livip.net/603

文章版权归作者所有，未经允许请勿转载。

THE END

Python揭秘：怎么看懂数字的“身份证”——深入理解Python如何看进制

<<上一篇

Python接口文档撰写指南：让你的API文档不再难产，清晰易懂，提升开发效率！

下一篇>>