Python怎么过滤？实用技巧、代码示例与避坑指南，助你高效数据清洗

蜗牛先森

2025-7-1

作为一名Python爱好者，数据清洗是我的日常。而Python怎么过滤数据，绝对是高频操作。说实话，一开始我也是各种摸索，踩了不少坑。今天，就来聊聊我这些年积累的Python过滤经验，全是干货，希望能帮到你。

最基础的，当然是使用列表推导式了。这玩意儿简洁明了，一行代码就能搞定简单的过滤需求。

比如，我想从一个数字列表中，过滤出所有的偶数：

python numbers = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10] even_numbers = [number for number in numbers if number % 2 == 0] print(even_numbers) # 输出：[2, 4, 6, 8, 10]

是不是很简单？但是，列表推导式也有局限性。如果过滤条件特别复杂，或者需要对元素进行一些额外的处理，代码就会变得很难读。

这时候，filter()函数就派上用场了。filter()函数接收两个参数：一个函数和一个可迭代对象。它会遍历可迭代对象，并将每个元素传递给函数，如果函数返回True，则保留该元素；否则，过滤掉。

举个例子，还是过滤偶数，用filter()函数可以这样写：

```python
numbers = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

def is_even(number):
return number % 2 == 0

even_numbers = list(filter(is_even, numbers))
print(even_numbers) # 输出：[2, 4, 6, 8, 10]
```

虽然代码稍微长了一点，但是可读性明显提高了不少。特别是当过滤条件比较复杂的时候，把过滤逻辑封装成一个函数，会让代码更加清晰。

当然，你也可以用lambda表达式来简化代码：

python numbers = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10] even_numbers = list(filter(lambda x: x % 2 == 0, numbers)) print(even_numbers) # 输出：[2, 4, 6, 8, 10]

但是，lambda表达式也有缺点，那就是只能包含简单的表达式，不能包含复杂的语句。所以，在选择使用lambda表达式还是普通函数时，要根据实际情况进行权衡。

再来说说pandas库，这可是数据分析的利器。pandas提供了强大的数据过滤功能，让你能够轻松地处理各种复杂的数据集。

假设你有一个包含学生信息的DataFrame，你想过滤出所有年龄大于18岁的学生：

```python
import pandas as pd

data = {'name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'],
'age': [17, 19, 18, 20, 16],
'city': ['New York', 'London', 'Paris', 'Tokyo', 'Sydney']}
df = pd.DataFrame(data)

adult_students = df[df['age'] > 18]
print(adult_students)
```

这段代码简直不要太简单！你只需要使用布尔索引，就可以轻松地过滤DataFrame中的数据。

而且，pandas还支持更复杂的过滤条件，比如多条件过滤：

python adult_students_london = df[(df['age'] > 18) & (df['city'] == 'London')] print(adult_students_london)

这段代码会过滤出所有年龄大于18岁，并且居住在伦敦的学生。

除了上面这些方法，还有一些其他的Python过滤技巧，比如使用集合(set)进行去重过滤。集合是一种无序、不重复的数据结构，可以用来快速地去除列表中的重复元素。

python numbers = [1, 2, 2, 3, 3, 3, 4, 4, 4, 4] unique_numbers = list(set(numbers)) print(unique_numbers) # 输出：[1, 2, 3, 4]

另外，你还可以使用itertools库中的filterfalse()函数，来过滤掉满足条件的元素。filterfalse()函数与filter()函数的功能相反，它会保留所有函数返回False的元素。

```python
import itertools

numbers = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
odd_numbers = list(itertools.filterfalse(lambda x: x % 2 == 0, numbers))
print(odd_numbers) # 输出：[1, 3, 5, 7, 9]
```

避坑指南：

注意数据类型： 在进行过滤操作时，一定要注意数据类型。如果数据类型不一致，可能会导致过滤失败或者出现意想不到的结果。比如，字符串和数字比较大小，可能会抛出异常。
小心空值： 在处理包含空值的数据时，要特别小心。空值可能会导致过滤结果不准确。可以使用pandas的dropna()函数来删除包含空值的行或列，或者使用fillna()函数来填充空值。
性能优化： 对于大规模的数据集，过滤操作可能会比较耗时。可以考虑使用一些性能优化的技巧，比如使用numpy数组代替列表，或者使用并行处理来加速过滤过程。

总之，Python怎么过滤数据，方法有很多，关键在于选择适合自己的方法。希望这篇文章能帮助你更好地掌握Python过滤技巧，提高数据清洗的效率。记住，实践是检验真理的唯一标准！多写代码，多踩坑，你才能真正掌握这些技巧。

作者：蜗牛先森

链接：https://www.livip.net/949

文章版权归作者所有，未经允许请勿转载。

THE END

Python怎么竖直输出？从列表到图表，让你的数据“立”起来！

<<上一篇

python怎么隐藏

下一篇>>