Python 计数攻略：多种方法玩转数据统计，轻松掌握怎么计数 Python！

蜗牛先森

2025-7-1

Python 里面怎么计数？哎，这个问题问得好，它就像问武侠高手“怎么用剑”一样，看似简单，实则门道深着呢！咱今天就来好好聊聊，保证让你看完之后，计数这事儿，手到擒来！

最最基础的，当然是循环了。比如你想数一个列表里有多少个偶数，那还不简单？

python numbers = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10] count = 0 for number in numbers: if number % 2 == 0: count += 1 print(f"偶数的个数是: {count}")

嗯，代码很直接，很实在，就像老家的土灶，烧出来的饭就是香。但这效率嘛，就稍微有点儿...朴实。

想更快？那就祭出 collections 模块里面的 Counter 大法！这玩意儿简直就是为计数而生的。你给它一个列表，它嗖的一下，就把每个元素出现的次数都给你统计好了。

```python
from collections import Counter

words = ['apple', 'banana', 'apple', 'orange', 'banana', 'apple']
word_counts = Counter(words)
print(word_counts) # 输出: Counter({'apple': 3, 'banana': 2, 'orange': 1})
```

看到没？Counter 直接返回一个字典，键是元素，值是出现的次数。想知道 'apple' 出现了几次？直接 word_counts['apple'] 就行了，方便得简直不像话！

不过，Counter 可不只是用来数列表里的元素的。它还可以数字符串里的字符呢！简直是文本分析利器。

python text = "This is a sample text. This text is for example." char_counts = Counter(text.lower()) # 忽略大小写 print(char_counts)

怎么样？是不是有点意思了？

再来点高级的。假设你有一堆数据，需要按照某种条件进行分组计数。比如，你有一份学生成绩单，想统计每个分数段的人数。这个时候，pandas 库就派上用场了。

```python
import pandas as pd

data = {'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'],
'Score': [85, 92, 78, 85, 95]}
df = pd.DataFrame(data)

定义分数段

bins = [0, 60, 70, 80, 90, 100]
labels = ['不及格', '及格', '中等', '良好', '优秀']

将分数分段

df['Score_Group'] = pd.cut(df['Score'], bins=bins, labels=labels, right=False)

统计每个分数段的人数

score_counts = df['Score_Group'].value_counts()
print(score_counts)
```

这段代码，首先用 pandas 创建了一个 DataFrame，然后定义了分数段，接着用 pd.cut 函数将分数分段，最后用 value_counts 函数统计每个分数段的人数。简直是数据分析的一条龙服务！

而且，pandas 的 groupby 功能也很强大，可以让你按照多个条件进行分组计数。比如说，你想统计每个年级每个班级的学生人数，那就可以用 groupby 来实现。

```python
data = {'Grade': [1, 1, 2, 2, 1, 2],
'Class': [1, 2, 1, 2, 1, 1],
'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve', 'Frank']}
df = pd.DataFrame(data)

按照年级和班级分组，统计人数

student_counts = df.groupby(['Grade', 'Class'])['Name'].count()
print(student_counts)
```

这一下子，计数就变得更有针对性，更有价值了。

说到计数，有时候我们需要的不是精确的数字，而是近似的估计。比如，你想知道一个网站每天有多少独立访客，如果每次都精确地统计，那会消耗大量的资源。这个时候，就可以用 HyperLogLog 算法来进行近似计数。

虽然 HyperLogLog 的实现稍微复杂一些，但它的核心思想很简单：通过观察数据的特征，来估算数据的总量。你可以把它想象成一个神奇的盒子，你往里面扔东西，它不用数，也能大概知道你扔了多少。

Python 里面有一些库实现了 HyperLogLog 算法，比如 redis 的 PFCOUNT 命令，或者 streamz 库。

```python

使用 redis 的 PFCOUNT 命令

import redis

r = redis.Redis(host='localhost', port=6379, db=0)

添加数据

for i in range(1000):
r.pfadd('visitors', f'user_{i}')

估计访客数量

visitor_count = r.pfcount('visitors')
print(f"估计访客数量: {visitor_count}")
```

HyperLogLog 的优点是节省内存，速度快，但缺点是精度不高。你需要根据实际情况来选择是否使用它。

最后，咱们再来说说 并发计数。在高并发的场景下，如果多个线程同时修改同一个计数器，可能会出现数据竞争的问题。为了解决这个问题，可以使用 threading.Lock 或者 multiprocessing.Lock 来保证线程安全。

```python
import threading

count = 0
lock = threading.Lock()

def increment():
global count
for _ in range(100000):
lock.acquire() # 获取锁
count += 1
lock.release() # 释放锁

threads = []
for _ in range(5):
t = threading.Thread(target=increment)
threads.append(t)
t.start()

for t in threads:
t.join()

print(f"最终计数结果: {count}")
```

这段代码，用 threading.Lock 来保护 count 变量，确保每次只有一个线程可以修改它。虽然加锁会降低一些性能，但可以保证数据的准确性。

所以说，Python 计数的方法有很多，每种方法都有自己的适用场景。关键在于你要理解每种方法的原理，然后根据实际情况来选择最合适的方法。从最简单的循环，到 Counter，再到 pandas 的 groupby，以及 HyperLogLog 算法，每一步都是对计数理解的加深。希望这篇文章能帮助你更好地掌握 Python 计数，让你在数据分析的道路上越走越远！

作者：蜗牛先森

链接：https://www.livip.net/916

文章版权归作者所有，未经允许请勿转载。

THE END

Python怎么取代？未来编程语言替代方案深度解析及发展趋势

<<上一篇

python平方怎么算？多种方法详解，告别小白！

下一篇>>