Python直方图设置深度解析：从入门到精通，教你玩转数据可视化，python怎么设置直方图全攻略

说实话，每次当我手里握着一堆看似杂乱无章的数字时，心里总会冒出一个念头：它们到底在告诉我什么？是高矮胖瘦，还是贫富差距？是考试成绩的分布，亦或是某个产品使用时长的冷暖？这些原始数据，就像未被雕琢的璞玉，光看是看不出门道的。而直方图，在我看来，就是那把能点石成金的刻刀，它能瞬间把一堆冰冷的数字，变成一幅幅有温度、有故事的画面。

直方图，这名字听起来有点学术腔，但它的本质简单得吓人：就是把你的数据分成几段（我们叫“bin”或者“柱子”），然后数一数每段里有多少数据点。柱子越高，说明落在那个范围的数据点越多。就这么简单！但别小瞧了这份简单，它可是数据探索（EDA）阶段的得力干将，是你看清数据“长相”的第一步，也是至关重要的一步。你想知道一组数值型数据是集中在哪个区域，是左偏还是右偏，有没有异常值捣乱，直方图都会明明白白地告诉你。

那么，python怎么设置直方图呢？在Python的数据可视化江湖里，Matplotlib是老前辈，地位不可撼动。虽然它有时候有点“老派”，命令相对繁琐，但它的灵活性和底层控制能力是无与伦比的。当然，我们也会提到它的好搭档——Seaborn，那个更懂“美学”的后来者。

Matplotlib的入门与精通：构建你的第一张直方图

要用Matplotlib画直方图，你首先得导入它，这几乎是条件反射般的动作了：

python import matplotlib.pyplot as plt import numpy as np # 生成一些模拟数据，方便我们演示

假设我们有一组模拟数据，比如随机生成1000个符合正态分布的年龄数据：

python data = np.random.normal(loc=30, scale=5, size=1000) # 均值30，标准差5

最基础的画法，简单到你不敢相信：

python plt.hist(data) plt.title('一个简单的年龄分布直方图') # 标题，很有必要 plt.xlabel('年龄') # x轴标签 plt.ylabel('频数') # y轴标签 plt.show()

运行这段代码，一张最原始的直方图就会呈现在你眼前。它就像一张素颜照，虽然不惊艳，但该有的都有了。不过，仅仅这样可不够，我们得学会给它“化妆”，让它更美，更“能说”。

核心参数揭秘：让你的直方图“言之有物”

1. 柱子的数量与宽度（bins）：这才是灵魂！

我觉得，bins参数是直方图的灵魂所在。它决定了你的数据被切分成多少段。柱子太少，数据里的细节就可能被“模糊”掉；柱子太多，又可能变得“过于碎裂”，像一堆噪声，难以看出趋势。这就像你在看一幅抽象画，远了看不清笔触，近了又只剩颜料块。

plt.hist(data, bins=20)

这里，我们明确告诉Matplotlib，我想要20根柱子。但你也可以让它自己估算，或者采用一些更“科学”的方法。Matplotlib默认会给你一个大概的估计值，但很多时候，这还不够。

你可以传入一个整数，表示你想要的柱子数量。
也可以传入一个序列，明确指定每个柱子的边界，比如 bins=[0, 10, 20, 30, 40, 50]。这样，你可以控制每个年龄段的范围，比如想知道0-10岁、10-20岁的人各有多少。

选择bins的数量，有时真是一门艺术。常用的经验法则包括：
* Sturges’ Rule： bins = 1 + log2(N)，N是数据点数量。适用于数据量较小的近似正态分布。
* Freedman-Diaconis Rule：这个方法更“鲁棒”，它会考虑数据的四分位数间距（IQR），对异常值不那么敏感。Matplotlib内部支持这个选项。
* Scott’s Rule：基于标准差。

你可以在plt.hist()中使用字符串来指定这些规则，比如 bins='auto'（Matplotlib会尝试使用Sturges和Freedman-Diaconis的混合），或者bins='fd'（Freedman-Diaconis）。不过我个人的经验是，多试几次不同的整数值，找到那个最能清晰展现数据分布趋势的数字，往往比死守某个公式更有效。毕竟，图表是给人看的，不是给机器算的。

2. 数据的范围（range）：聚焦关键！

有时候，你的数据可能有一些极端值，或者你只想关注某个特定的数据区间。这时，range参数就派上用场了。

plt.hist(data, bins=20, range=(20, 40))

这行代码会告诉Matplotlib，我只关心年龄在20到40岁之间的数据，超出这个范围的统统忽略不计。这对于排除异常值或者深入分析某个局部区间非常有用。

3. 密度直方图（density）：比较不同规模的数据集！

当你想要比较两组不同大小的数据集时，比如1000个男性的身高和100个女性的身高，如果直接画频数直方图，女性的柱子肯定普遍矮一截，这会造成误解。这时，density=True就能解决这个问题。

plt.hist(data, bins=20, density=True)

当density=True时，直方图的纵轴不再是频数，而是“频率密度”。所有柱子的面积总和将为1。这样，你就可以公平地比较不同规模数据集的分布形态了。这是我经常用到的一个参数，因为它能让我跳出数量的限制，直接关注分布的“形状”。

精雕细琢：让你的直方图更具表现力

仅仅能画出来还不够，我们要让它“好看”，更重要的是“好懂”。

1. 颜色与边缘（color, edgecolor）：点亮你的图表！

默认的蓝色柱子虽然不难看，但总觉得少了点个性。我们可以随意调整柱子的颜色，甚至给它们加上边框。

“`python
plt.hist(data, bins=20, color=’skyblue’, edgecolor=’black’, linewidth=1.2)

color 可以是颜色名称、十六进制代码，甚至RGB元组

edgecolor 设置柱子边框颜色

linewidth 设置边框的宽度

“`

颜色选择很重要，它能影响观者的情绪。比如，表示积极的用绿色，消极的用红色。而边框则能让柱子之间的界限更清晰，避免视觉上的“糊成一团”。

2. 透明度（alpha）：叠加直方图的秘诀！

如果你想在同一张图上比较多组数据的分布，比如，我想看看男性和女性的身高分布有什么不同。这时，透明度（alpha）就是你的神来之笔。

“`python
male_heights = np.random.normal(loc=175, scale=7, size=500)
female_heights = np.random.normal(loc=163, scale=6, size=400)

plt.hist(male_heights, bins=30, alpha=0.6, label=’男性身高’, color=’blue’, density=True)
plt.hist(female_heights, bins=30, alpha=0.6, label=’女性身高’, color=’pink’, density=True)
plt.title(‘男女身高分布对比’)
plt.xlabel(‘身高 (cm)’)
plt.ylabel(‘密度’)
plt.legend() # 显示图例，区分不同数据集
plt.show()
“`

通过设置alpha为一个0到1之间的值（比如0.6），柱子就会变得半透明，这样它们重叠的部分也能清晰可见。再配合不同的颜色和图例，两组数据的异同立刻跃然纸上。这种比较方式，远比画两张独立的图表来得直观和高效。

3. 累积直方图（cumulative）：看百分比分布！

有时我们不仅想知道某个区间的频数，还想知道有多少比例的数据点低于某个值。这时，cumulative=True就非常有用了。

plt.hist(data, bins=20, cumulative=True, density=True, color='purple', alpha=0.7)

这样画出的直方图，纵轴会变成累积频率或累积密度。比如，如果你想知道有多少人年龄低于35岁，直接从累积直方图上就能找到答案。

4. 不同的直方图类型（histtype）：选择你的风格！

histtype参数允许你改变柱子的显示方式：
* 'bar'：默认，实心的柱子。
* 'barstacked'：用于多组数据时，将柱子堆叠起来。
* 'step'：只画柱子的轮廓线，不填充颜色。
* 'stepfilled'：画轮廓线并填充颜色。

我个人比较喜欢'stepfilled'，特别是在需要叠加不同数据集时，它能让边界感更强，同时又不会过于厚重。

plt.hist(data, bins=20, histtype='stepfilled', color='green', alpha=0.7)

Seaborn的优雅：更高级的直方图体验

虽然Matplotlib是基础，但Seaborn在很多时候能让你事半功倍，尤其是当你对图表美观度有较高要求时。Seaborn在Matplotlib之上做了一层封装，提供了更多高级的统计图形，并且默认的风格就非常漂亮。

导入Seaborn通常是这样：

python import seaborn as sns

在Seaborn中，绘制直方图的常用函数是sns.histplot()（或者更通用的sns.displot()）。

python sns.histplot(data, bins=20, kde=True, color='teal') plt.title('Seaborn绘制的直方图（带KDE）') plt.xlabel('年龄') plt.ylabel('频数/密度') plt.show()

这里，我额外加了一个kde=True。KDE（Kernel Density Estimate，核密度估计）是Seaborn的一个亮点，它能在直方图的基础上，平滑地画出数据分布的估计曲线，让你对数据的整体分布形态有一个更流畅的认知，而不仅仅是离散的柱子。

Seaborn的histplot还有很多方便的参数，比如：
* stat：可以设置为'count'（频数），'frequency'（频率），'probability'（概率），'density'（密度）。这比Matplotlib的density参数更灵活。
* hue：如果你有一个分类变量，比如想根据性别来区分身高分布，hue参数会非常方便。它会自动为每个类别分配不同的颜色和图例。
* x, y：如果你传入的是DataFrame，可以直接指定列名。

“`python

假设我们有一个DataFrame

import pandas as pd
df = pd.DataFrame({
‘年龄’: np.random.normal(loc=30, scale=5, size=1000),
‘性别’: np.random.choice([‘男’, ‘女’], size=1000)
})

sns.histplot(data=df, x=’年龄’, hue=’性别’, bins=20, kde=True, palette=’viridis’)
plt.title(‘按性别划分的年龄分布直方图’)
plt.show()
“`

是不是觉得Seaborn用起来更简洁，而且图表颜值更高？它确实在很多场景下能成为你的首选。我个人在做快速探索和需要漂亮图表时，会优先考虑Seaborn。

我的独家心得与避坑指南

画直方图绝不仅仅是敲几行代码那么简单，它更像是一种数据叙事。这几年用下来，我总结出一些小小的“私货”，希望能帮到你：

Bin选择的“迭代艺术”：别指望第一次就能选对最合适的bins数量。多试几次，30、50、100……直到你觉得图表能清晰地告诉我数据“长什么样”，是单峰、双峰，还是偏斜。有时候，10个bin能告诉你一个大致的趋势，但25个bin才能揭示某个隐藏的小高峰。这个过程就是“试错-优化-再试错”的循环，别怕麻烦。
数据清理先行：在画直方图之前，请务必检查你的数据。有没有缺失值？有没有异常值？一个天大的异常值能把你的直方图压缩得扁平无比，让你完全看不清正常数据的分布。我曾经就犯过这种错误，看着一张“诡异”的直方图百思不得其解，后来才发现是某个数据点错了。
不仅仅是看，更要思考：一张直方图画出来，它不是死的。你要去读它：
- 形状：是近似钟形（正态分布），还是偏向左边（右偏），或者偏向右边（左偏）？
- 峰值：有几个高峰？一个高峰说明数据集中在一个区域，两个高峰（双峰）则可能暗示你的数据里混杂着两种不同的群体（比如身高数据里混杂了男性和女性）。
- 离散程度：柱子是胖是瘦？越胖说明数据越分散，越瘦说明越集中。
- 异常值：在直方图的两端有没有“孤零零”的柱子？那可能是异常值在作祟。
结合统计量，让图表更“立体”：我常常在直方图上额外标出均值（mean）、中位数（median）或众数（mode）。你可以用plt.axvline()在图上画一条垂直线。

“`python
mean_val = np.mean(data)
median_val = np.median(data)

plt.hist(data, bins=20, density=True, color=’skyblue’, edgecolor=’black’)
plt.axvline(mean_val, color=’red’, linestyle=’dashed’, linewidth=2, label=f’均值: {mean_val:.2f}’)
plt.axvline(median_val, color=’green’, linestyle=’dotted’, linewidth=2, label=f’中位数: {median_val:.2f}’)
plt.title(‘带均值和中位数的直方图’)
plt.xlabel(‘数值’)
plt.ylabel(‘密度’)
plt.legend()
plt.show()
“`

这样一来，你的直方图就不仅仅是展现分布，它还承载了重要的统计信息，让你的分析更深入。

直方图，这个看似简单的可视化工具，实则蕴藏着强大的力量。它能把一堆枯燥无味的数据，瞬间转化为直观的、有洞察力的视觉信息。无论是数据科学家、分析师，还是任何想从数据中寻找故事的人，掌握python怎么设置直方图，都是一项必备的技能。它不仅是编程技巧，更是一种理解数据、与数据对话的方式。所以，拿起你的Python，尽情地去探索那些隐藏在数字背后的“面孔”吧！

声明：本站所有资料均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。若您的权利被侵害，请联系214278591@qq.com。

python怎么设置直方图

color 可以是颜色名称、十六进制代码，甚至RGB元组

edgecolor 设置柱子边框颜色

linewidth 设置边框的宽度

假设我们有一个DataFrame

文章展示

Python怎么写飞机？从零开始，用代码实现你的空中梦想！

Python Selenium 安装指南：轻松配置你的自动化测试环境，掌握 Python Selenium 安装

Python怎么发送HTTP请求？一看就会的实用指南！

Python编程：深度解析如何用代码生动表示各种概念与数据类型

Python列表取值精髓：list怎么取值Python的奥秘全解析

python怎么导入ipynb

python怎么设置直方图

color 可以是颜色名称、十六进制代码，甚至RGB元组

edgecolor 设置柱子边框颜色

linewidth 设置边框的宽度

假设我们有一个DataFrame

相关文章

文章展示