Python怎么加音频？新手必看教程：从播放到合成全攻略

蜗牛先森

2025-7-20

说真的，每次我写完一个爬虫，吭哧吭哧跑了半天终于抓到数据，或者一个自动化脚本完美执行完任务时，总觉得少了点什么。屏幕上冷冰冰的 "Process finished with exit code 0" 哪有来一段“胜利大逃亡”的BGM带感？这就是我折腾 Python怎么加音频 的最初动机，纯粹是为了好玩，为了给枯燥的代码加点“人情味”。

后来发现，这玩意儿可不止是播放个提示音那么简单，简直是个深不见底的兔子洞。

菜鸟上路：我就想听个响儿

如果你跟我刚开始一样，需求极其单纯——脚本成功了，放个“叮”；失败了，放个“唉”。那你可千万别上来就啃那些复杂的库，杀鸡用牛刀，累死自己。

这时候，我向你隆重推荐一个“傻瓜”库：**playsound**。

这玩意儿名字就告诉你了它能干啥，用法更是简单到令人发指。

pip install playsound

然后，一行代码，搞定。

python from playsound import playsound playsound('/path/to/your/music.mp3')
就这？对，就这。它没有任何花里胡哨的功能，不能暂停，不能调节音量，就是个“播放然后忘记”的家伙。但对于只需要一个简单音效反馈的场景，它简直是完美的存在。我经常用它来做一些长时间任务的提醒，比如模型训练完了，就让它放一段音乐，我就可以安心去喝杯咖啡，听声儿就知道结果了。简单，粗暴，有效。

进阶玩家：我要开始“剪”音频了

当然，人的欲望是无穷的。很快，你就不满足于仅仅是“听个响”了。你想把一段音频剪一剪，或者给一段录音加上背景音乐，再或者把音频的声音调大调小，甚至来个淡入淡出，让效果听起来更“专业”。

这时候，**pydub** 闪亮登场。

这家伙，简直就是音频处理界的“瑞士军刀”。它把那些底层复杂的音频操作，封装得极其优雅和人性化。你不需要去理解什么叫采样率、位深度，你只需要像操作Python列表一样去操作音频。

我第一次用 **pydub** 的时候，感觉就像是打开了新世界的大门。比如，我要把一首三分多钟的歌，只截取高潮部分的30秒：

```python
from pydub import AudioSegment

song = AudioSegment.from_mp3("some_long_song.mp3")

pydub用毫秒做单位，所以30秒就是30 * 1000

start_time = 60 * 1000 # 比如从第60秒开始
end_time = 90 * 1000 # 到第90秒结束
chorus = song[start_time:end_time]

chorus.export("chorus.mp3", format="mp3")
`` 看到没？song[start_time:end_time]`，这切片操作，是不是跟Python列表一模一样？太直观了！

还不止这些。你想给你的音频加个淡入淡出？一行代码。

chorus.fade_in(2000).fade_out(3000)

你想把两段音频合并？一个加号就行。

combined = audio1 + audio2

你想给你的解说视频配上背景音乐？overlay 方法让你轻松实现。

final_audio = commentary.overlay(background_music)

不过，这里有个大坑，无数新手都在这里栽过跟头。**pydub** 本身不是一个解码器，它更像一个聪明的“指挥家”。真正干脏活累活（解码、编码）的，是它背后的 **FFmpeg** 或者 **libav**。所以，在你 pip install pydub 之后，十有八九还需要在你的电脑上安装 FFmpeg 这个软件，并确保它的路径在系统环境变量里。否则，pydub 就是个光杆司令，啥也干不了。别问我怎么知道的，那是我当年对着报错信息抓耳挠腮一下午的痛。

硬核高手：我要触及音频的“灵魂”

pydub 虽然强大，但它处理的是整个音频文件。如果你想玩得更 hardcore 一点，比如，做一个实时录音机，或者一个语音聊天程序，再或者一个能跟着音乐节奏跳动的可视化特效，那你就需要深入到音频的本质——音频流 (Audio Stream)。

这时候，就轮到 **PyAudio** 出场了。

PyAudio 是一个非常底层的库，它是著名音频I/O库 PortAudio 的Python绑定。说人话就是，它能让你直接跟电脑的麦克风和扬声器打交道。

用 PyAudio 的感觉，就像是你从一个成品家具店老板，瞬间变成了一个手持电锯和刨子的木匠。它给你的不是切割好的音频片段，而是原始的、滚烫的音频数据，通常是一小块一小块的 字节数据（chunks）。

你需要自己打开一个“流”（stream），告诉它你要录音还是播放，设置好声道数、采样率等参数，然后在一个循环里，不断地从流里读取（录音）或写入（播放）数据。

```python

这只是一个伪代码示意，真实代码要复杂得多

import pyaudio

p = pyaudio.PyAudio()

stream = p.open(format=p.paInt16, channels=1, rate=44100, input=True, frames_per_buffer=1024)

print("开始录音...")

while True:
try:
data = stream.read(1024) # 读取一小块音频数据
# 在这里你可以对 data 进行处理，比如分析、传输等
except KeyboardInterrupt:
break

stream.stop_stream()
stream.close()
p.terminate()
```

这玩意儿的学习曲线陡峭得多，但它能实现的功能也强大得多。所有需要实时处理音频的场景，几乎都离不开它。

终极形态：当音频遇上数学

如果你觉得 PyAudio 还不够刺激，你想自己“创造”声音，或者像“Shazam”那样分析一首歌到底是什么歌。那么，欢迎来到音频处理的终极领域：信号处理与音频分析。

这时候，你的武器库里需要加入 **NumPy** 和 **SciPy**，以及一个专门为音频分析而生的神器——**librosa**。

用 **NumPy**，你可以用纯数学的方式生成声音。一段正弦波是什么？不就是 np.sin() 函数在一段时间内的输出吗？把这些数值按照正确的格式转换成字节，再用 PyAudio 播放出来，你就用代码“唱”出了一声“do”。通过组合不同频率和振幅的正弦波，你甚至可以合成出乐器的声音。这感觉，就像是化身造物主。

而 **librosa** 呢，它能把一段复杂的音频，拆解成各种有意义的特征。它可以帮你提取节奏（tempo）、节拍（beats），还能提取出一种叫做 MFCCs（梅尔频率倒谱系数） 的东西。这个MFCCs听起来很玄乎，但你可以把它想象成一段声音的“指纹”，是语音识别、音乐类型分类等高级应用的基石。

所以，你看，python怎么加音频 这个问题，答案可长可短。

它可以是 playsound 的一行代码，给你即时的快乐。
也可以是 pydub 的灵活剪辑，让你成为音频的魔术师。
还可以是 PyAudio 的实时数据流，让你感受音频在指尖的脉动。
最终，它甚至可以是 NumPy 和 librosa 的数学魔法，让你洞悉声音背后的秘密。

选择哪条路，完全取决于你想把声音玩到什么程度。对我来说，探索这个过程本身，远比最终那个“叮”声要有趣得多。所以，别犹豫了，随便找个库，挑个你喜欢的 .mp3，让你的代码也“唱”起来吧。

作者：蜗牛先森

链接：https://www.livip.net/1472

文章版权归作者所有，未经允许请勿转载。

THE END

Python GUI 入门：手把手教你怎么打开 Python GUI，快速搭建图形界面！

<<上一篇

Python Try语句如何优雅结束？全面解析异常处理的正确姿势

下一篇>>