Python怎么存档：别再只会open了，高手都用这几招持久化

说真的，每次看到有人问“python怎么存档”，我脑子里浮现的第一个画面，就是一个跑了仨小时的爬虫，眼看就要大功告成，结果“啪”一下，程序崩溃，终端关闭，所有抓取的数据，那些躺在内存里、还没来得及“落地”的宝贝，瞬间灰飞烟灭。那种感觉，简直比失恋还难受，是纯粹的、物理层面的心痛。

咱们新手上路，最开始接触的“存档”，可能就是最原始的冲动：用print()把结果打在屏幕上，然后手动复制粘贴。这不算存档，这叫“人肉数据搬运”。

稍微进阶一点，恭喜你，你发现了open()函数这个新世界的大门。
with open('my_data.txt', 'w') as f:
f.write('hello world')
哇，太棒了，程序运行完，文件真的出现了！数据真的存下来了！感觉自己掌握了一门绝技。但别高兴得太早。如果你要存的是一个列表，一个字典，甚至是一个嵌套了好几层的复杂字典呢？你可能会天真地用str()把它强行转换成字符串再写入。取的时候呢？再吭哧吭哧地写一堆字符串分割、类型转换的代码？别折腾了，那根本不是正道，纯属给自己找麻烦。

真正的Python数据持久化，或者说“存档”，远不止于此。它是一门艺术，一门关于如何优雅地让你的数据“活下去”的艺术。

第一站：JSON – 通行世界的标准语

如果你要存的数据结构相对规整，比如字典、列表、字符串、数字这些，而且，重点来了，你这个数据可能不只是给Python自己用，未来还可能要给网页上的JavaScript用，或者给Java后台用，那JSON（JavaScript Object Notation）就是你的不二之G选。

它就像数据界的“普通话”，谁都听得懂。用法也简单到令人发指：
import json

my_awesome_data = {
'name': '爬虫一号',
'results': [
{'url': 'https://example.com/1', 'title': '第一个标题'},
{'url': 'https://example.com/2', 'title': '第二个标题'}
]
}

# 存档！
with open('data.json', 'w', encoding='utf-8') as f:
json.dump(my_awesome_data, f, ensure_ascii=False, indent=4)

# 读档！
with open('data.json', 'r', encoding='utf-8') as f:
loaded_data = json.load(f)

看到没？json.dump()一步到位，json.load()一招复活。那个indent=4参数简直是强迫症福音，它能让存下来的JSON文件格式化得漂漂亮亮，可读性极强。ensure_ascii=False则是处理中文必备的咒语。

但JSON不是万能的。它有它的脾气。比如，它不认识Python里的datetime对象，更别提你自己定义的class对象了。想存这些复杂玩意儿？JSON会直接给你甩脸子（抛出TypeError）。

第二站：Pickle – Python的亲儿子，也是个危险分子

当JSON搞不定，你需要把Python内存里几乎“任何东西”——自定义对象、复杂的嵌套结构、函数（是的，你没看错）——原封不动地“冷冻”起来，下次再“解冻”使用时，Pickle就该登场了。

import pickle

class MyObject:
def __init__(self, name):
self.name = name

my_obj = MyObject('一个神奇的对象')
my_list = [1, 'a', my_obj, (1, 2)]

# 存档！二进制模式'wb'
with open('data.pkl', 'wb') as f:
pickle.dump(my_list, f)

# 读档！二进制模式'rb'
with open('data.pkl', 'rb') as f:
loaded_list = pickle.load(f)

print(loaded_list[2].name) # 输出：一个神奇的对象

Pickle的强大之处在于它的“保真度”。它几乎能完美复刻存档前的Python对象状态。这对于一些机器学习模型的保存、复杂应用状态的快照，简直是神器。

但是！天下没有免费的午餐。Pickle的强大也带来了它最致命的弱点：安全隐患。因为pickle.load()可以执行任意代码，所以如果你去加载一个来路不明的pickle文件，那就等于给了黑客一把你家服务器的钥匙。他可以在这个文件里埋下恶意代码，你一加载，服务器就可能被“拿下”。所以，切记：永远不要反序列化（unpickle）来自不信任来源的数据！ 这句话，请刻在你的DNA里。

第三站：SQLite – 被严重低估的“单机数据库之王”

当你玩腻了文件级别的存档，发现数据量越来越大，需要开始进行一些查询、筛选、更新操作时，是不是就该上MySQL、PostgreSQL这些大家伙了？停！先别急着去折腾那些需要单独安装、配置、启动服务的重量级数据库。

你的好朋友Python，已经为你内置了一个“被低估的神器”——SQLite。

它就是一个文件，一个.db文件，但它却是一个功能完备的关系型数据库。你不需要安装任何东西，import sqlite3就能直接用。

它解决了什么痛点？
原子性操作：用with和commit()，你的写入操作要么完全成功，要么完全失败，再也不用担心写文件写到一半程序崩了，文件坏掉。这就是所谓的事务。
高效查询：数据再多，一条SQL语句就能帮你精准定位，而不是傻乎乎地把整个JSON文件读到内存里再遍历。
并发安全：多个线程或进程（在一定程度上）可以同时读写这个数据库文件，它内置了锁机制来防止数据错乱。

用起来也相当直观：
import sqlite3

conn = sqlite3.connect('my_app.db') # 连接数据库，没有就创建一个
cursor = conn.cursor()

# 创建一个表
cursor.execute('''
CREATE TABLE IF NOT EXISTS articles
(id INTEGER PRIMARY KEY, url TEXT NOT NULL, title TEXT)
''')

# 插入数据（存档）
cursor.execute("INSERT INTO articles (url, title) VALUES (?, ?)", ('https://example.com/3', '第三个标题'))
conn.commit() # 提交事务，数据才真正写入

# 查询数据（读档）
for row in cursor.execute("SELECT * FROM articles WHERE title LIKE ?", ('%标题%',)):
print(row)

conn.close()

对于绝大多数中小型项目、桌面应用、爬虫任务，SQLite简直是完美方案。它提供了数据库的健壮性和查询能力，却保留了文件般的轻便。从简单的文件存档，升级到SQLite，绝对是一次“鸟枪换炮”般的体验提升。

到底该用哪个？

别再问“python怎么存档”这种笼统的问题了。你应该问自己：

我的数据是什么样的？ 是简单的文本日志，还是结构化的键值对，还是复杂的Python对象？
谁会使用这些数据？ 只有我这个Python程序自己，还是需要和其他语言、系统交互？
数据量有多大？未来需要查询吗？ 是几百条记录，还是几百万条？我需要像WHERE a=1 AND b=2这样复杂的查询吗？

想清楚这几个问题，答案就自己浮现了：

临时日志、简单配置 -> open()写写纯文本，足够了。
需要跨语言、给前端用的结构化数据 -> 毫不犹豫，JSON。
纯Python环境，需要保存复杂对象状态，且来源绝对可靠 -> Pickle是你忠实但危险的伙伴。
数据量上来了，需要正儿八经地管理和查询，但又不想搞得太复杂 -> SQLite，信我，用了就回不去了。

别听那些“最佳实践”的鬼话，说什么项目一开始就得上大家伙。技术选型没有绝对的优劣，最适合你当下那个烂摊子的，就是最好的方案。现在，你的数据，你做主。去存档吧。

声明：本站所有资料均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。若您的权利被侵害，请联系214278591@qq.com。

Python怎么存档：别再只会open了，高手都用这几招持久化

第一站：JSON – 通行世界的标准语

第二站：Pickle – Python的亲儿子，也是个危险分子

第三站：SQLite – 被严重低估的“单机数据库之王”

到底该用哪个？

文章展示

Python怎么写飞机？从零开始，用代码实现你的空中梦想！

Python Selenium 安装指南：轻松配置你的自动化测试环境，掌握 Python Selenium 安装

Python怎么发送HTTP请求？一看就会的实用指南！

Python编程：深度解析如何用代码生动表示各种概念与数据类型

Python列表取值精髓：list怎么取值Python的奥秘全解析

python怎么导入ipynb

Python怎么存档：别再只会open了，高手都用这几招持久化

第一站：JSON – 通行世界的标准语

第二站：Pickle – Python的亲儿子，也是个危险分子

第三站：SQLite – 被严重低估的“单机数据库之王”

到底该用哪个？

相关文章

文章展示