Python怎么切分字符串？高手教你split()和re模块的骚操作

刚摸到Python那会儿，我第一次知道字符串还能被“切开”，用的就是那个大名鼎鼎的.split()方法。当时的感觉，怎么说呢，就像第一次拿到一把削铁如泥的宝剑，看啥都想砍一刀。一个长长的句子，'hello world i love python'.split()，啪，一下就变成了['hello', 'world', 'i', 'love', 'python']一个清清爽爽的列表。简直是数据处理新手的福音，不是吗？

这把剑，split()，就是我们聊python怎么切分这个话题时，绕不过去的第一个山头。

它的基础用法，说白了，就是“按某个标志物进行切割”。默认情况下，这个标志物就是所有的空白字符，包括空格、换行符\n、制表符\t等等。它会把一连串的空白字符当成一个整体的分割点。比如你处理一段从网页上扒下来的文本，格式乱七八糟，中间有好几个空格，用.split()，它能很智能地帮你全部分开，不会产生一堆空字符串在那里碍眼。这一点，就比很多其他语言里单纯按单个空格切分的函数要人性化得多。

但很快，你就会遇到新的麻烦。比如，你拿到一个CSV文件里的某一行数据：“张三,25,北京,123-4567”。你想把它拆成姓名、年龄、城市和电话。这时候，你就得给.split()这把剑指定一个更精确的目标了。

'张三,25,北京,123-4567'.split(',')

看到了吗？括号里加了个逗号。这就是告诉Python：“别管什么空格了，现在你的眼里只能有逗号，见到一个逗号，就给我砍一刀！” 结果自然就是 ['张三', '25', '北京', '123-4567']。

这把剑，锋利，直接。

可有时候，你并不想一刀砍到底。比如，你有一串日志记录：'INFO:2023-10-27:User login failed: incorrect password'。你只想把日志级别和后面的详细信息分开，后面的内容，你希望它保持原样。如果直接用.split(':')，那可就一地鸡毛了，password那个词里的冒号也会被无情地切开。

这时候，.split()的第二个参数就成了救命稻草：maxsplit。

'INFO:2023-10-27:User login failed: incorrect password'.split(':', maxsplit=1)

maxsplit=1的意思就是：“最多只砍一刀！砍完收工，后面的江山，完整地留给我。” 于是，你就得到了 ['INFO', '2023-10-27:User login failed: incorrect password']。这在解析特定格式的头部信息时，简直不要太好用。你只要头，不要身子，maxsplit就能帮你精准地做到。

然而，现实世界的数据，往往比这要混乱得多。它不会那么听话地只用逗号或者只用空格来分隔。你可能会遇到这样的“奇葩”字符串：'apple;banana,orange pear'。这里面，有分号，有逗号，还有空格。这时候，你手里的.split()宝剑，突然就显得有点笨拙了。它一次只能认一个目标。你怎么办？先按分号切，再对结果循环，按逗号切，再循环……打住！这代码写出来，估计你自己过两天都看不懂了。

这就是新手村的终点。当你意识到.split()的局限性时，恭喜你，是时候进入一个更广阔的世界了——正则表达式。

提到python怎么切分，如果只知道split()，那只能算刚入门。真正的神兵利器，是re模块里的re.split()。

这家伙，简直是个瑞士军刀。它切分的依据，不再是一个固定的字符，而是一个“模式”（Pattern）。面对上面那个'apple;banana,orange pear'，你可以这么干：

python import re text = 'apple;banana,orange pear' re.split(r'[;, ]+', text)

方括号[]在正则表达式里表示“或”，[;, ]的意思就是“匹配分号，或者逗号，或者空格”。后面的加号+表示“匹配一个或多个”。连起来，[;, ]+这个模式的意思就是：“无论是分号、逗号还是空格，只要它们出现，无论连续出现多少个，都把它们当成一个整体的分割点！”

一刀下去，['apple', 'banana', 'orange', 'pear']，干净利落。

这就是re.split()的威力。它让你从一个拿着斧头砍柴的樵夫，瞬间升级成了一个拿着激光手术刀的外科医生。你的切割，可以变得无比精细和智能。

re.split()还有一个特别骚气的操作，很多人都不知道。如果你的分割模式里包含了捕获组（就是用圆括号()括起来的部分），那么分割结果里，会把匹配到的分割符也一并保留下来！

举个例子，text = 'a=1,b=2;c=3'。你不仅想切分，还想知道是用什么符号切的。

re.split(r'([,;])', text)

看看结果：['a=1', ',', 'b=2', ';', 'c=3']。看到了吗？逗号和分号，作为分割符，被原封不动地保留在了列表里。这个特性在做一些复杂的文本解析和重构任务时，简直是神来之笔。

说到这里，关于python怎么切分，我们似乎一直在谈论如何“拆解”一个字符串。但别忘了，还有一种“切分”，它更像是“截取”——那就是字符串切片（Slicing）。

split和re.split是基于内容的切分，它们寻找的是“分隔符”。而切片，是纯粹基于位置的切分。它不管你字符串里写的是什么，只认索引。

比如s = 'Python'.
s[0:2] 就是从索引0开始，到索引2之前结束，得到'Py'。
s[2:] 就是从索引2开始，一直到末尾，得到'thon'。
s[::-1] 这个更绝，步长为-1，直接把整个字符串给翻转了，得到'nohtyP'。

你可能会问，切片和split有什么关系？

关系大了。它们代表了两种完全不同的思维方式。

当你处理的数据有明确的、符号化的逻辑分隔时，比如CSV、日志文件，你的第一反应应该是split或re.split。

而当你处理的数据是固定长度的，或者你需要按位置提取信息时，比如从身份证号里提取出生年月日（id_card[6:14]），或者从文件名里去掉后缀（filename[:-4]），那切片就是你的不二之选。它更像是一把标尺和刻刀，精准地在你指定的位置下手，不多一分，不少一毫。

所以，回到最初的问题：“python怎么切分？”

这根本不是一个只有一个答案的问题。它像是在问一个厨师：“你怎么切菜？”

对于规整的、成块的豆腐，用split()这把菜刀，按标记（比如逗号）“啪啪”几下就成了块。
对于那些筋膜交错、纹理复杂的生肉，你就得上re.split()这把剔骨刀，顺着复杂的纹理（正则表达式）把它完美分解。
而当你想从一整根黄瓜上切下固定厚度的一片时，你用的就是切片这个工具，它有精确的刻度，保证每一片都如你所愿。

掌握这三板斧——.split()的直接了当，re.split()的灵动精妙，以及字符串切片的精准定位——你才算真正理解了在Python的世界里，“切分”二字的全部内涵。

编程的世界，哪有什么标准答案，不过是看你手里的锤子，能不能砸对那颗钉子罢了。

声明：本站所有资料均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。若您的权利被侵害，请联系214278591@qq.com。

Python怎么切分字符串？高手教你split()和re模块的骚操作

文章展示

Python怎么写飞机？从零开始，用代码实现你的空中梦想！

Python Selenium 安装指南：轻松配置你的自动化测试环境，掌握 Python Selenium 安装

Python怎么发送HTTP请求？一看就会的实用指南！

Python编程：深度解析如何用代码生动表示各种概念与数据类型

Python列表取值精髓：list怎么取值Python的奥秘全解析

python怎么导入ipynb

Python怎么切分字符串？高手教你split()和re模块的骚操作

相关文章

文章展示