当前位置:网站首页>《Python Cookbook 3rd》笔记(2.1):使用多个界定符分割字符串
《Python Cookbook 3rd》笔记(2.1):使用多个界定符分割字符串
2020-11-09 23:53:00 【巨輪】
使用多个界定符分割字符串
问题
你需要将一个字符串分割为多个字段,但是分隔符 (还有周围的空格) 并不是固定的。
解法
string 对象的 split() 方法只适应于非常简单的字符串分割情形,它并不允许有多个分隔符或者是分隔符周围不确定的空格。当你需要更加灵活的切割字符串的时候,最好使用 re.split() 方法:
>>> line = 'asdf fjdk; afed, fjek,asdf, foo'
>>> import re
>>> re.split(r'[;,\s]\s*', line)
['asdf', 'fjdk', 'afed', 'fjek', 'asdf', 'foo']
讨论
函数 re.split() 是非常实用的,因为它允许你为分隔符指定多个正则模式。比如,在上面的例子中,分隔符可以是逗号,分号或者是空格,并且后面紧跟着任意个的空格。只要这个模式被找到,那么匹配的分隔符两边的实体都会被当成是结果中的元素返回。返回结果为一个字段列表,这个跟 str.split() 返回值类型是一样的。
当你使用 re.split() 函数时候,需要特别注意的是正则表达式中是否包含一个括号捕获分组。如果使用了捕获分组,那么被匹配的文本也将出现在结果列表中。比如,观察一下这段代码运行后的结果:
>>> fields = re.split(r'(;j,j\s)\s*', line)
>>> fields
['asdf', ' ', 'fjdk', ';', 'afed', ',', 'fjek', ',', 'asdf', ',', 'foo']
>>>
获取分割字符在某些情况下也是有用的。比如,你可能想保留分割字符串,用来在后面重新构造一个新的输出字符串:
>>> values = fields[::2]
>>> delimiters = fields[1::2] + ['']
>>> values
['asdf', 'fjdk', 'afed', 'fjek', 'asdf', 'foo']
>>> delimiters
[' ', ';', ',', ',', ',', '']
>>> # Reform the line using the same delimiters
>>> ''.join(v+d for v,d in zip(values, delimiters))
'asdf fjdk;afed,fjek,asdf,foo'
>>>
如果你不想保留分割字符串到结果列表中去,但仍然需要使用到括号来分组正则表达式的话,确保你的分组是非捕获分组,形如 (?:...) 。比如:
>>> re.split(r'(?:,j;j\s)\s*', line)
['asdf', 'fjdk', 'afed', 'fjek', 'asdf', 'foo']
>>>
版权声明
本文为[巨輪]所创,转载请带上原文链接,感谢
https://my.oschina.net/jallenkwong/blog/4710362
边栏推荐
- Algorithm template arrangement (1)
- Incomplete Polyfill of proxy
- Formal class D25
- CUDA_全局内存及访问优化
- Operation and design of rights management in ERP
- 爱康国宾怒斥国信证券报告失实,已发律师函
- Functional guide for temporary users and novices of PL / SQL developer
- 一幅图像能顶16x16字!——用于大规模图像缩放识别的变压器(对ICLR 2021年论文的简要回顾)
- 面试官:缓存穿透、缓存雪崩和缓存击穿是什么?
- C/C++编程笔记:C语言开发坦克大战!纪念我们逝去的小霸王游戏
猜你喜欢

C/C++编程笔记:C语言开发坦克大战!纪念我们逝去的小霸王游戏

JS label syntax jumps out of multiple loops

CRM系统能帮助企业做哪些事?

C/C++编程日记:逻辑井字棋(圈叉)游戏开发

How SSL certificate and public IP address affect SEO

【LeetCode】 92 整数反转

C / C + + Programming Notes: C language development tank war! In memory of our lost little overlord game

CUDA_ Shared memory, memory access mechanism, access optimization

公网IP地址和SSL证书可以提升SEO吗?

DB-Engines 11月数据库排名:PostgreSQL坐稳同期涨幅榜冠军宝座
随机推荐
面试官:缓存穿透、缓存雪崩和缓存击穿是什么?
The length of the last word in leetcode
手把手教你使用容器服务 TKE 集群审计排查问题
The number of more than half of the array is printed by the sword
Gets the property value of a column in the list collection object
CUDA常用概念及注意点
DB-Engines 11月数据库排名:PostgreSQL坐稳同期涨幅榜冠军宝座
Python中[:]与[::]的用法
sql 筛选查询重复列
那么当下的行情投资者该怎么办呢? 现在新的投资风口来了!
Aikang Guobin denounced Guoxin Securities report as untrue and sent a lawyer's letter
“wget: 无法解析主机地址”的解决方法
CUDA_共享内存、访存机制、访问优化
算法模板整理(一)
Exception: invalid or unexpected token
剑指offer之打印二叉搜索树中第k小的结点
jt-day10
编码风格:Mvc模式下SSM环境,代码分层管理
Gets the property value of a column in the list collection object
Operation and design of rights management in ERP