引言
正則表達式(Regular Expression)是處理字元串的富強東西,在Python中,經由過程re
模塊來實現。分組是正則表達式中的一個重要特點,它容許我們提取婚配字元串中的特定部分。本文將深刻探究Python正則表達式的分組技能,幫助讀者輕鬆控制數據提取與婚配的藝術。
一、分組的基本不雅點
在正則表達式中,分組可能將婚配的內容分別為差其余部分,便於單獨提取跟操縱。我們經由過程利用圓括弧()
來定義一個分組。每一組婚配到的內容可能經由過程組號(從1開端)拜訪,並且可能在正則表達式外部引用,也可能在調換中利用。
示例:婚配德律風號碼並提取區號
假設我們要婚配格局為(區號)號碼
的德律風號碼,如(123) 456-7890
。可能經由過程分組將區號跟號碼分開。
import re
text = "(123) 456-7890"
pattern = r"((\d3)) (\d{3}-\d{4})"
match = re.search(pattern, text)
if match:
print("區號:", match.group(1))
print("號碼:", match.group(2))
else:
print("未婚配到德律風號碼格局")
鄙人面的例子中:
((\d3))
婚配區號,圓括弧中的內容被視為第一個分組,即group(1)
。(\d{3}-\d{4})
婚配德律風號碼,視為第二個分組,即group(2)
。
輸出成果:
區號: 123
號碼: 456-7890
二、分組的多品種型
分組不只可能提取內容,還可能根據須要創建差別範例的分組。以下是Python正則表達式中罕見的分組範例:
1. 捕獲組(Capture Group)
捕獲組用於提取婚配的子字元串。鄙人面的例子中,我們利用的是捕獲組。
2. 非捕獲組(Non-capturing Group)
非捕獲組不會保存婚配的子字元串,平日用於優化機能。非捕獲組經由過程在圓括弧前增加一個問號?
來實現。
pattern = r"(?:\d{3})\s(\d{3}-\d{4})"
3. 命名組(Named Group)
命名組容許我們利用稱號而不是數字來引用分組。命名組經由過程在圓括弧前增加一個命名標記?P<name>
來實現。
pattern = r"(?P<area_code>\d{3})\s(?P<phone_number>\d{3}-\d{4})"
三、分組引用
在正則表達式中,我們可能在其他地位引用分組。這有助於我們在調換文本時利用婚配的子字元串。
示例:調換德律風號碼格局
text = "(123) 456-7890"
pattern = r"(\d{3})\s(\d{3}-\d{4})"
replacement = r"($1) $2"
result = re.sub(pattern, replacement, text)
print(result)
輸出成果:
(123) 456-7890
鄙人面的例子中,$1
跟$2
分辨引用了第一個跟第二個分組的內容。
四、總結
分組是Python正則表達式中一個非常有效的特點,可能幫助我們提取跟操縱婚配的子字元串。經由過程控制分組的基本不雅點、多品種型以及引用方法,我們可能輕鬆地實現數據提取與婚配任務。