引言
正則表達式(Regular Expression)是一種富強的文本處理東西,在Python中經由過程re
模塊實現。正則表達式中的分組功能是處理複雜文本婚配跟提取的關鍵。本文將深刻探究Python正則表達式的分組技能,幫助妳輕鬆控制數據提取與婚配的奧秘。
分組的基本不雅點
在正則表達式中,分組可能將婚配的內容分別為差其余部分,便於單獨提取跟操縱。我們經由過程利用圓括號()
來定義一個分組。每一組婚配到的內容可能經由過程組號(從1開端)拜訪,並且可能在正則表達式外部引用,也可能在調換中利用。
示例:婚配德律風號碼並提取區號
假設我們要婚配格局為(區號)號碼
的德律風號碼,如(123) 456-7890
。可能經由過程分組將區號跟號碼分開。
import re
text = "(123) 456-7890"
pattern = r"((\d3)) (\d{3}-\d{4})"
match = re.search(pattern, text)
if match:
print("區號:", match.group(1))
print("號碼:", match.group(2))
鄙人面的例子中:
((\d3))
婚配區號,圓括號中的內容被視為第一個分組,即group(1)
。(\d{3}-\d{4})
婚配德律風號碼,視為第二個分組,即group(2)
。
輸出成果:
區號: 123
號碼: 456-7890
分組的多品種型
分組不只可能提取內容,還可能根據須要創建差別範例的分組。以下是Python正則表達式中罕見的分組範例:
捕獲組(Capturing Group)
捕獲組是最罕見的分組範例,用於捕獲婚配的子串。在分組外部,可能像壹般字符串一樣利用婚配到的內容。
非捕獲組(Non-capturing Group)
非捕獲組不保存婚配的子串,但仍然容許你利用量詞。非捕獲組經由過程在圓括號前增加?:
來實現。
命名分組(Named Group)
命名分組容許你為分組指定一個稱號,如許就可能在group()
方法中利用該稱號來獲取分組的內容。
先行斷言(Lookbehind Assert)
後勤斷言用於指定一個婚配必須呈現在另一個婚配之前,但它本身不耗費任何字符。
數據提取與婚配的利用
提取電子郵件地點
import re
text = "我的郵箱是example@example.com,另一個是test@test.com"
pattern = r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b'
matches = re.findall(pattern, text)
for match in matches:
print("找到郵箱:", match)
婚配日期格局
import re
text = "明天日期是2022-01-15"
pattern = r'(\d{4})-(\d{2})-(\d{2})'
matches = re.findall(pattern, text)
for match in matches:
print("年:", match[0], "月:", match[1], "日:", match[2])
總結
經由過程控制正則表達式的分組技能,妳可能輕鬆提取跟婚配複雜的文本數據。在Python中,利用re
模塊供給的功能,可能高效地處理各種文本處理任務。盼望本文能幫助妳更好地懂得跟利用正則表達式分組。