Python正則表達式之二：捕獲

lcol0533 8年前發布 | 13K 次閱讀正則表達式 Python Python開發

捕獲和分組在正則表達式中有著密切的聯系，一般情況下，分組即捕獲，都用小括號完成（因此，小括號在正則表達式中也屬于特殊字符，表達原含義時需要轉義）：

(…) 正常分組，并捕獲

(?:…) 分組，但是不捕獲

舉個例子，假設我們需要匹配一個座機號碼：

>>> m = re.search(r'^(\d{3,4}-)?(\d{7,8})$','020-82228888')
>>> m.group(0)
'020-82228888'
>>> m.group(1)
'020-'
>>> m.group(2)
'82228888'

這里，默認分組(0)是完整的匹配，之后的分組則按出現順序排列。

接下來，我們想在一整段文本中，找出所有的座機號碼，這里需要用到re.findall:

>>> re.findall(r'(\d{3,4}-)?(\d{7,8})','020-82228888\n0357-4227865') 
[('020-', '82228888'), ('0357-', '4227865')]

findall有一個特性，就是如果結果中有捕獲的分組，則將捕獲的分組組成tuple返回。利用這個特點，和上面提到的 分組，但是不捕獲 的語法，可以得到我們想要的結果：

>>> re.findall(r'(?:\d{3,4}-)?\d{7,8}','020-82228888\n0357-4227865')  
['020-82228888', '0357-4227865']
>>> re.findall(r'(?:\d{3,4}-)?\d{7,8}','020-82228888\n4227865')     
['020-82228888', '4227865']

在正則表達式中，也可以通過\1,\2等來指代之前捕獲的字符串組合。這個經常用于單雙引號的正確匹配：

>>> sentence = """You said "why?" and I say "I don't know"."""
>>> re.findall(r'["\'](.*?)["\']', sentence)
['why?', 'I don']
>>> re.findall(r'(["\'])(.*?)\1', sentence)
[('"', 'why?'), ('"', "I don't know")]

此外，如果覺得\1,\2這種表示可讀性不好的話，還可以給捕獲起一個英文名字。如下例子中，實現了兩種不同的日期格式之間的轉換：

>>> sentence = "from 12/22/1629 to 11/14/1643"
>>> re.sub(r'(?P<month>\d{2})/(?P<day>\d{2})/(?P<year>\d{4})', r'\g<year>-\g<month>-\g<day>', sentence)    
'from 1629-12-22 to 1643-11-14'

但是，這種命名引用捕獲的方式，在findall、search中卻是無效的：

>>> sentence = """You said "why?" and I say "I don't know"."""
>>> re.findall(r'(?P<quote>["\'])(.*?)\g<quote>', sentence)     
[]
>>> re.search(r'(?P<quote>["\'])(.*?)\g<quote>', sentence)         
>>> re.search(r'(?P<quote>["\'])(.*?)\1', sentence)        
<_sre.SRE_Match object; span=(9, 15), match='"why?"'>
>>> re.search(r'(?P<quote>["\'])(.*?)\1', sentence).groupdict()
{'quote': '"'}

Python正則表達式中關于分組捕獲的內容至此就總結完畢了。下一篇文章，我會繼續總結一下正則表達式匹配時的貪婪/非貪婪特性。

來自：http://blog.guoyb.com/2017/02/27/python-regex-2/

本文由用戶 lcol0533 自行上傳分享，僅供網友學習交流。所有權歸原作者，若您的權利被侵害，請聯系管理員。

轉載本站原創文章，請注明出處，并保留原始鏈接、圖片水印。

本站是一個以用戶分享為主的開源技術平臺，歡迎各類分享！

本文地址：http://www.baiduhome.net/lib/view/open1488337633852.html

正則表達式 Python Python開發

Python正則表達式之二：捕獲

相關經驗

相關資訊

相關文檔

目錄