你并不熟悉的 Python 正則高級用法
學習正則的第一個教程應該去看<正則表達式30分鐘入門教程>(http://deerchao.net/tutorials/regex/regex.htm), 學會里面的內容就足夠滿足大部分的工作需要了。而對于Python來說,就要學習模塊re的使用方法。文本將展示一些大家都應該掌握的高級技巧。
編譯正則對象
re.compile函數根據一個模式字符串和可選的標志參數生成一個正則表達式對象。該對象擁有一系列方法用于正則表達式匹配和替換。用法上略有區別,舉個例子, 匹配一個字符串可用如下方式:
如果使用compile,將變成:
為什么要這么用呢?其實就是為了提高正則匹配的速度,重復利用正則表達式對象。我們對比一下2種方式的效率:
可以看到第二種方式要快很多。在實際的工作中你會發現越多的使用編譯好的正則表達式對象,效果就越好。
分組(group)
你可能已經見過對匹配的內容進行分組的用法了:
通過對要匹配的對象添加括號,就可以精確的對應符合的結果了。我們還可以進行嵌套的分組:
分組可以滿足需求,但是有時候可讀性很差,那可以對分組進行命名:
現在可讀性就非常高了。
字符串匹配
學過sed的同學可能見過如下替換用法:
這個\1表示前面正則匹配到的結果。上面的sed也就是給匹配到的結果加上中括號。
在re模塊中也存在這樣的用法:
用命名分組也是可以的:
附近匹配(Look around)
re模塊也支持附近匹配,看看例子就懂了:
正則匹配的時候使用函數
之前我們看到的大部分內容都是匹配的是一個表達式,但是有時候需求要復雜得多,尤其是在替換的時候。
舉個例子,通過Slack的API能獲取聊天記錄,比如下面這句:
其中<@U1EAT8MG9>和<@U0K1MF23Z>是2個真實的用戶,但是被Slack封裝了,需要通過其他接口獲取這個對應關系,
其結果類似這樣:
在解析對應關系之后,還希望吧尖括號也去掉,替換后的結果是「@xiaoming, @laolin 嗯 確實是這樣的 」
用正則怎么實現呢?
所以pattern當然也可以是一個函數
來自:http://mp.weixin.qq.com/s/6eA4L-l8Wy-pL93lg5uhVg