破解謎一樣的正則表達式,從這9招開始

LioMWJ 9年前發布 | 10K 次閱讀正則表達式 Python 正則

都說正則表達式有點像密碼，有的同學看到就頭疼，感覺迷一樣的。

那是因為你們沒有掌握一些基本的要領,今天我們會講9種常見的正則表達式的招式, (有同學會問這么多招,哪能記得住)

想要練成御劍飛行，基本功必須要扎實.這些都是最最基本的，哪怕死記硬背也要背住 (其實2-3遍就能記住，真的不難)

插一句：

有一點要注意Python的字符串本身也用'\'轉義，所以要特別注意,一般我們都建議使用Python的r前綴，就不用考慮轉義的問題了

1.行的起始

先說一個簡單的例子：匹配以cat開頭的

patt=re.compile(r'^cat')

表示匹配以c作為一行的第一個字符，后面跟著a,后面跟著t

所以'vocative'就不會被匹配到，原因是因為cat在字符的里面

2.行的結尾

如何我們要是以某一個字符串結尾的 ,比如我們要查郵件是以

BR或者Bestregards結尾的,如何匹配：我們用美元符號$來處理

import re

sentence='''Hi Jack:\n

Python is a beautiful language\n

BR'''

patt=re.compile(r'(BR|Bestregards)$')

m=re.search(patt,sentence)

if m :

print'match'

else:

print'not match'

match

$表示匹配的位置是從行的結束的，也就是錨定在行的末尾，然后從行的末尾往前匹配BR或者是Bestregards,所以若你改成下面兩種都匹配不到

sentence='''Hi Jack:\n

Python is a beautiful language\n

BRs'''

sentence='''Hi Jack:\n

Python is a beautiful language\n

Bestregard'''

解釋一下:

第一種情況，是把 BR 改成了 BRs ,所以匹配不到

第二種情況，是把Bestregards改成了Bestregard,所以也匹配不到

3.單詞的邊界

前面介紹了匹配行的開頭和結尾，那么如何匹配單詞的邊界呢 ,簡單正則里面有2個特殊字符\b and \B來匹配單詞的邊界 :

\b 匹配的模式是一個單詞的邊界(不論這個單詞的前面是有字符還是沒有字符)

\B 匹配出現在一個單詞中間的模式

例如:

the #匹配包含有'the'的字符串

\bthe #匹配任何以'the'開始的字符串

\bthe\b #僅僅匹配單詞'the'

\Bthe #匹配任意包含'the'但不以'the'開頭的單詞

4.字符組

比如我們需要匹配'grey'或者'gray'的時候 ，怎么辦,可以用正則的[]來表示,gr[ea]y,表示先找到g,然后找到r,然后找到e或者a,最后是一個y

import re

word='grey'

patt=re.compile(r'gr[ea]y')

m=re.match(patt,word)

if m :

print'match'

else:

print'not match'

match

若把word改成'gray'也是匹配的

切記：字符組里面是匹配一個字符比如H[12345],表示H后面可以跟1或2或3或4或5，而不是12345,千萬不要弄錯了

5.多選結構

6.可選項元素

比如6月4號，這個6月可能寫成'June'也可以寫成'Jun',而且日期也有可能寫作 'fourth'或者'4th'或者4 ,我們可以寫成 (June|Jun)(fourth|4th|4) ,但是有沒有其他辦法呢,可以用問號?表示可選項

我們分步來處理:

第一部分:(June|Jun)改為(June?),什么意思呢

意思是說'?'出現在一個e后面，表示e是可選的

第二部分:(fourth|4th|4)改為(fourth|4(th)?),什么意思呢

意思是說'?'出現在一個括號后面,表示這個括號內的內容是可選的

最后這個復雜的(June|Jun)(fourth|4th|4)就可以變成了June?(fourth|4(th)?)，大家看懂了嗎~ ~ 有點暈是把，沒事吐吐就習慣了

7.重復出現

重復出現用+和*表示,但是二者有一些小的區別

+加號表示:前面緊鄰的元素出現一次或者多次，也就是至少出現一次

*星號表示:前面緊鄰的元素出現任意多次，或者不出現.

其實說白了*比+多一種不出現的情況，匹配盡可能多的次數，如果實在匹配不到也不要緊,+也是匹配多次,但連一次匹配都無法完成，就報告失敗

例如:

a* #匹配 a,aa,aaa,...還有''

a+ #匹配 a,aa,aaa,...

解釋一下:

a*表示0個或者多個a,所以為0的時候，就是空字符

a+表示1個或者多個a,所以a至少要有1次

8.匹配重復的次數

1).比如我們想匹配前面的內容重復出現的次數 ，比如3次,或者是一個區間,比如1-3次,如何匹配:

import re

num_str='123aa45'

patt=re.compile(r'([1-9]{3})')

m=re.match(patt,num_str)

if m:

print m.group()

123

表示出現1-9之間的任意一個數字，并且這個數字只能重復出現3次

2).為重復匹配次數設定一個區間

比如美國股票的代碼，都是字符有大寫的也有小寫，基本都是在1到5個字母，如何用正則表達呢

簡單[a-zA-Z]{1,5},就可以來匹配美國股票代碼(1到5個字母)

9.排除型字符組

比如我們想匹配除了1到6以外的任何字符串,怎么辦，簡單用[^1-6],這個字符組中開頭的^表示"排除的意思" .(有同學會舉手說，你剛才不是說^表示開頭嗎，怎么現在變成排除型了).

這位同學會搶答了，下面就是我要解釋的,正則的復雜性:

當^在字符組的外面的時候 "表示一個行的開頭"

當^在字符組的內部(而且是必須緊接著字符組的第一個方括號之后)， 它就是一個元字符，表示排除型

比如：找出字母g后面的字母不是u

import re

words=['gold','Google','Sogu','Guess']

patt=re.compile(r'.*g[^u]')

for w in words:

m=re.match(patt,w)

if m:

print w

gold

Google

細心的同學會發現，我們的目的是要"找出字母g后面的字母不是u", 為啥'Guess'不在輸出結果里面,不是排除型嗎，我先不說答案，大家先思考一下，有興趣的同學可以留言，我會解答.

好了 Py thon中的正則表達式元字符 就講到這里啦,希望能給初學者一些啟發,若有什么不懂的， 也可以留言跟我探討交流.

來自：http://www.jianshu.com/p/9d16a82cc004

本文由用戶 LioMWJ 自行上傳分享，僅供網友學習交流。所有權歸原作者，若您的權利被侵害，請聯系管理員。

轉載本站原創文章，請注明出處，并保留原始鏈接、圖片水印。

本站是一個以用戶分享為主的開源技術平臺，歡迎各類分享！

本文地址：http://www.baiduhome.net/lib/view/open1484029383827.html

正則表達式 Python 正則

破解謎一樣的正則表達式,從這9招開始

相關經驗

相關資訊

相關文檔

目錄