</ol>
2.5.實例分析:
在接下來的實例分析中,我們主要使用grep和sed作為測試工具,測試為regular_expression.txt處理以后的文件,可以在我的資源里下載,然后更重命名a.txt,進行測試。
1)實例一:
查找所有長度為四的單詞:\b[a-p]\{4\}\b
注意其中{}之前的\
解釋:\b(單詞邊界)[a-p](字母a到p){4}(出現4次,注意要加轉義符號)
命令效果圖:

2)實例2(注意:sed并沒有改變原來文本)
將所有方法foo(a,b,c)的實例改為foo(b,a,c)。這里a、b和c可以是任何提供給方法foo()的參數。也就是說我們要實現這樣的轉換:
之前之后
foo(10,7,2)——foo(7,10,2)
foo(x+13,y-2,10)——foo(y-2,x+13,10)
foo(bar(8),x+y+z, 5) ——foo( x+y+z, bar(8), 5)
下面這條替換命令能夠實現這一魔法:
:%s/foo(\([^,]*\),\([^,]*\),\([^)]*\))/foo(\2,\1,\3)/g
這條命令在Vim中使用,效果圖:

sed命令使用效果圖(注意:不能少“”也不能多-e選項,要嚴格區分正則匹配和字符串匹配):
hyk@hyk-linux:~$sed "s/foo(\([^,]*\),\([^,]*\),\([^)]*\))/foo(\2,\1,\3)/"a.test
foo(7,10,2)
foo(y-2,x+13,10)
foo(x+y+z,bar(8), 5)
說明:只選取了相關部分
現在讓我們把它打散來加以分析。寫出這個表達式的基本思路是找出foo()和它的括號中的三個參數的位置。第一個參數是用這個表達式來識別的::\([^,]*\),我們可以從里向外來分析它:
[^,]除了逗號之外的任何字符
[^,]* 0或者多個非逗號字符
\([^,]*\)將這些非逗號字符標記為\1,這樣可以在之后的替換模式表達式中引用它
\([^,]*\),我們必須找到0或者多個非逗號字符后面跟著一個逗號,并且非逗號字符那部分要標記出來以備后用。注意()的\
現在正是指出一個使用正則表達式常見錯誤的最佳時機。為什么我們要使用[^,]*這樣的一個表達式,而不是更加簡單直接的寫法,例如:.*,來匹配第一個參數呢?設想我們使用模式.*來匹配字符串"10,7,2",它應該匹配"10,"還是"10,7,"?為了解決這個兩義性(ambiguity),正則表達式規定一律按照最長的串來,在上面的例子中就是"10,7,",顯然這樣就找出了兩個參數而不是我們期望的一個。所以,我們要使用[^,]*來強制取出第一個逗號之前的部分。
這個表達式我們已經分析到了:foo(\([^,]*\),這一段可以簡單的翻譯為“當你找到foo(就把其后直到第一個逗號之前的部分標記為\1”。然后我們使用同樣的辦法標記第二個參數為\2。對第三個參數的標記方法也是一樣,只是我們要搜索所有的字符直到右括號。我們并沒有必要去搜索第三個參數,因為我們不需要調整它的位置,但是這樣的模式能夠保證我們只去替換那些有三個參數的foo()方法調用,在foo()是一個重載(overloading)方法時這種明確的模式往往是比較保險的。然后,在替換部分,我們找到foo()的對應實例,然后利用標記好的部分進行替換,是把第一和第二個參數交換位置。
3)實例3
假設有一個CSV(commaseparatedvalue)文件,里面有一些我們需要的信息,但是格式卻有問題,目前數據的列順序是:姓名,公司名,州名縮寫,郵政編碼,現在我們希望將這些數據重新組織,以便在我們的某個軟件中使用,需要的格式為:姓名,州名縮寫-郵政編碼,公司名。也就是說,我們要調整列順序,還要合并兩個列來構成一個新列。另外,我們的軟件不能接受逗號前后有任何空格(包括空格和制表符)所以我們還必須要去掉逗號前后的所有空格。
這里有幾行我們現在的數據:
BillJones,HI-TEK Corporation , CA, 95011
SharonLeeSmith, Design Works Incorporated, CA, 95012
B.Amos, Hill Street Cafe, CA, 95013
AlexanderWeatherworth,The Crafts Store, CA, 95014
...
我們希望把它變成這個樣子:
BillJones,CA95011,HI-TEK Corporation
SharonLeeSmith,CA 95012,Design Works Incorporated
B.Amos,CA95013,Hill Street Cafe
AlexanderWeatherworth,CA95014,The Crafts Store
...
我們將用兩個正則表達式來解決這個問題。第一個移動列和合并列,第二個用來去掉空格。
下面就是第一個替換命令:
:%s/\([^,]*\),\([^,]*\),\([^,]*\),\(.*\)/\1,\3\4,\2/
結果如下
35BillJones, CA 95011, HI-TEK Corporation
36SharonLee Smith, CA 95012, Design Works Incorporated
37B.Amos , CA 95013, Hill Street Cafe
38AlexanderWeatherworth, CA 95014, The Crafts Store
這里的方法跟例1基本一樣,第一個列(姓名)用這個表達式來匹配:\([^,]*\),即第一個逗號之前的所有字符,而姓名內容被用\1標記下來。公司名和州名縮寫字段用同樣的方法標記為\2和\3,而最后一個字段用\(.*\)來匹配("匹配所有字符直到行末")。替換部分則引用上面標記的那些內容來進行構造。
下面這個替換命令則用來去除空格:
:%s/[\t]*,[\t]*/,/g
結果如下:
35BillJones,CA 95011,HI-TEK Corporation
36SharonLee Smith,CA 95012,Design Works Incorporated
37B.Amos ,CA 95013,Hill Street Cafe
38AlexanderWeatherworth,CA 95014,The Crafts Store
我們還是分解來看:[\t]匹配空格/制表符,[\t]* 匹配0或多個空格/制表符,[\t]*,匹配0或多個空格/制表符后面再加一個逗號,最后,[\t]*,[\t]*匹配0或多個空格/制表符接著一個逗號再接著0或多個空格/制表符。在替換部分,我們簡單的我們找到的所有東西替換成一個逗號。這里我們使用了結尾的可選的g參數,這表示在每行中對所有匹配的串執行替換(而不是缺省的只替換第一個匹配串)。
3)實例4
假設有一個多字符的片斷重復出現,例如:
Billytriedreally hard
Sallytriedreally really hard
Timmytriedreally really really hard
Johnnytriedreally really really really hard
而你想把"really"、"reallyreally",以及任意數量連續出現的"really"字符串換成一個簡單的"very"(simpleisgood!),那么以下命令:(注意空格)
:%s/\(really\)\(really \)*/very /
就會把上述的文本變成:
Billytriedvery hard
Sallytriedvery hard
Timmytriedvery hard
Johnnytriedvery hard
表達式\(really\)*匹配0或多個連續的"really"(注意結尾有個空格),而\(really\)\(really\)* 匹配1個或多個連續的"really"實例。
結果如下
40Billytried very hard
41Sallytried very hard
42Timmytried very hard
43Johnnytried very hard
外部參考:
[1]Unix之父將此符號系統引入編輯器QED,然后是Unix上的編輯器ed,并最終引入grep。JeffreyFriedl在其著作“MasteringRegular Expressions (2ndedition)/中文版譯作:精通正則表達式,目前已出到第三版”中對此作了進一步闡述講解,如果你希望更多了解正則表達式理論和歷史,推薦你看看這本書。
[2]百度百科:http://baike.baidu.com/view/94238.htm
來自:http://blog.csdn.net/trochiluses/article/details/8827932
本文由用戶
jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!