正則表達式里字符串”不包含”匹配技巧

jopen 11年前發布 | 53K 次閱讀正則表達式

　　英文原文：Regular expression to match string not containing a word?

　　經常我們會遇到想找出不包含某個字符串的文本，程序員最容易想到的是在正則表達式里使用，^(hede)來過濾”hede”字串，但這種寫法是錯誤的。我們可以這樣寫：[^hede]，但這樣的正則表達式完全是另外一個意思，它的意思是字符串里不能包含‘h’，‘e’，‘d’三個但字符。那什么樣的正則表達式能過濾出不包含完整“hello”字串的信息呢？

　　事實上，說正則表達式里不支持逆向匹配并不是百分之百的正確。就像這個問題，我們就可以使用否定式查找來模擬出逆向匹配，從而解決我們的問題：

^((?!hede).)*$
</blockquote>

　　上面這個表達式就能過濾出不包含‘hede’字串的信息。我上面也說了，這種寫法并不是正則表達式“擅長”的用法，但它是可以這樣用的。

　　解釋

　　一個字符串是由n個字符組成的。在每個字符之前和之后，都有一個空字符。這樣，一個由n個字符組成的字符串就有n+1 個空字符串。我們來看一下“ABhedeCD”這個字符串：

+--+---+--+---+--+---+--+---+--+---+--+---+--+---+--+---+--+S = e1 A e2 B e3 h e4 e e5 d e6 e e7 C e8 D e9 +--+---+--+---+--+---+--+---+--+---+--+---+--+---+--+---+--+index 0 1 2 3 4 5 6 7

　　所有的e編號的位置都是空字符。表達式(?!hede).會往前查找，看看前面是不是沒有“hede”字串，如果沒有(是其它字符)，那么.(點號)就會匹配這些其它字符。這種正則表達式的“查找”也叫做“zero-width-assertions”(零寬度斷言)，因為它不會捕獲任何的字符，只是判斷。

　　在上面的例子里，每個空字符都會檢查其前面的字符串是否不是‘hede’，如果不是，這.(點號)就是匹配捕捉這個字符。表達式(?!hede).只執行一次，所以，我們將這個表達式用括號包裹成組(group)，然后用*(星號)修飾——匹配 0 次或多次：((?!hede).)*。

　　你可以理解，正則表達式((?!hede).)*匹配字符串"ABhedeCD"的結果 false，因為在e3位置，(?!hede)匹配不合格，它之前有"hede"字符串，也就是包含了指定的字符串。

　　在正則表達式里， ?! 是否定式向前查找，它幫我們解決了字符串“不包含”匹配的問題。

來自: 外刊IT評論

本文由用戶 jopen 自行上傳分享，僅供網友學習交流。所有權歸原作者，若您的權利被侵害，請聯系管理員。

轉載本站原創文章，請注明出處，并保留原始鏈接、圖片水印。

本站是一個以用戶分享為主的開源技術平臺，歡迎各類分享！

本文地址：http://www.baiduhome.net/news/view/18d3a1d

正則表達式

正則表達式里字符串”不包含”匹配技巧

相關資訊

相關經驗

相關文檔