仙人掌工作室

01-7-31 下午 04:13:03

如果你曾經用過Perl或任何其他內建正則表達式支持的語言，你一定知道用正則表達式處理文本和匹配模式是多么簡單。如果你不熟悉這個術語，那么“正則表達式”（Regular Expression）就是一個字符構成的串，它定義了一個用來搜索匹配字符串的模式。

許多語言，包括Perl、PHP、Python、JavaScript和JScript，都支持用正則表達式處理文本，一些文本編輯器用正則表達式實現高級“搜索-替換”功能。那么Java又怎樣呢？本文寫作時，一個包含了用正則表達式進行文本處理的Java規范需求（Specification Request）已經得到認可，你可以期待在JDK的下一版本中看到它。

然而，如果現在就需要使用正則表達式，又該怎么辦呢？你可以從Apache.org下載源代碼開放的Jakarta-ORO庫。本文接下來的內容先簡要地介紹正則表達式的入門知識，然后以Jakarta-ORO API為例介紹如何使用正則表達式。

一、正則表達式基礎知識

我們先從簡單的開始。假設你要搜索一個包含字符“cat”的字符串，搜索用的正則表達式就是“cat”。如果搜索對大小寫不敏感，單詞“catalog”、“Catherine”、“sophisticated”都可以匹配。也就是說：

1.1 句點符號

假設你在玩英文拼字游戲，想要找出三個字母的單詞，而且這些單詞必須以“t”字母開頭，以“n”字母結束。另外，假設有一本英文字典，你可以用正則表達式搜索它的全部內容。要構造出這個正則表達式，你可以使用一個通配符——句點符號“.”。這樣，完整的表達式就是“t.n”，它匹配“tan”、“ten”、“tin”和“ton”，還匹配“t#n”、“tpn”甚至“t n”，還有其他許多無意義的組合。這是因為句點符號匹配所有字符，包括空格、Tab字符甚至換行符：

1.2 方括號符號

為了解決句點符號匹配范圍過于廣泛這一問題，你可以在方括號（“[]”）里面指定看來有意義的字符。此時，只有方括號里面指定的字符才參與匹配。也就是說，正則表達式“t[aeio]n”只匹配“tan”、“Ten”、“tin”和“ton”。但“Toon”不匹配，因為在方括號之內你只能匹配單個字符：

1.3 “或”符號

如果除了上面匹配的所有單詞之外，你還想要匹配“toon”，那么，你可以使用“|”操作符。“|”操作符的基本意義就是“或”運算。要匹配“toon”，使用“t(a|e|i|o|oo)n”正則表達式。這里不能使用方擴號，因為方括號只允許匹配單個字符；這里必須使用圓括號“()”。圓括號還可以用來分組，具體請參見后面介紹。

1.4 表示匹配次數的符號

表一顯示了表示匹配次數的符號，這些符號用來確定緊靠該符號左邊的符號出現的次數：

假設我們要在文本文件中搜索美國的社會安全號碼。這個號碼的格式是999-99-9999。用來匹配它的正則表達式如圖一所示。在正則表達式中，連字符（“-”）有著特殊的意義，它表示一個范圍，比如從0到9。因此，匹配社會安全號碼中的連字符號時，它的前面要加上一個轉義字符“\”。

圖一：匹配所有123-12-1234形式的社會安全號碼

假設進行搜索的時候，你希望連字符號可以出現，也可以不出現——即，999-99-9999和999999999都屬于正確的格式。這時，你可以在連字符號后面加上“？”數量限定符號，如圖二所示：

圖二：匹配所有123-12-1234和123121234形式的社會安全號碼

下面我們再來看另外一個例子。美國汽車牌照的一種格式是四個數字加上二個字母。它的正則表達式前面是數字部分“[0-9]{4}”，再加上字母部分“[A-Z]{2}”。圖三顯示了完整的正則表達式。

圖三：匹配典型的美國汽車牌照號碼，如8836KV

1.5 “否”符號

“^”符號稱為“否”符號。如果用在方括號內，“^”表示不想要匹配的字符。例如，圖四的正則表達式匹配所有單詞，但以“X”字母開頭的單詞除外。

圖四：匹配所有單詞，但“X”開頭的除外

1.6 圓括號和空白符號

假設要從格式為“June 26, 1951”的生日日期中提取出月份部分，用來匹配該日期的正則表達式可以如圖五所示：

圖五：匹配所有Moth DD,YYYY格式的日期

新出現的“\s”符號是空白符號，匹配所有的空白字符，包括Tab字符。如果字符串正確匹配，接下來如何提取出月份部分呢？只需在月份周圍加上一個圓括號創建一個組，然后用ORO API（本文后面詳細討論）提取出它的值。修改后的正則表達式如圖六所示：

圖六：匹配所有Month DD,YYYY格式的日期，定義月份值為第一個組

1.7 其它符號

為簡便起見，你可以使用一些為常見正則表達式創建的快捷符號。如表二所示：

表二：常用符號

例如，在前面社會安全號碼的例子中，所有出現“[0-9]”的地方我們都可以使用“\d”。修改后的正則表達式如圖七所示：

圖七：匹配所有123-12-1234格式的社會安全號碼

二、Jakarta-ORO庫

有許多源代碼開放的正則表達式庫可供Java程序員使用，而且它們中的許多支持Perl 5兼容的正則表達式語法。我在這里選用的是Jakarta-ORO正則表達式庫，它是最全面的正則表達式API之一，而且它與Perl 5正則表達式完全兼容。另外，它也是優化得最好的API之一。

Jakarta-ORO庫以前叫做OROMatcher，Daniel Savarese大方地把它贈送給了Jakarta Project。你可以按照本文最后參考資源的說明下載它。

我首先將簡要介紹使用Jakarta-ORO庫時你必須創建和訪問的對象，然后介紹如何使用Jakarta-ORO API。

▲ PatternCompiler對象

首先，創建一個Perl5Compiler類的實例，并把它賦值給PatternCompiler接口對象。Perl5Compiler是PatternCompiler接口的一個實現，允許你把正則表達式編譯成用來匹配的Pattern對象。

▲ Pattern對象

要把正則表達式編譯成Pattern對象，調用compiler對象的compile()方法，并在調用參數中指定正則表達式。例如，你可以按照下面這種方式編譯正則表達式“t[aeio]n”：

默認情況下，編譯器創建一個大小寫敏感的模式（pattern）。因此，上面代碼編譯得到的模式只匹配“tin”、“tan”、 “ten”和“ton”，但不匹配“Tin”和“taN”。要創建一個大小寫不敏感的模式，你應該在調用編譯器的時候指定一個額外的參數：

創建好Pattern對象之后，你就可以通過PatternMatcher類用該Pattern對象進行模式匹配。

▲ PatternMatcher對象

PatternMatcher對象根據Pattern對象和字符串進行匹配檢查。你要實例化一個Perl5Matcher類并把結果賦值給PatternMatcher接口。Perl5Matcher類是PatternMatcher接口的一個實現，它根據Perl 5正則表達式語法進行模式匹配：

使用PatternMatcher對象，你可以用多個方法進行匹配操作，這些方法的第一個參數都是需要根據正則表達式進行匹配的字符串：

· boolean matches(String input, Pattern pattern)：當輸入字符串和正則表達式要精確匹配時使用。換句話說，正則表達式必須完整地描述輸入字符串。

· boolean matchesPrefix(String input, Pattern pattern)：當正則表達式匹配輸入字符串起始部分時使用。

· boolean contains(String input, Pattern pattern)：當正則表達式要匹配輸入字符串的一部分時使用（即，它必須是一個子串）。

另外，在上面三個方法調用中，你還可以用PatternMatcherInput對象作為參數替代String對象；這時，你可以從字符串中最后一次匹配的位置開始繼續進行匹配。當字符串可能有多個子串匹配給定的正則表達式時，用PatternMatcherInput對象作為參數就很有用了。用PatternMatcherInput對象作為參數替代String時，上述三個方法的語法如下：

· boolean matches(PatternMatcherInput input, Pattern pattern)

· boolean matchesPrefix(PatternMatcherInput input, Pattern pattern)

· boolean contains(PatternMatcherInput input, Pattern pattern)

三、應用實例

下面我們來看看Jakarta-ORO庫的一些應用實例。

3.1 日志文件處理

任務：分析一個Web服務器日志文件，確定每一個用戶花在網站上的時間。在典型的BEA WebLogic日志文件中，日志記錄的格式如下：

分析這個日志記錄，可以發現，要從這個日志文件提取的內容有兩項：IP地址和頁面訪問時間。你可以用分組符號（圓括號）從日志記錄提取出IP地址和時間標記。

首先我們來看看IP地址。IP地址有4個字節構成，每一個字節的值在0到255之間，各個字節通過一個句點分隔。因此，IP地址中的每一個字節有至少一個、最多三個數字。圖八顯示了為IP地址編寫的正則表達式：

圖八：匹配IP地址

IP地址中的句點字符必須進行轉義處理（前面加上“\”），因為IP地址中的句點具有它本來的含義，而不是采用正則表達式語法中的特殊含義。句點在正則表達式中的特殊含義本文前面已經介紹。

日志記錄的時間部分由一對方括號包圍。你可以按照如下思路提取出方括號里面的所有內容：首先搜索起始方括號字符（“[”），提取出所有不超過結束方括號字符（“]”）的內容，向前尋找直至找到結束方括號字符。圖九顯示了這部分的正則表達式。

圖九：匹配至少一個字符，直至找到“]”

現在，把上述兩個正則表達式加上分組符號（圓括號）后合并成單個表達式，這樣就可以從日志記錄提取出IP地址和時間。注意，為了匹配“- -”（但不提取它），正則表達式中間加入了“\s-\s-\s”。完整的正則表達式如圖十所示。

圖十：匹配IP地址和時間標記

現在正則表達式已經編寫完畢，接下來可以編寫使用正則表達式庫的Java代碼了。

為使用Jakarta-ORO庫，首先創建正則表達式字符串和待分析的日志記錄字符串：

這里使用的正則表達式與圖十的正則表達式差不多完全相同，但有一點例外：在Java中，你必須對每一個向前的斜杠（“\”）進行轉義處理。圖十不是Java的表示形式，所以我們要在每個“\”前面加上一個“\”以免出現編譯錯誤。遺憾的是，轉義處理過程很容易出現錯誤，所以應該小心謹慎。你可以首先輸入未經轉義處理的正則表達式，然后從左到右依次把每一個“\”替換成“\\”。如果要復檢，你可以試著把它輸出到屏幕上。

初始化字符串之后，實例化PatternCompiler對象，用PatternCompiler編譯正則表達式創建一個Pattern對象：

現在，創建PatternMatcher對象，調用PatternMatcher接口的contain()方法檢查匹配情況：

接下來，利用PatternMatcher接口返回的MatchResult對象，輸出匹配的組。由于logEntry字符串包含匹配的內容，你可以看到類如下面的輸出：

3.2 HTML處理實例一

下面一個任務是分析HTML頁面內FONT標記的所有屬性。HTML頁面內典型的FONT標記如下所示：

程序將按照如下形式，輸出每一個FONT標記的屬性：

在這種情況下，我建議你使用兩個正則表達式。第一個如圖十一所示，它從字體標記提取出“"face="Arial, Serif" size="+2" color="red"”。

圖十一：匹配FONT標記的所有屬性

第二個正則表達式如圖十二所示，它把各個屬性分割成名字-值對。

圖十二：匹配單個屬性，并把它分割成名字-值對

分割結果為：

現在我們來看看完成這個任務的Java代碼。首先創建兩個正則表達式字符串，用Perl5Compiler把它們編譯成Pattern對象。編譯正則表達式的時候，指定Perl5Compiler.CASE_INSENSITIVE_MASK選項，使得匹配操作不區分大小寫。

接下來，創建一個執行匹配操作的Perl5Matcher對象。

假設有一個String類型的變量html，它代表了HTML文件中的一行內容。如果html字符串包含FONT標記，匹配器將返回true。此時，你可以用匹配器對象返回的MatchResult對象獲得第一個組，它包含了FONT的所有屬性：

接下來創建一個PatternMatcherInput對象。這個對象允許你從最后一次匹配的位置開始繼續進行匹配操作，因此，它很適合于提取FONT標記內屬性的名字-值對。創建PatternMatcherInput對象，以參數形式傳入待匹配的字符串。然后，用匹配器實例提取出每一個FONT的屬性。這通過指定PatternMatcherInput對象（而不是字符串對象）為參數，反復地調用PatternMatcher對象的contains()方法完成。PatternMatcherInput對象之中的每一次迭代將把它內部的指針向前移動，下一次檢測將從前一次匹配位置的后面開始。

本例的輸出結果如下：

3.3 HTML處理實例二

下面我們來看看另一個處理HTML的例子。這一次，我們假定Web服務器從widgets.acme.com移到了newserver.acme.com。現在你要修改一些頁面中的鏈接：

執行這個搜索的正則表達式如圖十三所示：

圖十三：匹配修改前的鏈接

如果能夠匹配這個正則表達式，你可以用下面的內容替換圖十三的鏈接：

注意#字符的后面加上了$1。Perl正則表達式語法用$1、$2等表示已經匹配且提取出來的組。圖十三的表達式把所有作為一個組匹配和提取出來的內容附加到鏈接的后面。

現在，返回Java。就象前面我們所做的那樣，你必須創建測試字符串，創建把正則表達式編譯到Pattern對象所必需的對象，以及創建一個PatternMatcher對象：

接下來，用com.oroinc.text.regex包Util類的substitute()靜態方法進行替換，輸出結果字符串：

Util.substitute()方法的語法如下：

這個調用的前兩個參數是以前創建的PatternMatcher和Pattern對象。第三個參數是一個Substiution對象，它決定了替換操作如何進行。本例使用的是Perl5Substitution對象，它能夠進行Perl5風格的替換。第四個參數是想要進行替換操作的字符串，最后一個參數允許指定是否替換模式的所有匹配子串（Util.SUBSTITUTE_ALL），或只替換指定的次數。

【結束語】在這篇文章中，我為你介紹了正則表達式的強大功能。只要正確運用，正則表達式能夠在字符串提取和文本修改中起到很大的作用。另外，我還介紹了如何在Java程序中通過Jakarta-ORO庫利用正則表達式。至于最終采用老式的字符串處理方式（使用StringTokenizer，charAt，和substring），還是采用正則表達式，這就有待你自己決定了。

//********************************************************************************************

歡迎來到 MSDN > Web/服務

ASP.NET 中的正則表達式

發布日期： 8/17/2004 | 更新日期： 8/17/2004

速成課程

Steven A. Smith

適用范圍：
Microsoft? .NET Framework
Microsoft? ASP.NET
正則表達式 API

摘要：正則表達式是一種處理文本的有用工具。無論是驗證用戶輸入、搜索字符串內的模式、還是以各種有效方式重新設置文本格式，正則表達式都非常有用。

下載本文的源代碼。

本頁內容

	引言
	正則表達式使用歷史簡介
	簡單表達式
	限定符
	元字符
	字符類
	預定義的集合元字符
	表達式示例
	ASP.NET 中的驗證
	正則表達式 API
	免費工具
	高級主題
	結論
	資源
	作者簡介

引言

Microsoft?.NET Framework 對正則表達式的支持是一流的，甚至在 Microsoft? ASP.NET 中也有依賴正則表達式語言的控件。本文介紹了深入學習正則表達式的基礎知識和推薦內容。

本文主要面向對正則表達式知之甚少或沒有使用經驗，但卻熟悉 ASP.NET、可借助 .NET 編程的初學者。此外，希望本文連同 regular expression cheat sheet 成為有正則表達式使用經驗的開發者的手頭參考資料或進修資料。本文討論內容如下：

1.	正則表達式使用歷史簡介
2.	簡單表達式
3.	限定符
4.	元字符
5.	字符類
6.	預定義的集合元字符
7.	表達式示例詳細內容
8.	ASP.NET 中的驗證
9.	正則表達式 API
10.	免費工具
11.	高級主題概述
12.	小結和其他資源

通常，如果對本文或對正則表達式有疑問，請訪問 http://www.aspadvice.com/，通過 regex mailing list 提出問題。編寫此文時其中已有 350 多個訂戶參與。

模式	輸入（匹配）
foo	foo、food、foot、“There's evil afoot.”

1.	*，描述“出現 0 或多次”。
2.	+，描述“出現 1 或多次”。
3.	?，描述“出現 0 或 1 次”。

模式	輸入（匹配）
fo*	foo、foe、food、fooot、“forget it”、funny、 puffy
fo+	foo、foe、food、foot、“forget it”
fo?	foo、foe、food、foot、“forget it”、funny、puffy

模式	輸入（匹配）
ab{2}c	abbc、aaabbccc
ab{,2}c	ac、abc、abbc、aabbcc
ab{2,3}c	abbc、abbbc、aabbcc、aabbbcc

模式	輸入（匹配）
.	a、b、c、1、2、3
.*	Abc, 123, 任意字符串, 無字符時也匹配
^c:\\	c:\windows、c:\\\\\、c:\foo.txt、c:\ 后跟任何其他內容
abc$	abc、123abc、以 abc 結束的任意字符串
(abc){2,3}	abcabc、abcabcabc

模式	輸入（匹配）
^b[aeiou]t$	Bat、bet、bit、bot、but
^[0-9]{5}$	11111, 12345, 99999
^c:\\	c:\windows、c:\\\\\、c:\foo.txt、c:\ 后跟任何其他內容
abc$	abc、123abc、以 abc 結束的任意字符串
(abc){2,3}	abcabc、abcabcabc
^[^-][0-9]$	0、1、2、... （不匹配 -0、-1、 -2 等）

元字符	等效字符類
\a	匹配鈴聲（警報）；\u0007
\b	匹配字符類外的字邊界，它匹配退格字符，\u0008
\t	匹配制表符，\u0009
\r	匹配回車符，\u000D
\w	匹配垂直制表符，\u000B
\f	匹配換頁符，\u000C
\n	匹配新行，\u000A
\e	匹配轉義符，\u001B
\040	匹配 3 位 8 進制 ASCII 字符。\040 表示空格（十進制數 32）。
\x20	使用 2 位 16 進制數匹配 ASCII 字符。此例中，\x2- 表示空格。
\cC	匹配 ASCII 控制字符，此例中是 ctrl-C。
\u0020	使用 4 位 16 進制數匹配 Unicode 字符。此例中 \u0020 是空格。
\*	不代表預定義字符類的任意字符都只作為該字符本身對待。因此，\* 等同于 \x2A（是文字，不是元字符）。
\p{name}	匹配已命名字符類“name”中的任意字符。支持名稱是 Unicode 組和塊范圍。例如，Ll、Nd、Z、IsGreek、IsBoxDrawing 和 Sc（貨幣）。
\p{name}	匹配已命名字符類“name”中不包括的文本。
\w	匹配任意單詞字符。對于非 Unicode 和 ECMAScript 實現，這等同于 [a-zA-Z_0-9]。在 Unicode 類別中，這等同于 [\p{Ll}\p{Lu}\p{Lt}\p{Lo}\p{Nd}\p{Pc}]。
\W	\w 的否定，等效于 ECMAScript 兼容集合 [^a-zA-Z_0-9] 或 Unicode 字符類別 [^\p{Ll}\p{Lu}\p{Lt}\p{Lo}\p{Nd}\p{Pc}]。
\s	匹配任意空白區域字符。等效于 Unicode 字符類 [\f\n\r\t\v\x85\p{Z}]。如果使用 ECMAScript 選項指定 ECMAScript 兼容方式，\s 等效于 [ \f\n\r\t\v] （請注意前導空格）。
\S	匹配任意非空白區域字符。等效于 Unicode 字符類別 [^\f\n\r\t\v\x85\p{Z}]。如果使用 ECMAScript 選項指定 ECMAScript 兼容方式，\S 等效于 [^ \f\n\r\t\v] （請注意 ^ 后的空格）。
\d	匹配任意十進制數字。在 ECMAScript 方式下，等效于 Unicode 的 [\p{Nd}]、非 Unicode 的 [0-9]。
\D	匹配任意非十進制數字。在 ECMAScript 方式下，等效于 Unicode 的 [\p{Nd}]、非 Unicode 的 [^0-9]。

模式	說明
^\d{5}$	5 個數值數字，如美國郵政編碼。
^(\d{5})\|(\d{5}-\d{4}$	5 個數值數字或 5 個數字-短劃線-4 個數字。匹配 5 位數字格式的美國郵政編碼，或 5 位數字 + 4 位數字格式的美國郵政編碼。
^(\d{5}(-\d{4})?$	與前一個相同，但更有效。使用 ? 可使模式中的 4 位數字成為可選部分，而不是要求分別比較不同的兩個模式（通過另一種方式）。
^[+-]?\d+(\.\d+)?$	匹配任意有可選符號的實數。
^[+-]?\d\.?\d$	與上一個相同，但也匹配空字符串。
^(20\|21\|22\|23\|[01]\d)[0-5]\d$	匹配 24 小時制時間值。
/\.\*/	匹配 C 語言風格的注釋 /* ... */

?	決不要使用驗證程序要驗證的控件中的空字符串來激活驗證器。只有 RequiredFieldValidator 才可以捕獲空字符串。
?	您無需指定匹配字符的開始與結尾（^ 和$）- 它們是事先假設的。如果添加了開始與結尾，也沒有任何影響，不需要這樣做。
?	對于所有驗證控件來說，必須在客戶端以及服務器端進行驗證。如果正則表達式不是 ECMAScript 兼容方式，客戶端驗證將失敗。為了避免這種情況，確保表達式是 ECMAScript 兼容方式，否則只在服務器端進行控件驗證。

方法	說明
Escape / Unescape	字符串中的轉義元字符，用作表達式中的文字。
IsMatch	如果正則表達式在輸入字符串中發現匹配，返回“Ture”。
Match	如果在輸入字符串中發現匹配，則返回匹配對象。
Matches	如果在輸入字符串中發現包含任何或全部匹配，則返回匹配集合對象。
Replace	用給定的替換字符串替換輸入字符串中的匹配。
Split	將輸入字符串拆分成用正則表達式匹配分開的數組元素時，返回數組字符串。

方法	說明
Compiled	當在循環中執行許多匹配操作時使用此選項。這可以節省每一循環的分析表達式步驟。
Multiline	它與輸入字符串中的行數沒有關系。確切地說，它只修改 ^ 和 $ 的方式，以便匹配行開始 (BOL) 和行結尾 (EOL)，而不是匹配整個輸入字符串的開始和結尾。
IgnoreCase	使模式在匹配搜索字符串時忽略大小寫。
IgnorePatternWhitespace	允許根據需要在模式中包括任意數量的空白區域，也支持使用 (?# 注釋 #) 語法在模式中加入注釋。
SingleLine	它與輸入字符串中的行數沒有關系。更確切地說，它將導致 .（句點）元字符匹配任意字符，而不是除 \n 之外的任意字符（默認情況）。

語法	說明
(?=...)	正 Lookahead
(?!...)	負 Lookahead
(?<=...)	正 Lookbehind
(?<!...)	負 Lookbehind


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關文章: Java中的回調函數實例說明關于weblogic下靜態頁面下載文件（配置mime類型）的疑問！！！ Java1.5泛型指南中文版(Java1.5 Generic Tutorial) 日期操作java轉載 AJAX實踐DWR篇 JSP標簽庫參考文章 (轉載)Java中的類反射機制抽象類的用途深入理解abstract class和interface java的30個學習目標

飛艷小屋

常用鏈接

留言簿(85)

隨筆檔案(52)

文章分類(157)

文章檔案(174)

相冊

.NET方面的網站

常上的網站

建網站用的網站

有關java的技術網站

真正能用得上的網頁空間

搜索

積分與排名

最新評論

閱讀排行榜

評論排行榜

Java正則表達式詳解

ASP.NET 中的正則表達式

本頁內容

引言

正則表達式使用歷史簡介

簡單表達式

限定符

元字符

字符類

預定義的集合元字符

表達式示例

ASP.NET 中的驗證

正則表達式 API

免費工具

高級主題

結論

資源

作者簡介