java.util.regex

現(xiàn)在JDK1.4里終于有了自己的正則表達(dá)式API包，JAVA程序員可以免去找第三方提供的正則表達(dá)式庫(kù)的周折了，我們現(xiàn)在就馬上來(lái)了解一下這個(gè)SUN提供的遲來(lái)恩物-?-對(duì)我來(lái)說(shuō)確實(shí)如此。?
1.簡(jiǎn)介：??
java.util.regex是一個(gè)用正則表達(dá)式所訂制的模式來(lái)對(duì)字符串進(jìn)行匹配工作的類庫(kù)包。?

它包括兩個(gè)類：Pattern和Matcher?Pattern?一個(gè)Pattern是一個(gè)正則表達(dá)式經(jīng)編譯后的表現(xiàn)模式。??
Matcher?一個(gè)Matcher對(duì)象是一個(gè)狀態(tài)機(jī)器，它依據(jù)Pattern對(duì)象做為匹配模式對(duì)字符串展開匹配檢查。?首先一個(gè)Pattern實(shí)例訂制了一個(gè)所用語(yǔ)法與PERL的類似的正則表達(dá)式經(jīng)編譯后的模式，然后一個(gè)Matcher實(shí)例在這個(gè)給定的Pattern實(shí)例的模式控制下進(jìn)行字符串的匹配工作。?

以下我們就分別來(lái)看看這兩個(gè)類：?

2.Pattern類:??
Pattern的方法如下：?static?Pattern?compile(String?regex)?
將給定的正則表達(dá)式編譯并賦予給Pattern類??
static?Pattern?compile(String?regex,?int?flags)?
同上，但增加flag參數(shù)的指定，可選的flag參數(shù)包括：CASE?INSENSITIVE,MULTILINE,DOTALL,UNICODE?CASE，?CANON?EQ??
int?flags()?
返回當(dāng)前Pattern的匹配flag參數(shù).??
Matcher?matcher(CharSequence?input)?
生成一個(gè)給定命名的Matcher對(duì)象??
static?boolean?matches(String?regex,?CharSequence?input)?
編譯給定的正則表達(dá)式并且對(duì)輸入的字串以該正則表達(dá)式為模開展匹配,該方法適合于該正則表達(dá)式只會(huì)使用一次的情況，也就是只進(jìn)行一次匹配工作，因?yàn)檫@種情況下并不需要生成一個(gè)Matcher實(shí)例。???
String?pattern()?
返回該P(yáng)atter對(duì)象所編譯的正則表達(dá)式。??
String[]?split(CharSequence?input)?
將目標(biāo)字符串按照Pattern里所包含的正則表達(dá)式為模進(jìn)行分割。??
String[]?split(CharSequence?input,?int?limit)?
作用同上，增加參數(shù)limit目的在于要指定分割的段數(shù)，如將limi設(shè)為2，那么目標(biāo)字符串將根據(jù)正則表達(dá)式分為割為兩段。??

一個(gè)正則表達(dá)式，也就是一串有特定意義的字符，必須首先要編譯成為一個(gè)Pattern類的實(shí)例，這個(gè)Pattern對(duì)象將會(huì)使用matcher()方法來(lái)生成一個(gè)Matcher實(shí)例，接著便可以使用該?Matcher實(shí)例以編譯的正則表達(dá)式為基礎(chǔ)對(duì)目標(biāo)字符串進(jìn)行匹配工作，多個(gè)Matcher是可以共用一個(gè)Pattern對(duì)象的。?

現(xiàn)在我們先來(lái)看一個(gè)簡(jiǎn)單的例子，再通過(guò)分析它來(lái)了解怎樣生成一個(gè)Pattern對(duì)象并且編譯一個(gè)正則表達(dá)式，最后根據(jù)這個(gè)正則表達(dá)式將目標(biāo)字符串進(jìn)行分割：??
import?java.util.regex.*;?
public?class?Replacement{?
??????public?static?void?main(String[]?args)?throws?Exception?{?
????????//?生成一個(gè)Pattern,同時(shí)編譯一個(gè)正則表達(dá)式?
????????Pattern?p?=?Pattern.compile("[/]+");?
????????//用Pattern的split()方法把字符串按"/"分割?
????????String[]?result?=?p.split(?
"Kevin?has?seen《LEON》seveal?times,because?it?is?a?good?film."?
+"/?凱文已經(jīng)看過(guò)《這個(gè)殺手不太冷》幾次了，因?yàn)樗且徊??
+"好電影。/名詞:凱文。");?
????????for?(int?i=0;?i<result.length;?i++)?
System.out.println(result[i]);?
}?
}?

輸出結(jié)果為：?

Kevin?has?seen《LEON》seveal?times,because?it?is?a?good?film.?
凱文已經(jīng)看過(guò)《這個(gè)殺手不太冷》幾次了，因?yàn)樗且徊亢秒娪啊?
名詞:凱文。?

很明顯，該程序?qū)⒆址?/"進(jìn)行了分段，我們以下再使用?split(CharSequence?input,?int?limit)方法來(lái)指定分段的段數(shù)，程序改動(dòng)為：?
tring[]?result?=?p.split("Kevin?has?seen《LEON》seveal?times,because?it?is?a?good?film./?凱文已經(jīng)看過(guò)《這個(gè)殺手不太冷》幾次了，因?yàn)樗且徊亢秒娪啊?名詞:凱文。"，2);?

這里面的參數(shù)"2"表明將目標(biāo)語(yǔ)句分為兩段。?

輸出結(jié)果則為：?

Kevin?has?seen《LEON》seveal?times,because?it?is?a?good?film.?
凱文已經(jīng)看過(guò)《這個(gè)殺手不太冷》幾次了，因?yàn)樗且徊亢秒娪啊?名詞:凱文。?

由上面的例子，我們可以比較出java.util.regex包在構(gòu)造Pattern對(duì)象以及編譯指定的正則表達(dá)式的實(shí)現(xiàn)手法與我們?cè)谏弦黄兴榻B的Jakarta-ORO?包在完成同樣工作時(shí)的差別，Jakarta-ORO?包要先構(gòu)造一個(gè)PatternCompiler類對(duì)象接著生成一個(gè)Pattern對(duì)象，再將正則表達(dá)式用該P(yáng)atternCompiler類的compile()方法來(lái)將所需的正則表達(dá)式編譯賦予Pattern類：?

PatternCompiler?orocom=new?Perl5Compiler();?

Pattern?pattern=orocom.compile("REGULAR?EXPRESSIONS");?

PatternMatcher?matcher=new?Perl5Matcher();?

但是在java.util.regex包里，我們僅需生成一個(gè)Pattern類，直接使用它的compile()方法就可以達(dá)到同樣的效果:?
Pattern?p?=?Pattern.compile("[/]+");?

因此似乎java.util.regex的構(gòu)造法比Jakarta-ORO更為簡(jiǎn)潔并容易理解。?

3.Matcher類:?
Matcher方法如下：?Matcher?appendReplacement(StringBuffer?sb,?String?replacement)?
將當(dāng)前匹配子串替換為指定字符串，并且將替換后的子串以及其之前到上次匹配子串之后的字符串段添加到一個(gè)StringBuffer對(duì)象里。?
StringBuffer?appendTail(StringBuffer?sb)?
將最后一次匹配工作后剩余的字符串添加到一個(gè)StringBuffer對(duì)象里。?
int?end()?
返回當(dāng)前匹配的子串的最后一個(gè)字符在原目標(biāo)字符串中的索引位置?。?
int?end(int?group)?
返回與匹配模式里指定的組相匹配的子串最后一個(gè)字符的位置。?
boolean?find()?
嘗試在目標(biāo)字符串里查找下一個(gè)匹配子串。?
boolean?find(int?start)?
重設(shè)Matcher對(duì)象，并且嘗試在目標(biāo)字符串里從指定的位置開始查找下一個(gè)匹配的子串。?
String?group()?
返回當(dāng)前查找而獲得的與組匹配的所有子串內(nèi)容?
String?group(int?group)?
返回當(dāng)前查找而獲得的與指定的組匹配的子串內(nèi)容?
int?groupCount()?
返回當(dāng)前查找所獲得的匹配組的數(shù)量。?
boolean?lookingAt()?
檢測(cè)目標(biāo)字符串是否以匹配的子串起始。?
boolean?matches()?
嘗試對(duì)整個(gè)目標(biāo)字符展開匹配檢測(cè)，也就是只有整個(gè)目標(biāo)字符串完全匹配時(shí)才返回真值。?
Pattern?pattern()?
返回該Matcher對(duì)象的現(xiàn)有匹配模式，也就是對(duì)應(yīng)的Pattern?對(duì)象。?
String?replaceAll(String?replacement)?
將目標(biāo)字符串里與既有模式相匹配的子串全部替換為指定的字符串。?
String?replaceFirst(String?replacement)?
將目標(biāo)字符串里第一個(gè)與既有模式相匹配的子串替換為指定的字符串。?
Matcher?reset()?
重設(shè)該Matcher對(duì)象。?
Matcher?reset(CharSequence?input)?
重設(shè)該Matcher對(duì)象并且指定一個(gè)新的目標(biāo)字符串。?
int?start()?
返回當(dāng)前查找所獲子串的開始字符在原目標(biāo)字符串中的位置。?
int?start(int?group)?
返回當(dāng)前查找所獲得的和指定組匹配的子串的第一個(gè)字符在原目標(biāo)字符串中的位置。?

（光看方法的解釋是不是很不好理解？不要急，待會(huì)結(jié)合例子就比較容易明白了）?

一個(gè)Matcher實(shí)例是被用來(lái)對(duì)目標(biāo)字符串進(jìn)行基于既有模式（也就是一個(gè)給定的Pattern所編譯的正則表達(dá)式）進(jìn)行匹配查找的，所有往Matcher的輸入都是通過(guò)CharSequence接口提供的，這樣做的目的在于可以支持對(duì)從多元化的數(shù)據(jù)源所提供的數(shù)據(jù)進(jìn)行匹配工作。?

我們分別來(lái)看看各方法的使用：?

★matches()/lookingAt?()/find()：?
一個(gè)Matcher對(duì)象是由一個(gè)Pattern對(duì)象調(diào)用其matcher()方法而生成的，一旦該Matcher對(duì)象生成,它就可以進(jìn)行三種不同的匹配查找操作：?

matches()方法嘗試對(duì)整個(gè)目標(biāo)字符展開匹配檢測(cè)，也就是只有整個(gè)目標(biāo)字符串完全匹配時(shí)才返回真值。?
lookingAt?()方法將檢測(cè)目標(biāo)字符串是否以匹配的子串起始。?
find()方法嘗試在目標(biāo)字符串里查找下一個(gè)匹配子串。?

以上三個(gè)方法都將返回一個(gè)布爾值來(lái)表明成功與否。?

★replaceAll?()/appendReplacement()/appendTail()：?
Matcher類同時(shí)提供了四個(gè)將匹配子串替換成指定字符串的方法：?

replaceAll()?
replaceFirst()?
appendReplacement()?
appendTail()?

replaceAll()與replaceFirst()的用法都比較簡(jiǎn)單，請(qǐng)看上面方法的解釋。我們主要重點(diǎn)了解一下appendReplacement()和appendTail()方法。?

appendReplacement(StringBuffer?sb,?String?replacement)?將當(dāng)前匹配子串替換為指定字符串，并且將替換后的子串以及其之前到上次匹配子串之后的字符串段添加到一個(gè)StringBuffer對(duì)象里，而appendTail(StringBuffer?sb)?方法則將最后一次匹配工作后剩余的字符串添加到一個(gè)StringBuffer對(duì)象里。?

例如，有字符串fatcatfatcatfat,假設(shè)既有正則表達(dá)式模式為"cat"，第一次匹配后調(diào)用appendReplacement(sb,"dog"),那么這時(shí)StringBuffer?sb的內(nèi)容為fatdog，也就是fatcat中的cat被替換為dog并且與匹配子串前的內(nèi)容加到sb里，而第二次匹配后調(diào)用appendReplacement(sb,"dog")，那么sb的內(nèi)容就變?yōu)閒atdogfatdog，如果最后再調(diào)用一次appendTail（sb）,那么sb最終的內(nèi)容將是fatdogfatdogfat。?

還是有點(diǎn)模糊？那么我們來(lái)看個(gè)簡(jiǎn)單的程序：?
//該例將把句子里的"Kelvin"改為"Kevin"?
import?java.util.regex.*;?
public?class?MatcherTest{?
public?static?void?main(String[]?args)?
throws?Exception?{?
//生成Pattern對(duì)象并且編譯一個(gè)簡(jiǎn)單的正則表達(dá)式"Kelvin"?
Pattern?p?=?Pattern.compile("Kevin");?
//用Pattern類的matcher()方法生成一個(gè)Matcher對(duì)象?
Matcher?m?=?p.matcher("Kelvin?Li?and?Kelvin?Chan?are?both?working?in?Kelvin?Chen's?KelvinSoftShop?company");?
StringBuffer?sb?=?new?StringBuffer();?
int?i=0;?
//使用find()方法查找第一個(gè)匹配的對(duì)象?
boolean?result?=?m.find();?
//使用循環(huán)將句子里所有的kelvin找出并替換再將內(nèi)容加到sb里?
while(result)?{?
i++;?
m.appendReplacement(sb,?"Kevin");?
System.out.println("第"+i+"次匹配后sb的內(nèi)容是："+sb);?
//繼續(xù)查找下一個(gè)匹配對(duì)象?
result?=?m.find();?
}?
//最后調(diào)用appendTail()方法將最后一次匹配后的剩余字符串加到sb里；?
m.appendTail(sb);?
System.out.println("調(diào)用m.appendTail(sb)后sb的最終內(nèi)容是:"+?sb.toString());?
}?
}?

最終輸出結(jié)果為：?
第1次匹配后sb的內(nèi)容是：Kevin?
第2次匹配后sb的內(nèi)容是：Kevin?Li?and?Kevin?
第3次匹配后sb的內(nèi)容是：Kevin?Li?and?Kevin?Chan?are?both?working?in?Kevin?
第4次匹配后sb的內(nèi)容是：Kevin?Li?and?Kevin?Chan?are?both?working?in?Kevin?Chen's?Kevin?
調(diào)用m.appendTail(sb)后sb的最終內(nèi)容是：Kevin?Li?and?Kevin?Chan?are?both?working?in?Kevin?Chen's?KevinSoftShop?company.?

看了上面這個(gè)例程是否對(duì)appendReplacement()，appendTail()兩個(gè)方法的使用更清楚呢，如果還是不太肯定最好自己動(dòng)手寫幾行代碼測(cè)試一下。?

★group()/group(int?group)/groupCount()：?
該系列方法與我們?cè)谏掀榻B的Jakarta-ORO中的MatchResult?.group()方法類似(有關(guān)Jakarta-ORO請(qǐng)參考上篇的內(nèi)容)，都是要返回與組匹配的子串內(nèi)容，下面代碼將很好解釋其用法：?
import?java.util.regex.*;?

public?class?GroupTest{?
public?static?void?main(String[]?args)?
throws?Exception?{?
Pattern?p?=?Pattern.compile("(ca)(t)");?
Matcher?m?=?p.matcher("one?cat,two?cats?in?the?yard");?
StringBuffer?sb?=?new?StringBuffer();?
boolean?result?=?m.find();?
System.out.println("該次查找獲得匹配組的數(shù)量為："+m.groupCount());?
for(int?i=1;i<=m.groupCount();i++){?
System.out.println("第"+i+"組的子串內(nèi)容為：?"+m.group(i));?
}?
}?
}?

輸出為：?
該次查找獲得匹配組的數(shù)量為：2?
第1組的子串內(nèi)容為：ca?
第2組的子串內(nèi)容為：t?

Matcher對(duì)象的其他方法因比較好理解且由于篇幅有限，請(qǐng)讀者自己編程驗(yàn)證。?

4．一個(gè)檢驗(yàn)Email地址的小程序：?
最后我們來(lái)看一個(gè)檢驗(yàn)Email地址的例程，該程序是用來(lái)檢驗(yàn)一個(gè)輸入的EMAIL地址里所包含的字符是否合法，雖然這不是一個(gè)完整的EMAIL地址檢驗(yàn)程序，它不能檢驗(yàn)所有可能出現(xiàn)的情況，但在必要時(shí)您可以在其基礎(chǔ)上增加所需功能。?
import?java.util.regex.*;?
public?class?Email?{?
public?static?void?main(String[]?args)?throws?Exception?{?
String?input?=?args[0];?
//檢測(cè)輸入的EMAIL地址是否以?非法符號(hào)"."或"@"作為起始字符?
Pattern?p?=?Pattern.compile("^\\.|^\\@");?
Matcher?m?=?p.matcher(input);?
if?(m.find()){?
System.err.println("EMAIL地址不能以'.'或'@'作為起始字符");?
}?
//檢測(cè)是否以"www."為起始?
p?=?Pattern.compile("^www\\.");?
m?=?p.matcher(input);?
if?(m.find())?{?
System.out.println("EMAIL地址不能以'www.'起始");?
}?
//檢測(cè)是否包含非法字符?
p?=?Pattern.compile("[^A-Za-z0-9\\.\\@_\\-~#]+");?
m?=?p.matcher(input);?
StringBuffer?sb?=?new?StringBuffer();?
boolean?result?=?m.find();?
boolean?deletedIllegalChars?=?false;?
while(result)?{?
//如果找到了非法字符那么就設(shè)下標(biāo)記?
deletedIllegalChars?=?true;?
//如果里面包含非法字符如冒號(hào)雙引號(hào)等，那么就把他們消去，加到SB里面?
m.appendReplacement(sb,?"");?
result?=?m.find();?
}?
m.appendTail(sb);?
input?=?sb.toString();?
if?(deletedIllegalChars)?{?
System.out.println("輸入的EMAIL地址里包含有冒號(hào)、逗號(hào)等非法字符，請(qǐng)修改");?
System.out.println("您現(xiàn)在的輸入為:?"+args[0]);?
System.out.println("修改后合法的地址應(yīng)類似:?"+input);?
}?
}?
}?

例如，我們?cè)诿钚休斎耄簀ava?Email?www.kevin@163.net?

那么輸出結(jié)果將會(huì)是：EMAIL地址不能以'www.'起始?

如果輸入的EMAIL為@kevin@163.net?

則輸出為：EMAIL地址不能以'.'或'@'作為起始字符?

當(dāng)輸入為：cgjmail#$%@163.net?

那么輸出就是：?

輸入的EMAIL地址里包含有冒號(hào)、逗號(hào)等非法字符，請(qǐng)修改?
您現(xiàn)在的輸入為:?cgjmail#$%@163.net?
修改后合法的地址應(yīng)類似:?cgjmail@163.net?

5．總結(jié)：?
本文介紹了jdk1.4.0-beta3里正則表達(dá)式庫(kù)--java.util.regex中的類以及其方法，如果結(jié)合與上一篇中所介紹的Jakarta-ORO?API作比較，讀者會(huì)更容易掌握該API的使用，當(dāng)然該庫(kù)的性能將在未來(lái)的日子里不斷擴(kuò)展，希望獲得最新信息的讀者最好到及時(shí)到SUN的網(wǎng)站去了解。?

6．結(jié)束語(yǔ)：?
本來(lái)計(jì)劃再多寫一篇介紹一下需付費(fèi)的正則表達(dá)式庫(kù)中較具代表性的作品，但覺(jué)得既然有了免費(fèi)且優(yōu)秀的正則表達(dá)式庫(kù)可以使用，何必還要去找需付費(fèi)的呢，相信很多讀者也是這么想的:，所以有興趣了解更多其他的第三方正則表達(dá)式庫(kù)的朋友可以自己到網(wǎng)上查找或者到我在參考資料里提供的網(wǎng)址去看看。?

參考資料?

java.util.regex的幫助文檔?
Dana?Nourie?和Mike?McCloskey所寫的Regular?Expressions?and?the?Java??Programming?Language?
需要更多的第三方正則表達(dá)式資源以及基于它們所開發(fā)的應(yīng)用程序請(qǐng)看http://www.meurrens.org/ip-Links/java/regex/index.html?

Java's java.util.regex 包包括：Pattern類、Matcher類、MatchResult接口和PatternSyntaxException異常：

Pattern 對(duì)象代表了編譯了的正則表達(dá)式（A compiled representation of a regular expression.）。
Matcher ，An engine that performs match operations on a character sequence by interpreting a Pattern.
MatchResult接口：The result of a match operation.
PatternSyntaxException對(duì)象，描述非法的regex patterns，Unchecked exception thrown to indicate a syntax error in a regular-expression pattern.

?同時(shí)還需要了解是CharSequence，JDK 1.4定義的新的接口，它提供了String和StringBuffer這兩個(gè)類的字符序列的抽象

interface CharSequence {
  charAt(int i);
  length();
  subSequence(int start, int end);
  toString();
}

為了實(shí)現(xiàn)這個(gè)新的CharSequence接口，String，StringBuffer以及CharBuffer都作了修改，很多的正則表達(dá)式的操作都要拿CharSequence作參數(shù)。

Matcher類的幾個(gè)重要的方法：

boolean matches()：Pattern匹配整個(gè)字符串
boolean lookingAt()：Pattern匹配字符串的開頭
boolean find()：發(fā)現(xiàn)CharSequence里的，與pattern相匹配的多個(gè)字符序列
boolean find(int start)：告訴方法從參數(shù)start位置開始查找

group的概念

Group是指里用括號(hào)括起來(lái)的，能被后面的表達(dá)式調(diào)用的正則表達(dá)式。

Group 0 表示整個(gè)表達(dá)式，group 1表示第一個(gè)被括起來(lái)的group，以此類推。所以；

A(B(C))D

里面有三個(gè)group：group 0是ABCD， group 1是BC，group 2是C。

你可以用下述Matcher方法來(lái)使用group：

public int groupCount( )返回matcher對(duì)象中的group的數(shù)目。不包括group0。
public String group( ) 返回上次匹配操作(比方說(shuō)find( ))的group 0(整個(gè)匹配)
public String group(int i)返回上次匹配操作的某個(gè)group。如果匹配成功，但是沒(méi)能找到group，則返回null。
public int start(int group)返回上次匹配所找到的group的開始位置。
public int end(int group)返回上次匹配所找到的group的結(jié)束位置，最后一個(gè)字符的下標(biāo)加一。
split( ) 是指將以正則表達(dá)式為界，將字符串分割成String數(shù)組,如果帶有l(wèi)imit參數(shù)，split( )會(huì)限定分割的次數(shù)。
replaceFirst(String replacement)將字符串里，第一個(gè)與模式相匹配的子串替換成replacement。
replaceAll(String replacement)，將輸入字符串里所有與模式相匹配的子串全部替換成replacement。
appendReplacement(StringBuffer sbuf, String replacement)對(duì)sbuf進(jìn)行逐次替換，而不是像replaceFirst( )或replaceAll( )那樣，只替換第一個(gè)或全部子串。這是個(gè)非常重要的方法，因?yàn)閞eplacement(replaceFirst( )和replaceAll( )只允許用固定的字符串來(lái)充當(dāng)replacement)。有了這個(gè)方法，你就可以編程區(qū)分group，從而實(shí)現(xiàn)更強(qiáng)大的替換功能。
調(diào)用完appendReplacement( )之后，為了把剩余的字符串拷貝回去，必須調(diào)用appendTail(StringBuffer sbuf, String replacement)。

使用group可以做到逐步縮小匹配的范圍，直至精確匹配的目的。

start( )和end( )：如果匹配成功，start( )會(huì)返回此次匹配的開始位置，end( )會(huì)返回此次匹配的結(jié)束位置，即最后一個(gè)字符的下標(biāo)加一。如果之前的匹配不成功(或者沒(méi)匹配)，那么無(wú)論是調(diào)用start( )還是end( )，都會(huì)引發(fā)一個(gè)IllegalStateException。

二、4大使用方法：

查詢

String str="abc efg ABC";

String regEx="a|f"; //表示a或f

Pattern p=Pattern.compile(regEx);

Matcher m=p.matcher(str);

boolean rs=m.find();

如果str中有regEx，那么rs為true，否則為flase。如果想在查找時(shí)忽略大小寫，則可以寫成Pattern p=Pattern.compile(regEx,Pattern.CASE_INSENSITIVE);

提取

String regEx=".+\(.+)$";

String str="c:\dir1\dir2\name.txt";

Pattern p=Pattern.compile(regEx);

Matcher m=p.matcher(str);

boolean rs=m.find();

for(int i=1;i<=m.groupCount();i++){

System.out.println(m.group(i));

}

以上的執(zhí)行結(jié)果為name.txt，提取的字符串儲(chǔ)存在m.group(i)中，其中i最大值為m.groupCount();

分割

String regEx="::";

Pattern p=Pattern.compile(regEx);

String[] r=p.split("xd::abc::cde");

執(zhí)行后，r就是{"xd","abc","cde"}，其實(shí)分割時(shí)還有跟簡(jiǎn)單的方法：

String str="xd::abc::cde";

String[] r=str.split("::");

替換或者刪除

String regEx="a+"; //表示一個(gè)或多個(gè)a

Pattern p=Pattern.compile(regEx);

Matcher m=p.matcher("aaabbced a ccdeaa");

String s=m.replaceAll("A");

　　結(jié)果為"Abbced A ccdeA"

　　如果寫成空串，既可達(dá)到刪除的功能，比如：

String s=m.replaceAll("");

　　結(jié)果為"bbced ccde"

三、一個(gè)實(shí)際的例子

下面的函數(shù)是一個(gè)實(shí)際應(yīng)用的例子，需求是需要將抓取的網(wǎng)頁(yè)中的<img src=''http://aa.bb.cc.com/images/**.jpg"> 中的地址，保存到一個(gè)地址列表中（以供抓取圖片使用），并將絕對(duì)地址替換成本地的相對(duì)地址，即<img src="images/**.jpg">。

public static Map<String, String> getImagesURL(String description) {

????? Map<String, String> map = new HashMap<String, String>();
??????? // img 的正則表達(dá)式:匹配<img>標(biāo)簽???????
??????? String imgPattern = "<\\s*img\\s+([^>]+)\\s*>";
??????? Pattern pattern1 = Pattern.compile(imgPattern, Pattern.CASE_INSENSITIVE);
??????? Matcher matcher = pattern1.matcher(description);

??????? // img src元素的正則表達(dá)式：匹配img標(biāo)簽內(nèi)的src屬性
??????? String srcPattern = "\\s*src\\s*=\\s*\"([^\"]+)\\s*\"";
????????Pattern pattern2 = Pattern.compile(srcPattern, Pattern.CASE_INSENSITIVE);

??????? while (matcher.find()) {

?????????? //group()返回符合表達(dá)式的內(nèi)容
??????????? Matcher matcher2 = pattern2 .matcher(matcher.group());
??????????? // 一定要find(),這是實(shí)際的匹配動(dòng)作
??????????? if (matcher2.find()) {
??????????????? String src = matcher2.group();
??????????????? log.info(src);
??????????????? int i2 = src.lastIndexOf('/');
??????????????? int i1 = src.indexOf("http");
??????????????? if (i1 != -1) {
??????????????????? map.put(src.substring(i2 + 1, src.length() - 1), src
??????????????????????????? .substring(i1, src.length() - 1));
??????????????? }
??????????? }
??????? }
??????? log.debug("圖片：" + map);
??????? return map;
??? }

整體思路是先匹配到img標(biāo)簽，然后匹配src屬性，并修改src的屬性

"<\\s*img\\s+([^>]+)\\s*>" 的解釋：

\\s* :0 或多個(gè)空格?? \\s+: 至少一個(gè)空格

([^>]+)：指的是到>為止的所有的元素，至少一個(gè)

常用的正則表達(dá)式（參考jdk的regex文檔）

字符集類

.??????????????????????????? 表示任意一個(gè)字符

[abc]???????????????????? 表示字符a，b，c中的任意一個(gè)(與a|b|c相同)

[^abc]?????????????????? 除a，b，c之外的任意一個(gè)字符(否定)

[a-zA-Z]??????????????? 從a到z或A到Z當(dāng)中的任意一個(gè)字符(范圍)

[abc[hij]]????????????? a,b,c,h,i,j中的任意一個(gè)字符(與a|b|c|h|i|j相同)(并集)

[a-z&&[hij]]????????? h,i,j中的一個(gè)(交集)

\s????????????????????????? 空格字符(空格鍵, tab, 換行, 換頁(yè), 回車)

\S???????????????????????? 非空格字符([^\s])

\d???????????????????????? 一個(gè)數(shù)字，也就是[0-9]

\D???????????????????????? 一個(gè)非數(shù)字的字符，也就是[^0-9]

\w??????????????????????? 一個(gè)單詞字符(word character)，即[a-zA-Z_0-9]

\W???????????????????????一個(gè)非單詞的字符，[^\w]

字符類：

B???????????????????????? 字符B

\xhh??????????????????? 16進(jìn)制值0xhh所表示的字符

\uhhhh??????????????? 16進(jìn)制值0xhhhh所表示的Unicode字符

\t???????????????????????? Tab

\n??????????????????????? 換行符

\r???????????????????????? 回車符

\f??????????????????????? 換頁(yè)符

\e?????????????????????? Escape

邏輯運(yùn)算符

XY????????????????????? X 后面跟著 Y

X|Y??????????????????? X或Y

(X)?????????????????????一個(gè)"要匹配的組(capturing group)". 以后可以用\i來(lái)表示第i個(gè)被匹配的組。

邊界匹配符

^????????????????????? 一行的開始

$????????????????????? 一行的結(jié)尾

\b??????????????????? 一個(gè)單詞的邊界

\B??????????????????? 一個(gè)非單詞的邊界

\G???????????????????前一個(gè)匹配的結(jié)束

數(shù)量表示符

"數(shù)量表示符(quantifier)"的作用是定義模式應(yīng)該匹配多少個(gè)字符。

Greedy(貪婪的)：除非另有表示，否則數(shù)量表示符都是greedy的。Greedy的表達(dá)式會(huì)一直匹配下去，直到匹配不下去為止。(如果你發(fā)現(xiàn)表達(dá)式匹配的結(jié)果與預(yù)期的不符)，很有可能是因?yàn)椋阋詾楸磉_(dá)式會(huì)只匹配前面幾個(gè)字符，而實(shí)際上它是greedy的，因此會(huì)一直匹配下去。
Reluctant(勉強(qiáng)的)：用問(wèn)號(hào)表示，它會(huì)匹配最少的字符。也稱為lazy, minimal matching, non-greedy, 或ungreedy。
Possessive(占有的)：目前只有Java支持(其它語(yǔ)言都不支持)。它更加先進(jìn)，所以你可能還不太會(huì)用。用正則表達(dá)式匹配字符串的時(shí)候會(huì)產(chǎn)生很多中間狀態(tài)，(一般的匹配引擎會(huì)保存這種中間狀態(tài)，)這樣匹配失敗的時(shí)候就能原路返回了。占有型的表達(dá)式不保存這種中間狀態(tài)，因此也就不會(huì)回頭重來(lái)了。它能防止正則表達(dá)式的失控，同時(shí)也能提高運(yùn)行的效率。

Greedy??????????????????? Reluctant???????????????????????????Possessive????????????????????? 匹配

X???????????????????????????? X??????????????????????????????????????? X?+????????????????????????????????? 匹配一個(gè)或零個(gè)X

X*??????????????????????????? X*?????????????????????????????????????? X*+????????????????????????????????? 匹配零或多個(gè)X

X+?????????????????????????? X+?????????????????????????????????????? X++?????????????????????????????????匹配一個(gè)或多個(gè)X

X{n}??????????????????????? X{n}??????????????????????????????????? X{n}+?????????????????????????????? 匹配正好n個(gè)X

X{n,}?????????????????????? X{n,}??????????????????????????????????X{n,}+??????????????????????????????匹配至少n個(gè)X

X{n,m}?????????????????? X{n,m}???????????????????????????????? X{n,m}+?????????????????????????? 匹配至少n個(gè)，至多m個(gè)X

參考資料

要想進(jìn)一步學(xué)習(xí)正則表達(dá)式，建議看Mastering Regular Expression, 2nd Edition，作者Jeffrey E. F. Friedl (O’Reilly, 2002)。

"Regular Expressions and the Java Programming Language," Dana Nourie and Mike McCloskey (Sun Microsystems, August 2002) presents a brief overview of java.util.regex, including five illustrative regex-based applications:
http://developer.java.sun.com/developer/technicalArticles/releases/1.4regex/

http://www.tkk7.com/beike/archive/2006/04/28/43832.html?

http://wcjok.bokee.com/4293762.html

posted on 2007-09-29 18:42 Welcome 閱讀(1482) 評(píng)論(0) 編輯收藏

新用戶注冊(cè) 刷新評(píng)論列表


只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。




網(wǎng)站導(dǎo)航: 博客園 IT新聞 Chat2DB C++博客博問(wèn) 管理

Welcome 布拉格

公告

常用鏈接

留言簿(3)

隨筆分類(1)

文章分類(7)

最新評(píng)論

Matcher類的幾個(gè)重要的方法：

group的概念

二、4大使用方法：

查詢

提取

分割

替換或者刪除

三、一個(gè)實(shí)際的例子

常用的正則表達(dá)式（參考jdk的regex文檔）

參考資料