国产亚洲综合久久,亚洲另类激情综合偷自拍,亚洲卡一卡二卡乱码新区

JAVA中正則表達式的應(yīng)用－java.util.regex篇

現(xiàn)在JDK1.4里終于有了自己的正則表達式API包，JAVA程序員可以免去找第三方提供的正則表達式庫的周折了，我們現(xiàn)在就馬上來了解一下這個SUN提供的遲來恩物- -對我來說確實如此。
1.簡介：
java.util.regex是一個用正則表達式所訂制的模式來對字符串進行匹配工作的類庫包。

它包括兩個類：Pattern和Matcher Pattern 一個Pattern是一個正則表達式經(jīng)編譯后的表現(xiàn)模式。
Matcher 一個Matcher對象是一個狀態(tài)機器，它依據(jù)Pattern對象做為匹配模式對字符串展開匹配檢查。首先一個Pattern實例訂制了一個所用語法與PERL的類似的正則表達式經(jīng)編譯后的模式，然后一個Matcher實例在這個給定的Pattern實例的模式控制下進行字符串的匹配工作。

以下我們就分別來看看這兩個類：

2.Pattern類:
Pattern的方法如下： static Pattern compile(String regex)
將給定的正則表達式編譯并賦予給Pattern類
static Pattern compile(String regex, int flags)
同上，但增加flag參數(shù)的指定，可選的flag參數(shù)包括：CASE INSENSITIVE,MULTILINE,DOTALL,UNICODE CASE， CANON EQ
int flags()
返回當(dāng)前Pattern的匹配flag參數(shù).
Matcher matcher(CharSequence input)
生成一個給定命名的Matcher對象
static boolean matches(String regex, CharSequence input)
編譯給定的正則表達式并且對輸入的字串以該正則表達式為模開展匹配,該方法適合于該正則表達式只會使用一次的情況，也就是只進行一次匹配工作，因為這種情況下并不需要生成一個Matcher實例。
String pattern()
返回該Patter對象所編譯的正則表達式。
String[] split(CharSequence input)
將目標字符串按照Pattern里所包含的正則表達式為模進行分割。
String[] split(CharSequence input, int limit)
作用同上，增加參數(shù)limit目的在于要指定分割的段數(shù)，如將limi設(shè)為2，那么目標字符串將根據(jù)正則表達式分為割為兩段。

一個正則表達式，也就是一串有特定意義的字符，必須首先要編譯成為一個Pattern類的實例，這個Pattern對象將會使用matcher()方法來生成一個Matcher實例，接著便可以使用該 Matcher實例以編譯的正則表達式為基礎(chǔ)對目標字符串進行匹配工作，多個Matcher是可以共用一個Pattern對象的。

現(xiàn)在我們先來看一個簡單的例子，再通過分析它來了解怎樣生成一個Pattern對象并且編譯一個正則表達式，最后根據(jù)這個正則表達式將目標字符串進行分割：
import java.util.regex.*;
public class Replacement{
      public static void main(String[] args) throws Exception {
        // 生成一個Pattern,同時編譯一個正則表達式
        Pattern p = Pattern.compile("[/]+");
        //用Pattern的split()方法把字符串按"/"分割
        String[] result = p.split(
"Kevin has seen《LEON》seveal times,because it is a good film."
+"/ 凱文已經(jīng)看過《這個殺手不太冷》幾次了，因為它是一部"
+"好電影。/名詞:凱文。");
        for (int i=0; i<result.length; i++)
System.out.println(result[i]);
}
}

輸出結(jié)果為：

Kevin has seen《LEON》seveal times,because it is a good film.
凱文已經(jīng)看過《這個殺手不太冷》幾次了，因為它是一部好電影。
名詞:凱文。

很明顯，該程序?qū)⒆址?/"進行了分段，我們以下再使用 split(CharSequence input, int limit)方法來指定分段的段數(shù)，程序改動為：
tring[] result = p.split("Kevin has seen《LEON》seveal times,because it is a good film./ 凱文已經(jīng)看過《這個殺手不太冷》幾次了，因為它是一部好電影。/名詞:凱文。"，2);

這里面的參數(shù)"2"表明將目標語句分為兩段。

輸出結(jié)果則為：

Kevin has seen《LEON》seveal times,because it is a good film.
凱文已經(jīng)看過《這個殺手不太冷》幾次了，因為它是一部好電影。/名詞:凱文。

由上面的例子，我們可以比較出java.util.regex包在構(gòu)造Pattern對象以及編譯指定的正則表達式的實現(xiàn)手法與我們在上一篇中所介紹的Jakarta-ORO 包在完成同樣工作時的差別，Jakarta-ORO 包要先構(gòu)造一個PatternCompiler類對象接著生成一個Pattern對象，再將正則表達式用該PatternCompiler類的compile()方法來將所需的正則表達式編譯賦予Pattern類：

PatternCompiler orocom=new Perl5Compiler();

Pattern pattern=orocom.compile("REGULAR EXPRESSIONS");

PatternMatcher matcher=new Perl5Matcher();

但是在java.util.regex包里，我們僅需生成一個Pattern類，直接使用它的compile()方法就可以達到同樣的效果:
Pattern p = Pattern.compile("[/]+");

因此似乎java.util.regex的構(gòu)造法比Jakarta-ORO更為簡潔并容易理解。

3.Matcher類:
Matcher方法如下： Matcher appendReplacement(StringBuffer sb, String replacement)
將當(dāng)前匹配子串替換為指定字符串，并且將替換后的子串以及其之前到上次匹配子串之后的字符串段添加到一個StringBuffer對象里。
StringBuffer appendTail(StringBuffer sb)
將最后一次匹配工作后剩余的字符串添加到一個StringBuffer對象里。
int end()
返回當(dāng)前匹配的子串的最后一個字符在原目標字符串中的索引位置。
int end(int group)
返回與匹配模式里指定的組相匹配的子串最后一個字符的位置。
boolean find()
嘗試在目標字符串里查找下一個匹配子串。
boolean find(int start)
重設(shè)Matcher對象，并且嘗試在目標字符串里從指定的位置開始查找下一個匹配的子串。
String group()
返回當(dāng)前查找而獲得的與組匹配的所有子串內(nèi)容
String group(int group)
返回當(dāng)前查找而獲得的與指定的組匹配的子串內(nèi)容
int groupCount()
返回當(dāng)前查找所獲得的匹配組的數(shù)量。
boolean lookingAt()
檢測目標字符串是否以匹配的子串起始。
boolean matches()
嘗試對整個目標字符展開匹配檢測，也就是只有整個目標字符串完全匹配時才返回真值。
Pattern pattern()
返回該Matcher對象的現(xiàn)有匹配模式，也就是對應(yīng)的Pattern 對象。
String replaceAll(String replacement)
將目標字符串里與既有模式相匹配的子串全部替換為指定的字符串。
String replaceFirst(String replacement)
將目標字符串里第一個與既有模式相匹配的子串替換為指定的字符串。
Matcher reset()
重設(shè)該Matcher對象。
Matcher reset(CharSequence input)
重設(shè)該Matcher對象并且指定一個新的目標字符串。
int start()
返回當(dāng)前查找所獲子串的開始字符在原目標字符串中的位置。
int start(int group)
返回當(dāng)前查找所獲得的和指定組匹配的子串的第一個字符在原目標字符串中的位置。

（光看方法的解釋是不是很不好理解？不要急，待會結(jié)合例子就比較容易明白了）

一個Matcher實例是被用來對目標字符串進行基于既有模式（也就是一個給定的Pattern所編譯的正則表達式）進行匹配查找的，所有往Matcher的輸入都是通過CharSequence接口提供的，這樣做的目的在于可以支持對從多元化的數(shù)據(jù)源所提供的數(shù)據(jù)進行匹配工作。

我們分別來看看各方法的使用：

★matches()/lookingAt ()/find()：
一個Matcher對象是由一個Pattern對象調(diào)用其matcher()方法而生成的，一旦該Matcher對象生成,它就可以進行三種不同的匹配查找操作：

matches()方法嘗試對整個目標字符展開匹配檢測，也就是只有整個目標字符串完全匹配時才返回真值。
lookingAt ()方法將檢測目標字符串是否以匹配的子串起始。
find()方法嘗試在目標字符串里查找下一個匹配子串。

以上三個方法都將返回一個布爾值來表明成功與否。

★replaceAll ()/appendReplacement()/appendTail()：
Matcher類同時提供了四個將匹配子串替換成指定字符串的方法：

replaceAll()
replaceFirst()
appendReplacement()
appendTail()

replaceAll()與replaceFirst()的用法都比較簡單，請看上面方法的解釋。我們主要重點了解一下appendReplacement()和appendTail()方法。

appendReplacement(StringBuffer sb, String replacement) 將當(dāng)前匹配子串替換為指定字符串，并且將替換后的子串以及其之前到上次匹配子串之后的字符串段添加到一個StringBuffer對象里，而appendTail(StringBuffer sb) 方法則將最后一次匹配工作后剩余的字符串添加到一個StringBuffer對象里。

例如，有字符串fatcatfatcatfat,假設(shè)既有正則表達式模式為"cat"，第一次匹配后調(diào)用appendReplacement(sb,"dog"),那么這時StringBuffer sb的內(nèi)容為fatdog，也就是fatcat中的cat被替換為dog并且與匹配子串前的內(nèi)容加到sb里，而第二次匹配后調(diào)用appendReplacement(sb,"dog")，那么sb的內(nèi)容就變?yōu)閒atdogfatdog，如果最后再調(diào)用一次appendTail（sb）,那么sb最終的內(nèi)容將是fatdogfatdogfat。

還是有點模糊？那么我們來看個簡單的程序：
//該例將把句子里的"Kelvin"改為"Kevin"
import java.util.regex.*;
public class MatcherTest{
public static void main(String[] args)
throws Exception {
//生成Pattern對象并且編譯一個簡單的正則表達式"Kelvin"
Pattern p = Pattern.compile("Kevin");
//用Pattern類的matcher()方法生成一個Matcher對象
Matcher m = p.matcher("Kelvin Li and Kelvin Chan are both working in Kelvin Chen's KelvinSoftShop company");
StringBuffer sb = new StringBuffer();
int i=0;
//使用find()方法查找第一個匹配的對象
boolean result = m.find();
//使用循環(huán)將句子里所有的kelvin找出并替換再將內(nèi)容加到sb里
while(result) {
i++;
m.appendReplacement(sb, "Kevin");
System.out.println("第"+i+"次匹配后sb的內(nèi)容是："+sb);
//繼續(xù)查找下一個匹配對象
result = m.find();
}
//最后調(diào)用appendTail()方法將最后一次匹配后的剩余字符串加到sb里；
m.appendTail(sb);
System.out.println("調(diào)用m.appendTail(sb)后sb的最終內(nèi)容是:"+ sb.toString());
}
}

最終輸出結(jié)果為：
第1次匹配后sb的內(nèi)容是：Kevin
第2次匹配后sb的內(nèi)容是：Kevin Li and Kevin
第3次匹配后sb的內(nèi)容是：Kevin Li and Kevin Chan are both working in Kevin
第4次匹配后sb的內(nèi)容是：Kevin Li and Kevin Chan are both working in Kevin Chen's Kevin
調(diào)用m.appendTail(sb)后sb的最終內(nèi)容是：Kevin Li and Kevin Chan are both working in Kevin Chen's KevinSoftShop company.

看了上面這個例程是否對appendReplacement()，appendTail()兩個方法的使用更清楚呢，如果還是不太肯定最好自己動手寫幾行代碼測試一下。

★group()/group(int group)/groupCount()：
該系列方法與我們在上篇介紹的Jakarta-ORO中的MatchResult .group()方法類似(有關(guān)Jakarta-ORO請參考上篇的內(nèi)容)，都是要返回與組匹配的子串內(nèi)容，下面代碼將很好解釋其用法：
import java.util.regex.*;

public class GroupTest{
public static void main(String[] args)
throws Exception {
Pattern p = Pattern.compile("(ca)(t)");
Matcher m = p.matcher("one cat,two cats in the yard");
StringBuffer sb = new StringBuffer();
boolean result = m.find();
System.out.println("該次查找獲得匹配組的數(shù)量為："+m.groupCount());
for(int i=1;i<=m.groupCount();i++){
System.out.println("第"+i+"組的子串內(nèi)容為： "+m.group(i));
}
}
}

輸出為：
該次查找獲得匹配組的數(shù)量為：2
第1組的子串內(nèi)容為：ca
第2組的子串內(nèi)容為：t

Matcher對象的其他方法因比較好理解且由于篇幅有限，請讀者自己編程驗證。

4．一個檢驗Email地址的小程序：
最后我們來看一個檢驗Email地址的例程，該程序是用來檢驗一個輸入的EMAIL地址里所包含的字符是否合法，雖然這不是一個完整的EMAIL地址檢驗程序，它不能檢驗所有可能出現(xiàn)的情況，但在必要時您可以在其基礎(chǔ)上增加所需功能。
import java.util.regex.*;
public class Email {
public static void main(String[] args) throws Exception {
String input = args[0];
//檢測輸入的EMAIL地址是否以非法符號"."或"@"作為起始字符
Pattern p = Pattern.compile("^\\.|^\\@");
Matcher m = p.matcher(input);
if (m.find()){
System.err.println("EMAIL地址不能以'.'或'@'作為起始字符");
}
//檢測是否以"www."為起始
p = Pattern.compile("^www\\.");
m = p.matcher(input);
if (m.find()) {
System.out.println("EMAIL地址不能以'www.'起始");
}
//檢測是否包含非法字符
p = Pattern.compile("[^A-Za-z0-9\\.\\@_\\-~#]+");
m = p.matcher(input);
StringBuffer sb = new StringBuffer();
boolean result = m.find();
boolean deletedIllegalChars = false;
while(result) {
//如果找到了非法字符那么就設(shè)下標記
deletedIllegalChars = true;
//如果里面包含非法字符如冒號雙引號等，那么就把他們消去，加到SB里面
m.appendReplacement(sb, "");
result = m.find();
}
m.appendTail(sb);
input = sb.toString();
if (deletedIllegalChars) {
System.out.println("輸入的EMAIL地址里包含有冒號、逗號等非法字符，請修改");
System.out.println("您現(xiàn)在的輸入為: "+args[0]);
System.out.println("修改后合法的地址應(yīng)類似: "+input);
}
}
}

例如，我們在命令行輸入：java Email www.kevin@163.net

那么輸出結(jié)果將會是：EMAIL地址不能以'www.'起始

如果輸入的EMAIL為@kevin@163.net

則輸出為：EMAIL地址不能以'.'或'@'作為起始字符

當(dāng)輸入為：cgjmail#$%@163.net

那么輸出就是：

輸入的EMAIL地址里包含有冒號、逗號等非法字符，請修改
您現(xiàn)在的輸入為: cgjmail#$%@163.net
修改后合法的地址應(yīng)類似: cgjmail@163.net

5．總結(jié)：
本文介紹了jdk1.4.0-beta3里正則表達式庫--java.util.regex中的類以及其方法，如果結(jié)合與上一篇中所介紹的Jakarta-ORO API作比較，讀者會更容易掌握該API的使用，當(dāng)然該庫的性能將在未來的日子里不斷擴展，希望獲得最新信息的讀者最好到及時到SUN的網(wǎng)站去了解。

6．結(jié)束語：
本來計劃再多寫一篇介紹一下需付費的正則表達式庫中較具代表性的作品，但覺得既然有了免費且優(yōu)秀的正則表達式庫可以使用，何必還要去找需付費的呢，相信很多讀者也是這么想的:，所以有興趣了解更多其他的第三方正則表達式庫的朋友可以自己到網(wǎng)上查找或者到我在參考資料里提供的網(wǎng)址去看看。

參考資料

java.util.regex的幫助文檔
Dana Nourie 和Mike McCloskey所寫的Regular Expressions and the Java? Programming Language
需要更多的第三方正則表達式資源以及基于它們所開發(fā)的應(yīng)用程序請看http://www.meurrens.org/ip-Links/java/regex/index.html

轉(zhuǎn)自：http://www.javaresearch.org/article/showarticle.jsp?column=545&thread=2488

posted on 2005-06-11 23:39 weidagang2046 閱讀(186) 評論(0) 編輯收藏所屬分類: Java

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發(fā)表評論。




網(wǎng)站導(dǎo)航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關(guān)文章: Ajax中文亂碼問題解決方案（servlet）編寫高性能Web應(yīng)用程序的10個入門技巧關(guān)于cookie的小總結(jié) 一勞永逸的數(shù)據(jù)庫編碼解決方案 Java中關(guān)于漢字問題原理深入談 URL中文參數(shù)傳遞問題 url傳遞中文的解決方案總結(jié) 解決Tomcat 5.0.19中文參數(shù)傳遞問題 JDBC性能優(yōu)化技巧放棄 ORM 改用 SqlMap 的 N 個理由

weidagang2046的專欄

JAVA中正則表達式的應(yīng)用－java.util.regex篇

導(dǎo)航

常用鏈接

留言簿(12)

隨筆檔案(8)

文章分類(421)

文章檔案(409)

相冊

Link

搜索

最新評論

閱讀排行榜

評論排行榜