企業(yè)架構(gòu)師

一些經(jīng)驗(yàn)筆記

:: 管理

1 Posts :: 0 Stories :: 1 Comments :: 0 Trackbacks

應(yīng)用程序常常需要有文本處理功能，比如單詞查找、電子郵件確認(rèn)或XML文檔集成。這通常會(huì)涉及到模式匹配。Perl、sed或awk等語(yǔ)言通過(guò)使用正則表達(dá)式來(lái) 改善模式匹配，正則表達(dá)式是一串字符，它所定義的模式可用來(lái)查找匹配的文本。為了使用JavaTM編程語(yǔ)言進(jìn)行模式匹配，需要使用帶有許多charAt子字串的StringTokenizer 類(lèi)，讀取字母或符號(hào)以便處理文本。這常常導(dǎo)致復(fù)雜或凌亂的代碼。現(xiàn)在不一樣了。2平臺(tái)標(biāo)準(zhǔn)版（J2SETM）1.4版包含一個(gè)名為java.util.regex的新軟件包，使得使用正則表達(dá)式成為可能。目前的功能包括元字符的使用，它賦予正則表達(dá)式極大的靈活性本文概括地介紹了正則表達(dá)式的使用，并詳細(xì)解釋如何利用 java.util.regex軟件包來(lái)使用正則表達(dá)式，用以下常見(jiàn)情形作為
例子：§ 簡(jiǎn)單的單詞替換 § 電子郵件確認(rèn) § 從文件中刪除控制字符 §查找文件
為了編譯這些例子中的代碼和在應(yīng)用程序中使用正則表達(dá)式，需要安裝 J2SE 1.4版。構(gòu)造正則表達(dá)式正則表達(dá)式是一種字符模式，它描述的是一組字符串。你可以使用 java.util.regex軟件包，查找、顯示或修改輸入序列中出現(xiàn)的某個(gè)模式的一部分或全部。正則表達(dá)式最簡(jiǎn)單的形式是一個(gè)精確的字符串，比如“Java”或 “programming”。正則表達(dá)式匹配還允許你檢查一個(gè)字符串是否符合某個(gè)具體的句法形式，比如是不是一個(gè)電子郵件地址。為了編寫(xiě)正則表達(dá)式，普通字符和特殊字符都要使用：\\$ ^ . *
+ ? [\' \']
\\.
正則表達(dá)式中出現(xiàn)的任何其他字符都是普通字符，除非它前面有個(gè) \\。特殊字符有著特別的用處。例如，.可匹配除了換行符之外的任意字符。與 s.n這樣的正則表達(dá)式匹配的是任何三個(gè)字符的、以s 開(kāi)始以n結(jié)束的字符串，包括sun和son 。在正則表達(dá)式中有許多特殊字符，可以查找一行開(kāi)頭的單詞，忽略大小寫(xiě)或大小寫(xiě)敏感的單詞，還有特殊字符可以給出一個(gè)范圍，比如a-e表示從a到e的任何字母。使用這個(gè)新軟件包的正則表達(dá)式用法與Perl類(lèi)似，所以如果你熟悉Perl中正則表達(dá)式的使用，就可以在Java語(yǔ)言中使用同樣的表達(dá)式語(yǔ)法。如果你不熟悉正則表達(dá)式，下面是一些入門(mén)的例子：構(gòu)造匹配于

字符
x 字符 x
\\\\ 反斜線(xiàn)字符
\\0n 八進(jìn)制值的字符0n (0 <= n <= 7)
\\0nn 八進(jìn)制值的字符 0nn (0 <= n <= 7)
\\0mnn 八進(jìn)制值的字符0mnn 0mnn (0 <= m <= 3, 0 <= n <= 7)
\\xhh 十六進(jìn)制值的字符0xhh
\\uhhhh 十六進(jìn)制值的字符0xhhhh
\\t 制表符(\'\\u0009\')
\\n 換行符 (\'\\u000A\')
\\r 回車(chē)符 (\'\\u000D\')
\\f 換頁(yè)符 (\'\\u000C\')
\\a 響鈴符 (\'\\u0007\')
\\e 轉(zhuǎn)義符 (\'\\u001B\')
\\cx T對(duì)應(yīng)于x的控制字符 x

字符類(lèi)
[abc] a, b, or c (簡(jiǎn)單類(lèi))
[^abc] 除了a、b或c之外的任意字符（求反）
[a-zA-Z] a到z或A到Z ，包含（范圍)
[a-z-[bc]] a到z，除了b和c ： [ad-z]（減去）
[a-z-[m-p]] a到z，除了m到 p： [a-lq-z]
[a-z-[^def]] d, e, 或 f

預(yù)定義的字符類(lèi)
. 任意字符（也許能與行終止符匹配，也許不能）
\\d 數(shù)字: [0-9]
\\D 非數(shù)字: [^0-9]
\\s 空格符: [ \\t\\n\\x0B\\f\\r]
\\S 非空格符: [^\\s]
\\w 單詞字符: [a-zA-Z_0-9]
\\W 非單詞字符: [^\\w]
有關(guān)進(jìn)一步的詳情和例子，請(qǐng)參閱 Pattern類(lèi)的文檔。

類(lèi)和方法
下面的類(lèi)根據(jù)正則表達(dá)式指定的模式，與字符序列進(jìn)行匹配。
Pattern類(lèi)
Pattern類(lèi)的實(shí)例表示以字符串形式指定的正則表達(dá)式，其語(yǔ) 法類(lèi)似于Perl所用的語(yǔ)法。
用字符串形式指定的正則表達(dá)式，必須先編譯成Pattern類(lèi)的實(shí)例。生成的模式用于創(chuàng)建Matcher對(duì)象，它根據(jù)正則表達(dá)式與任意字符序列進(jìn)行匹配。多個(gè)匹配器可以共享一個(gè)模式，因?yàn)樗欠菍?zhuān)屬的。
用compile方法把給定的正則表達(dá)式編譯成模式，然后用 matcher方法創(chuàng)建一個(gè)匹配器，這個(gè)匹配器將根據(jù)此模式對(duì)給定輸入進(jìn)行匹配。pattern 方法可返回編譯這個(gè)模式所用的正則表達(dá) 式。
split方法是一種方便的方法，它在與此模式匹配的位置將給定輸入序列切分開(kāi)。下面的例子演示了：
/*
* 用split對(duì)以逗號(hào)和/或空格分隔的輸入字符串進(jìn)行切分。
*/
import java.util.regex.*;

public class Splitter {
public static void main(String[] args) throws Exception {
// Create a pattern to match breaks
Pattern p = Pattern.compile(\"[,\\\\s]+\");
// Split input with the pattern
String[] result =
p.split(\"one,two, three   four ,  five\");
for (int i=0; i<result.length; i++)
System.out.println(result[i]);
}
}
Matcher類(lèi)
Matcher類(lèi)的實(shí)例用于根據(jù)給定的字符串序列模式，對(duì)字符序列進(jìn)行匹配。使用CharSequence接口把輸入提供給匹配器，以便支持來(lái)自多種多樣輸入源的字符的匹配。
通過(guò)調(diào)用某個(gè)模式的matcher方法，從這個(gè)模式生成匹配器。匹配器創(chuàng)建之后，就可以用它來(lái)執(zhí)行三類(lèi)不同的匹配操作：
§ matches方法試圖根據(jù)此模式，對(duì)整個(gè)輸入序列進(jìn)行匹配。
§ lookingAt方法試圖根據(jù)此模式，從開(kāi)始處對(duì)輸入序列進(jìn) 行匹配。
§ find方法將掃描輸入序列，尋找下一個(gè)與模式匹配的地方。
這些方法都會(huì)返回一個(gè)表示成功或失敗的布爾值。如果匹配成功，通過(guò)查詢(xún) 匹配器的狀態(tài)，可以獲得更多的信息
這個(gè)類(lèi)還定義了用新字符串替換匹配序列的方法，這些字符串的內(nèi)容如果需要的話(huà)，可以從匹配結(jié)果推算得出。
appendReplacement方法先添加字符串中從當(dāng)前位置到下一個(gè) 匹配位置之間的所有字符，然后添加替換值。appendTail添加的是字符串中從最后一次匹配的位置之后開(kāi)始，直到結(jié)尾的部分。
例如，在字符串blahcatblahcatblah中，第一個(gè) appendReplacement添加blahdog。第二個(gè) appendReplacement添加blahdog，然后 appendTail添加blah，就生成了： blahdogblahdogblah。請(qǐng)參見(jiàn)示例簡(jiǎn)單的單詞替換。
CharSequence接口
CharSequence接口為許多不同類(lèi)型的字符序列提供了統(tǒng)一的只讀訪(fǎng)問(wèn)。你提供要從不同來(lái)源搜索的數(shù)據(jù)。用String, StringBuffer 和CharBuffer實(shí)現(xiàn)CharSequence,，這樣就可以很容易地從它們那里獲得要搜索的數(shù)據(jù)。如果這些可用數(shù)據(jù)源沒(méi)一個(gè)合適的，你可以通過(guò)實(shí)現(xiàn)CharSequence接口，編寫(xiě)你自己的輸入源。
Regex情景范例
以下代碼范例演示了java.util.regex軟件包在各種常見(jiàn)情形下的用法：
簡(jiǎn)單的單詞替換
/*
* This code writes \"One dog, two dogs in the yard.\"
* to the standard-output stream:
*/
import java.util.regex.*;

public class Replacement {
public static void main(String[] args)
throws Exception {
// Create a pattern to match cat
Pattern p = Pattern.compile(\"cat\");
// Create a matcher with an input string
Matcher m = p.matcher(\"one cat,\" +
   \" two cats in the yard\");
StringBuffer sb = new StringBuffer();
boolean result = m.find();
// Loop through and create a new String
// with the replacements
while(result) {
m.appendReplacement(sb, \"dog\");
result = m.find();
}
// Add the last segment of input to
// the new String
m.appendTail(sb);
System.out.println(sb.toString());
}
}
電子郵件確認(rèn)
以下代碼是這樣一個(gè)例子：你可以檢查一些字符是不是一個(gè)電子郵件地址。它并不是一個(gè)完整的、適用于所有可能情形的電子郵件確認(rèn)程序，但是可以在需要時(shí)加上它。
/*
* Checks for invalid characters
* in email addresses
*/
public class EmailValidation {
public static void main(String[] args)
throws Exception {

String input = \"@sun.com\";
//Checks for email addresses starting with
//inappropriate symbols like dots or @ signs.
Pattern p = Pattern.compile(\"^\\\\.|^\\\\@\");
Matcher m = p.matcher(input);
if (m.find())
System.err.println(\"Email addresses don\'t start\" +
\" with dots or @ signs.\");
//Checks for email addresses that start with
//www. and prints a message if it does.
p = Pattern.compile(\"^www\\\\.\");
m = p.matcher(input);
if (m.find()) {
System.out.println(\"Email addresses don\'t start\" +
\" with \\\"www.\\\", only web pages do.\");
}
p = Pattern.compile(\"[^A-Za-z0-9\\\\.\\\\@_\\\\-~#]+\");
m = p.matcher(input);
StringBuffer sb = new StringBuffer();
boolean result = m.find();
boolean deletedIllegalChars = false;

while(result) {
deletedIllegalChars = true;
m.appendReplacement(sb, \"\");
result = m.find();
}

// Add the last segment of input to the new String
m.appendTail(sb);

input = sb.toString();

if (deletedIllegalChars) {
System.out.println(\"It contained incorrect characters\" +
   \" , such as spaces or commas.\");
}
}
}
從文件中刪除控制字符
/* This class removes control characters from a named
*  file.
*/
import java.util.regex.*;
import java.io.*;

public class Control {
public static void main(String[] args)
throws Exception {

//Create a file object with the file name
//in the argument:
File fin = new File(\"fileName1\");
File fout = new File(\"fileName2\");
//Open and input and output stream
FileInputStream fis =
  new FileInputStream(fin);
FileOutputStream fos =
new FileOutputStream(fout);

BufferedReader in = new BufferedReader(
   new InputStreamReader(fis));
BufferedWriter out = new BufferedWriter(
  new OutputStreamWriter(fos));

// The pattern matches control characters
Pattern p = Pattern.compile(\"{cntrl}\");
Matcher m = p.matcher(\"\");
String aLine = null;
while((aLine = in.readLine()) != null) {
m.reset(aLine);
//Replaces control characters with an empty
//string.
String result = m.replaceAll(\"\");
out.write(result);
out.newLine();
}
in.close();
out.close();
}
}
文件查找
/*
* Prints out the comments found in a .java file.
*/
import java.util.regex.*;
import java.io.*;
import java.nio.*;
import java.nio.charset.*;
import java.nio.channels.*;

public class CharBufferExample {
public static void main(String[] args) throws Exception {
// Create a pattern to match comments
Pattern p =
Pattern.compile(\"http://.*$\", Pattern.MULTILINE);

// Get a Channel for the source file
File f = new File(\"Replacement.java\");
FileInputStream fis = new FileInputStream(f);
FileChannel fc = fis.getChannel();

// Get a CharBuffer from the source file
ByteBuffer bb =
fc.map(FileChannel.MAP_RO, 0, (int)fc.size());
Charset cs = Charset.forName(\"8859_1\");
CharsetDecoder cd = cs.newDecoder();
CharBuffer cb = cd.decode(bb);

// Run some matches
Matcher m = p.matcher(cb);
while (m.find())
System.out.println(\"Found comment: \"+m.group());
}
}
結(jié)論
現(xiàn)在Java編程語(yǔ)言中的模式匹配和許多其他編程語(yǔ)言一樣靈活了。可以在應(yīng) 用程序中使用正則表達(dá)式，確保數(shù)據(jù)在輸入數(shù)據(jù)庫(kù)或發(fā)送給應(yīng)用程序其他部分之前，格式是正確的，正則表達(dá)式還可以用于各種各樣的管理性工作。簡(jiǎn)而言之，在Java編程中，可以在任何需要模式匹配的地方使用正則表達(dá)式。

posted on 2005-12-21 14:04 月&風(fēng) 閱讀(709) 評(píng)論(1) 編輯收藏所屬分類(lèi): ejb

Feedback

# re: java中的正則表達(dá)式 2006-10-11 17:12 余悸

你做的沒(méi)有一個(gè)可以運(yùn)行.同志還是好好學(xué)習(xí)后再來(lái)吹水吧回復(fù) 更多評(píng)論

新用戶(hù)注冊(cè) 刷新評(píng)論列表


只有注冊(cè)用戶(hù)登錄后才能發(fā)表評(píng)論。




網(wǎng)站導(dǎo)航: 博客園 IT新聞 Chat2DB C++博客博問(wèn) 管理

企業(yè)架構(gòu)師

常用鏈接

留言簿(1)

我參與的團(tuán)隊(duì)

隨筆分類(lèi)

隨筆檔案

搜索

最新評(píng)論

Feedback