正則表達式之道

原著：Steve Mansour
sman@scruznet.com
Revised: June 5, 1999
(copied by jm /at/ jmason.org from http://www.scruz.net/%7esman/regexp.htm, after the original disappeared! )

翻譯：Neo Lee
neo.lee@gmail.com
2004年10月16日

英文版原文

譯者按：原文因為年代久遠，文中很多鏈接早已過期（主要是關于vi、sed等工具的介紹和手冊），本譯文中已將此類鏈接刪除，如需檢查這些鏈接可以查看上面鏈接的原文。除此之外基本照原文直譯，括號中有“譯者按”的部分是譯者補充的說明。如有內容方面的問題請直接和Steve Mansor聯系，當然，如果你只寫中文，也可以和我聯系。

什么是正則表達式

一個正則表達式，就是用某種模式去匹配一類字符串的一個公式。很多人因為它們看上去比較古怪而且復雜所以不敢去使用——很不幸，這篇文章也不能夠改變這一點，不過，經過一點點練習之后我就開始覺得這些復雜的表達式其實寫起來還是相當簡單的，而且，一旦你弄懂它們，你就能把數小時辛苦而且易錯的文本處理工作壓縮在幾分鐘（甚至幾秒鐘）內完成。正則表達式被各種文本編輯軟件、類庫（例如Rogue Wave的tools.h++）、腳本工具（像awk/grep/sed）廣泛的支持，而且像Microsoft的Visual C++這種交互式IDE也開始支持它了。

我們將在如下的章節中利用一些例子來解釋正則表達式的用法，絕大部分的例子是基于vi中的文本替換命令和grep文件搜索命令來書寫的，不過它們都是比較典型的例子，其中的概念可以在sed、awk、perl和其他支持正則表達式的編程語言中使用。你可以看看不同工具中的正則表達式這一節，其中有一些在別的工具中使用正則表達式的例子。還有一個關于vi中文本替換命令（s）的簡單說明附在文后供參考。

正則表達式基礎

正則表達式由一些普通字符和一些元字符（metacharacters）組成。普通字符包括大小寫的字母和數字，而元字符則具有特殊的含義，我們下面會給予解釋。

在最簡單的情況下，一個正則表達式看上去就是一個普通的查找串。例如，正則表達式"testing"中沒有包含任何元字符，，它可以匹配"testing"和"123testing"等字符串，但是不能匹配"Testing"。

要想真正的用好正則表達式，正確的理解元字符是最重要的事情。下表列出了所有的元字符和對它們的一個簡短的描述。

*元字符*	?	描述

`.`		匹配任何單個字符。例如正則表達式`r.t`匹配這些字符串：rat、rut、r t，但是不匹配root。?
`$`		匹配行結束符。例如正則表達式`weasel$` 能夠匹配字符串"He's a weasel"的末尾，但是不能匹配字符串"They are a bunch of weasels."。?
^		匹配一行的開始。例如正則表達式`^When in`能夠匹配字符串"When in the course of human events"的開始，但是不能匹配"What and When in the"。
*``**		匹配0或多個正好在它之前的那個字符。例如正則表達式*`.`**意味著能夠匹配任意數量的任何字符。
`\`		這是引用府，用來將這里列出的這些元字符當作普通的字符來進行匹配。例如正則表達式`\$`被用來匹配美元符號，而不是行尾，類似的，正則表達式`\.`用來匹配點字符，而不是任何字符的通配符。
`[ ]?` `[c1-c2]` `[^c1-c2]`		匹配括號中的任何一個字符。例如正則表達式`r[aou]t`匹配rat、rot和rut，但是不匹配ret。可以在括號中使用連字符-來指定字符的區間，例如正則表達式`[0-9]`可以匹配任何數字字符；還可以制定多個區間，例如正則表達式`[A-Za-z]`可以匹配任何大小寫字母。另一個重要的用法是“排除”，要想匹配除了指定區間之外的字符——也就是所謂的補集——在左邊的括號和第一個字符之間使用^字符，例如正則表達式`[^269A-Z]` 將匹配除了2、6、9和所有大寫字母之外的任何字符。
`\< \>`		匹配詞（word）的開始（\<）和結束（\>）。例如正則表達式`\<the`能夠匹配字符串"for the wise"中的"the"，但是不能匹配字符串"otherwise"中的"the"。注意：這個元字符不是所有的軟件都支持的。
``		將 $ 和 $ 之間的表達式定義為“組”（group），并且將匹配這個表達式的字符保存到一個臨時區域（一個正則表達式中最多可以保存9個），它們可以用 `\1` 到`\9` 的符號來引用。
`\|`		將兩個匹配條件進行邏輯“或”（Or）運算。例如正則表達式`(him\|her)` 匹配"it belongs to him"和"it belongs to her"，但是不能匹配"it belongs to them."。注意：這個元字符不是所有的軟件都支持的。
`+`		匹配1或多個正好在它之前的那個字符。例如正則表達式`9+`匹配9、99、999等。注意：這個元字符不是所有的軟件都支持的。
`?`		匹配0或1個正好在它之前的那個字符。注意：這個元字符不是所有的軟件都支持的。
`\{`i`\}` `\{`i`,`j`\}`		匹配指定數目的字符，這些字符是在它之前的表達式定義的。例如正則表達式`A[0-9]\{3\}` 能夠匹配字符"A"后面跟著正好3個數字字符的串，例如A123、A348等，但是不匹配A1234。而正則表達式`[0-9]\{4,6\}` 匹配連續的任意4個、5個或者6個數字字符。注意：這個元字符不是所有的軟件都支持的。

最簡單的元字符是點，它能夠匹配任何單個字符（注意不包括新行符）。假定有個文件test.txt包含以下幾行內容：

he is a rat

he is in a rut

the food is Rotten

I like root beer

我們可以使用grep命令來測試我們的正則表達式，grep命令使用正則表達式去嘗試匹配指定文件的每一行，并將至少有一處匹配表達式的所有行顯示出來。命令

grep r.t test.txt

在test.txt文件中的每一行中搜索正則表達式r.t，并打印輸出匹配的行。正則表達式r.t匹配一個r接著任何一個字符再接著一個t。所以它將匹配文件中的rat和rut，而不能匹配Rotten中的Rot，因為正則表達式是大小寫敏感的。要想同時匹配大寫和小寫字母，應該使用字符區間元字符（方括號）。正則表達式[Rr]能夠同時匹配R和r。所以，要想匹配一個大寫或者小寫的r接著任何一個字符再接著一個t就要使用這個表達式：[Rr].t。

要想匹配行首的字符要使用抑揚字符（^）——又是也被叫做插入符。例如，想找到text.txt中行首"he"打頭的行，你可能會先用簡單表達式he，但是這會匹配第三行的the，所以要使用正則表達式^he，它只匹配在行首出現的h。

有時候指定“除了×××都匹配”會比較容易達到目的，當抑揚字符（^）出現在方括號中是，它表示“排除”，例如要匹配he ，但是排除前面是t or s的情性（也就是the和she），可以使用：[^st]he。

可以使用方括號來指定多個字符區間。例如正則表達式[A-Za-z]匹配任何字母，包括大寫和小寫的；正則表達式[A-Za-z][A-Za-z]* 匹配一個字母后面接著0或者多個字母（大寫或者小寫）。當然我們也可以用元字符+做到同樣的事情，也就是：[A-Za-z]+ ，和[A-Za-z][A-Za-z]*完全等價。但是要注意元字符+ 并不是所有支持正則表達式的程序都支持的。關于這一點可以參考后面的正則表達式語法支持情況。

要指定特定數量的匹配，要使用大括號（注意必須使用反斜杠來轉義）。想匹配所有100和1000的實例而排除10和10000，可以使用：10\{2,3\}，這個正則表達式匹配數字1后面跟著2或者3個0的模式。在這個元字符的使用中一個有用的變化是忽略第二個數字，例如正則表達式0\{3,\} 將匹配至少3個連續的0。

簡單的例子

這里有一些有代表性的、比較簡單的例子。

*vi 命令*	作用

*`:%s/ / /g`**	把一個或者多個空格替換為一個空格。
*`:%s/ $//`**	去掉行尾的所有空格。
`:%s/^/ /`	在每一行頭上加入一個空格。
*`:%s/^[0-9][0-9] //`**	去掉行首的所有數字字符。
`:%s/b[aeio]g/bug/g`	將所有的bag、beg、big和bog改為bug。?
`:%s/t$[aou]$g/h\1t/g`	將所有tag、tog和tug分別改為hat、hot和hug（注意用group的用法和使用\1引用前面被匹配的字符）。

中級的例子（神奇的咒語）

例1

將所有方法foo(a,b,c)的實例改為foo(b,a,c)。這里a、b和c可以是任何提供給方法foo()的參數。也就是說我們要實現這樣的轉換：

之前	?	之后
`foo(10,7,2)`		`foo(7,10,2)`
`foo(x+13,y-2,10)`		`foo(y-2,x+13,10)`
`foo( bar(8), x+y+z, 5)`		`foo( x+y+z, bar(8), 5)`

下面這條替換命令能夠實現這一魔法：

:%s/foo($[^,]*$,$[^,]*$,$[^)]*$)/foo(\2,\1,\3)/g

現在讓我們把它打散來加以分析。寫出這個表達式的基本思路是找出foo()和它的括號中的三個參數的位置。第一個參數是用這個表達式來識別的：：$[^,]*$，我們可以從里向外來分析它：?

`[^,]`	?	除了逗號之外的任何字符
*`[^,]`**		0或者多個非逗號字符
*`$[^,]$`**		將這些非逗號字符標記為`\1`，這樣可以在之后的替換模式表達式中引用它
*`$[^,]$,`**		我們必須找到0或者多個非逗號字符后面跟著一個逗號，并且非逗號字符那部分要標記出來以備后用。

現在正是指出一個使用正則表達式常見錯誤的最佳時機。為什么我們要使用[^,]*這樣的一個表達式，而不是更加簡單直接的寫法，例如：.*，來匹配第一個參數呢？設想我們使用模式.*來匹配字符串"10,7,2"，它應該匹配"10,"還是"10,7,"？為了解決這個兩義性（ambiguity），正則表達式規定一律按照最長的串來，在上面的例子中就是"10,7,"，顯然這樣就找出了兩個參數而不是我們期望的一個。所以，我們要使用[^,]*來強制取出第一個逗號之前的部分。

這個表達式我們已經分析到了：foo($[^,]*$，這一段可以簡單的翻譯為“當你找到foo(就把其后直到第一個逗號之前的部分標記為\1”。然后我們使用同樣的辦法標記第二個參數為\2。對第三個參數的標記方法也是一樣，只是我們要搜索所有的字符直到右括號。我們并沒有必要去搜索第三個參數，因為我們不需要調整它的位置，但是這樣的模式能夠保證我們只去替換那些有三個參數的foo()方法調用，在foo()是一個重載（overoading）方法時這種明確的模式往往是比較保險的。然后，在替換部分，我們找到foo()的對應實例，然后利用標記好的部分進行替換，是的第一和第二個參數交換位置。

例2

假設有一個CSV（comma separated value）文件，里面有一些我們需要的信息，但是格式卻有問題，目前數據的列順序是：姓名，公司名，州名縮寫，郵政編碼，現在我們希望講這些數據重新組織，以便在我們的某個軟件中使用，需要的格式為：姓名，州名縮寫-郵政編碼，公司名。也就是說，我們要調整列順序，還要合并兩個列來構成一個新列。另外，我們的軟件不能接受逗號前后面有任何空格（包括空格和制表符）所以我們還必須要去掉逗號前后的所有空格。

這里有幾行我們現在的數據：

Bill Jones,???? HI-TEK Corporation ,? CA, 95011

Sharon Lee Smith,? Design Works Incorporated,? CA, 95012

B. Amos?? ,? Hill Street Cafe,? CA, 95013

Alexander Weatherworth,? The Crafts Store,? CA, 95014

...

我們希望把它變成這個樣子：

Bill Jones,CA 95011,HI-TEK Corporation

Sharon Lee Smith,CA 95012,Design Works Incorporated

B. Amos,CA 95013,Hill Street Cafe

Alexander Weatherworth,CA 95014,The Crafts Store

...

我們將用兩個正則表達式來解決這個問題。第一個移動列和合并列，第二個用來去掉空格。

下面就是第一個替換命令：

:%s/$[^,]*$,$[^,]*$,$[^,]*$,$.*$/\1,\3 \4,\2/

這里的方法跟例1基本一樣，第一個列（姓名）用這個表達式來匹配：$[^,]*$，即第一個逗號之前的所有字符，而姓名內容被用\1標記下來。公司名和州名縮寫字段用同樣的方法標記為\2和\3，而最后一個字段用$.*$來匹配（"匹配所有字符直到行末"）。替換部分則引用上面標記的那些內容來進行構造。

下面這個替換命令則用來去除空格：

:%s/[ \t]*,[ \t]*/,/g

我們還是分解來看：[ \t]匹配空格/制表符，[ \t]* 匹配0或多個空格/制表符，[ \t]*,匹配0或多個空格/制表符后面再加一個逗號，最后，[ \t]*,[ \t]*匹配0或多個空格/制表符接著一個逗號再接著0或多個空格/制表符。在替換部分，我們簡單的我們找到的所有東西替換成一個逗號。這里我們使用了結尾的可選的g參數，這表示在每行中對所有匹配的串執行替換（而不是缺省的只替換第一個匹配串）。

例3

假設有一個多字符的片斷重復出現，例如：

Billy tried really hard
Sally tried really really hard
Timmy tried really really really hard
Johnny tried really really really really hard

而你想把"really"、"really really"，以及任意數量連續出現的"really"字符串換成一個簡單的"very"（simple is good!），那么以下命令：

:%s/$really $$really $*/very /

就會把上述的文本變成：

Billy tried very hard
Sally tried very hard
Timmy tried very hard
Johnny tried very hard

表達式$really $*匹配0或多個連續的"really "（注意結尾有個空格），而$really $$really $* 匹配1個或多個連續的"really "實例。

困難的例子（不可思議的象形文字）

Coming soon.

不同工具中的正則表達式

OK，你已經準備使用RE（regular expressions，正則表達式），但是你并準備使用vi。所以，在這里我們給出一些在其他工具中使用RE的例子。另外，我還會總結一下你在不同程序之間使用RE可能發現的區別。

當然，你也可以在Visual C++編輯器中使用RE。選擇Edit->Replace，然后選擇"Regular expression"選擇框，Find What輸入框對應上面介紹的vi命令:%s/pat1/pat2/g中的pat1部分，而Replace輸入框對應pat2部分。但是，為了得到vi的執行范圍和g選項，你要使用Replace All或者適當的手工Find Next and Replace（譯者按：知道為啥有人罵微軟弱智了吧，雖然VC中可以選中一個范圍的文本，然后在其中執行替換，但是總之不夠vi那么靈活和典雅）。

sed

Sed是Stream EDitor的縮寫，是Unix下常用的基于文件和管道的編輯工具，可以在手冊中得到關于sed的詳細信息。

這里是一些有趣的sed腳本，假定我們正在處理一個叫做price.txt的文件。注意這些編輯并不會改變源文件，sed只是處理源文件的每一行并把結果顯示在標準輸出中（當然很容易使用重定向來定制）：

*sed腳本*	?	描述

`sed 's/^$/d' price.txt`		刪除所有空行
*`sed 's/^[ \t]$/d' price.txt`**		刪除所有只包含空格或者制表符的行
`sed 's/"http://g' price.txt`		刪除所有引號

awk

awk是一種編程語言，可以用來對文本數據進行復雜的分析和處理。可以在手冊中得到關于awk的詳細信息。這個古怪的名字是它作者們的姓的縮寫（Aho，Weinberger和Kernighan）。

在Aho，Weinberger和Kernighan的書The AWK Programming Language中有很多很好的awk的例子，請不要讓下面這些微不足道的腳本例子限制你對awk強大能力的理解。我們同樣假定我們針對price.txt文件進行處理，跟sed一樣，awk也只是把結果顯示在終端上。?

*awk腳本*	?	描述

`awk '$0 !~ /^$/' price.txt`		刪除所有空行
`awk 'NF > 0' price.txt`		awk中一個更好的刪除所有行的辦法
`awk '$2 ~ /^[JT]/ {print $3}' price.txt`		打印所有第二個字段是'J'或者'T'打頭的行中的第三個字段
`awk '$2 !~ /[Mm]isc/ {print $3 + $4}' price.txt`		針對所有第二個字段不包含'Misc'或者'misc'的行，打印第3和第4列的和（假定為數字）
*`awk '$3 !~ /^[0-9]+\.[0-9]$/ {print $0}' price.txt`**		打印所有第三個字段不是數字的行，這里數字是指`d.d`或者`d這樣的形式，其中d`是0到9的任何數字
`awk '$2 ~ /John\|Fred/ {print $0}' price.txt`		如果第二個字段包含'John'或者'Fred'則打印整行

grep

grep是一個用來在一個或者多個文件或者輸入流中使用RE進行查找的程序。它的name編程語言可以用來針對文件和管道進行處理。可以在手冊中得到關于grep的完整信息。這個同樣古怪的名字來源于vi的一個命令，g/re/p，意思是global regular expression print。

下面的例子中我們假定在文件phone.txt中包含以下的文本，——其格式是姓加一個逗號，然后是名，然后是一個制表符，然后是電話號碼：

Francis, John?????????? 5-3871
Wong, Fred????????????? 4-4123
Jones, Thomas?????????? 1-4122
Salazar, Richard??????? 5-2522

*grep命令*	?	描述

`grep '\t5-...1' phone.txt`		把所有電話號碼以5開頭以1結束的行打印出來，注意制表符是用`\t`表示的
*`grep '^S[^ ] R' phone.txt`**		打印所有姓以S打頭和名以R打頭的行
`grep '^[JW]' phone.txt`		打印所有姓開頭是J或者W的行
`grep ', ....\t' phone.txt`		打印所有姓是4個字符的行，注意制表符是用`\t`表示的
`grep -v '^[JW]' phone.txt`		打印所有不以J或者W開頭的行
`grep '^[M-Z]' phone.txt`		打印所有姓的開頭是M到Z之間任一字符的行
*`grep '^[M-Z].[12]' phone.txt`**		打印所有姓的開頭是M到Z之間任一字符，并且點號號碼結尾是1或者2的行

egrep

egrep是grep的一個擴展版本，它在它的正則表達式中支持更多的元字符。下面的例子中我們假定在文件phone.txt中包含以下的文本，——其格式是姓加一個逗號，然后是名，然后是一個制表符，然后是電話號碼：

Francis, John?????????? 5-3871

Wong, Fred????????????? 4-4123

Jones, Thomas?????????? 1-4122

Salazar, Richard??????? 5-2522

*egrep command*	?	*Description*

`egrep '(John\|Fred)' phone.txt`		打印所有包含名字John或者Fred的行
`egrep 'John\|22$\|^W' phone.txt`		打印所有包含John 或者以22結束或者以W的行
`egrep 'net(work)?s' report.txt`		從report.txt中找到所有包含networks或者nets的行

正則表達式語法支持情況

命令或環境	`.`	`[ ]`	`^`	`$`	``	`\{ \}`	`?`	`+`	`\|`	`( )`
vi	?X?	?X?	?X?	?X?	?X?	?	?	?	?	?
Visual C++	?X?	?X?	?X?	?X?	?X?	?	?	?	?	?
awk	?X?	?X?	?X?	?X?	?	?	?X?	?X?	?X?	?X?
sed	?X?	?X?	?X?	?X?	?X?	?X?	?	?	?	?
Tcl	?X?	?X?	?X?	?X?	?X?	?	?X?	?X?	?X?	?X?
ex	?X?	?X?	?X?	?X?	?X?	?X?	?	?	?	?
grep	?X?	?X?	?X?	?X?	?X?	?X?	?	?	?	?
egrep	?X?	?X	?X?	?X?	?X?	?	?X?	?X?	?X?	?X?
fgrep	?X?	?X?	?X?	?X?	?X?	?	?	?	?	?
perl	?X	?X	?X	?X	?X	?	?X	?X	?X	?X

vi替換命令簡介

Vi的替換命令：

:

range

s/

pat1

/

pat2

/g

其中

:

range

10,20

.,$

.+2,$-5

s 表示其后是一個替換命令。

pat1 這是要查找的一個正則表達式，這篇文章中有一大堆例子。

pat2

g 可選標志，帶這個標志表示替換將針對行中每個匹配的串進行，否則則只替換行中第一個匹配串。

網上有很多vi的在線手冊，你可以訪問他們以獲得更加完整的信息。

|----------------------------------------------------------------------------------------|
版權聲明版權所有 @zhyiwww
引用請注明來源 http://www.tkk7.com/zhyiwww
|----------------------------------------------------------------------------------------|

posted on 2006-06-20 10:52 zhyiwww 閱讀(390) 評論(0) 編輯收藏所屬分類: 數據結構和算法

常用鏈接

留言簿(33)

隨筆分類(626)

朋友的博客

最新隨筆

搜索

積分與排名

最新評論

閱讀排行榜

評論排行榜

正則表達式之道

目錄

什么是正則表達式

正則表達式基礎

簡單的例子

中級的例子（神奇的咒語）

例1

例2

例3

困難的例子（不可思議的象形文字）

不同工具中的正則表達式

sed

awk

grep

egrep

正則表達式語法支持情況

vi替換命令簡介


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關文章: 三個數能組成三角形的充分必要條件 B樹算法(轉載) 經典正則表達式(轉載) A Tao of Regular Expressions(轉載) 正則表達式之道(轉載）

常用鏈接

留言簿(33)

隨筆分類(626)

朋友的博客

最新隨筆

搜索

積分與排名

最新評論

閱讀排行榜

評論排行榜

正則表達式之道

目 錄

什么是正則表達式

正則表達式基礎

簡單的例子

中級的例子（神奇的咒語）

例1

例2

例3

困難的例子（不可思議的象形文字）

不同工具中的正則表達式

sed

awk

grep

egrep

正則表達式語法支持情況

vi替換命令簡介

目錄