1.什么是awk? 你可能對UNIX比較熟悉,但你可能對awk很陌生,這一點也不奇怪,的確,與其優秀的功能相比,awk還遠沒達到它應有的知名度。awk是什么?與其它大多數UNIX命令不同的是,從名字上看,我們不可能知道awk的功能:它既不是具有獨立意義的英文單詞,也不是幾個相關單詞的縮寫。事實上,awk是三個人名的縮寫,他們是:Aho、(Peter) Weinberg和(Brain)Kernighan。正是這三個人創造了awk---一個優秀的樣式掃描與處理工具。 AWK的功能是什么?與sed和grep很相似,awk是一種樣式掃描與處理工具。但其功能卻大大強于sed和grep。awk提供了極其強大的功能:它幾乎可以完成 grep和sed所能完成的全部工作,同時,它還可以可以進行樣式裝入、流控制、數學運算符、進程控制語句甚至于內置的變量和函數。它具備了一個完整的語言所應具有的幾乎所有精美特性。實際上,awk的確擁有自己的語言:awk程序設計語言,awk的三位創建者已將它正式定義為:樣式掃描和處理語言。 2.為什么使用awk? 即使如此,你也許仍然會問,我為什么要使用awk? 使用awk的第一個理由是基于文本的樣式掃描和處理是我們經常做的工作,awk所做的工作有些象數據庫,但與數據庫不同的是,它處理的是文本文件,這些文件沒有專門的存儲格式,普通的人們就能編輯、閱讀、理解和處理它們。而數據庫文件往往具有特殊的存儲格式,這使得它們必須用數據庫處理程序來處理它們。既然這種類似于數據庫的處理工作我們經常會遇到,我們就應當找到處理它們的簡便易行的方法,UNIX有很多這方面的工具,例如sed 、grep、sort以及find等等,awk是其中十分優秀的一種。 使用awk的第二個理由是awk是一個簡單的工具,當然這是相對于其強大的功能來說的。的確,UNIX有許多優秀的工具,例如UNIX天然的開發工具C語言及其延續C++就非常的優秀。但相對于它們來說,awk完成同樣的功能要方便和簡捷得多。這首先是因為awk提供了適應多種需要的解決方案:從解決簡單問題的awk命令行到復雜而精巧的awk程序設計語言,這樣做的好處是,你可以不必用復雜的方法去解決本來很簡單的問題。例如,你可以用一個命令行解決簡單的問題,而C不行,即使一個再簡單的程序,C語言也必須經過編寫、編譯的全過程。其次,awk本身是解釋執行的,這就使得awk程序不必經過編譯的過程,同時,這也使得它與shell .程序能夠很好的契合。最后,awk本身較C語言簡單,雖然awk吸收了C語言很多優秀的成分,熟悉C語言會對學習awk有很大的幫助,但 awk本身不須要會使用C語言——一種功能強大但需要大量時間學習才能掌握其技巧的開發工具。 使用awk的第三個理由是awk是一個容易獲得的工具。與C和C++語言不同,awk只有一個文件(/bin/awk),而且幾乎每個版本的UNIX都提供各自版本的awk,你完全不必費心去想如何獲得awk。但C語言卻不是這樣,雖然C語言是UNIX天然的開發工具,但這個開發工具卻是單獨發行的,換言之,你必須為你的UNIX版本的C語言開發工具單獨付費(當然使用D版者除外),獲得并安裝它,然后你才可以使用它。 基于以上理由,再加上awk強大的功能,我們有理由說,如果你要處理與文本樣式掃描相關的工作,awk應該是你的第一選擇。在這里有一個可遵循的一般原則:如果你用普通的shell工具或shell .有困難的話,試試awk,如果awk仍不能解決問題,則便用C語言,如果C語言仍然失敗,則移至C++。 3.awk的調用方式 前面曾經說過,awk提供了適應多種需要的不同解決方案,它們是: 一、 awk命令行,你可以象使用普通UNIX命令一樣使用awk,在命令行中你也可以使用awk程序設計語言,雖然awk支持多行的錄入,但是錄入長長的命令行并保證其正確無誤卻是一件令人頭疼的事,因此,這種方法一般只用于解決簡單的問題。當然,你也可以在shell .程序中引用awk命令行甚至awk程序腳本。 二、使用-f選項調用awk程序。awk允許將一段awk程序寫入一個文本文件,然后在awk命令行中用-f選項調用并執行這段程序。具體的方法我們將在后面的awk語法中講到。 三、利用命令解釋器調用awk程序:利用UNIX支持的命令解釋器功能,我們可以將一段awk程序寫入文本文件,然后在它的第一行加上: #!/bin/awk -f 并賦予這個文本文件以執行的權限。這樣做之后,你就可以在命令行中用類似于下面這樣的方式調用并執行這段awk程序了。 awk腳本文本名 待處理文件 4.awk的語法: 與其它UNIX命令一樣,awk擁有自己的語法: awk [ -F re] [parameter...] ['prog'] [-f progfile][in_file...] 參數說明: -F re:允許awk更改其字段分隔符。 parameter: 該參數幫助為不同的變量賦值。 'prog': awk的程序語句段。這個語句段必須用單拓號:'和'括起,以防被shell解釋。這個程序語句段的標準形式為: 'pattern {action}' 其中pattern參數可以是egrep正則表達式中的任何一個,它可以使用語法/re/再加上一些樣式匹配技巧構成。與sed類似,你也可以使用","分開兩樣式以選擇某個范圍。關于匹配的細節,你可以參考附錄,如果仍不懂的話,找本UNIX書學學grep和sed(本人是在學習ed時掌握匹配技術的)。 action參數總是被大括號包圍,它由一系統awk語句組成,各語句之間用";"分隔。awk解釋它們,并在pattern給定的樣式匹配的記錄上執行其操作。與shell類似,你也可以使用“#”作為注釋符,它使“#”到行尾的內容成為注釋,在解釋執行時,它們將被忽略。你可以省略pattern和 action之一,但不能兩者同時省略,當省略pattern時沒有樣式匹配,表示對所有行(記錄)均執行操作,省略action時執行缺省的操作——在標準輸出上顯示。 -f progfile:允許awk調用并執行progfile指定有程序文件。progfile是一個文本文件,他必須符合awk的語法。 in_file:awk的輸入文件,awk允許對多個輸入文件進行處理。值得注意的是awk不修改輸入文件。如果未指定輸入文件,awk將接受標準輸入,并將結果顯示在標準輸出上。awk支持輸入輸出重定向。 5.awk的記錄、字段與內置變量: 前面說過,awk處理的工作與數據庫的處理方式有相同之處,其相同處之一就是awk支持對記錄和字段的處理,其中對字段的處理是grep和sed不能實現的,這也是awk優于二者的原因之一。在awk中,缺省的情況下總是將文本文件中的一行視為一個記錄,而將一行中的某一部分作為記錄中的一個字段。為了操作這些不同的字段,awk借用shell的方法,用1,2,3...這樣的方式來順序地表示行(記錄)中的不同字段。特殊地,awk用0表示整個行(記錄)。不同的字段之間是用稱作分隔符的字符分隔開的。系統默認的分隔符是空格。awk允許在命令行中用-F re的形式來改變這個分隔符。事實上,awk用一個內置的變量FS來記憶這個分隔符。awk中有好幾個這樣的內置變量,例如,記錄分隔符變量RS、當前工作的記錄數NR等等,本文后面的附表列出了全部的內置變量。這些內置的變量可以在awk程序中引用或修改,例如,你可以利用NR變量在模式匹配中指定工作范圍,也可以通過修改記錄分隔符RS讓一個特殊字符而不是換行符作為記錄的分隔符。 例:顯示文本文件myfile中第七行到第十五行中以字符%分隔的第一字段,第三字段和第七字段: awk -F % 'NR==7,NR==15 {printf 1 3 7}' 6.awk的內置函數 awk 之所以成為一種優秀的程序設計語言的原因之一是它吸收了某些優秀的程序設計語言(例如C)語言的許多優點。這些優點之一就是內置函數的使用,awk定義并支持了一系列的內置函數,由于這些函數的使用,使得awk提供的功能更為完善和強大,例如,awk使用了一系列的字符串處理內置函數(這些函數看起來與C 語言的字符串處理函數相似,其使用方式與C語言中的函數也相差無幾),正是由于這些內置函數的使用,使awk處理字符串的功能更加強大。本文后面的附錄中列有一般的awk所提供的內置函數,這些內置函數也許與你的awk版本有些出入,因此,在使用之前,最好參考一下你的系統中的聯機幫助。 作為內置函數的一個例子,我們將在這里介紹awk的printf函數,這個函數使得awk與c語言的輸出相一致。實際上,awk中有許多引用形式都是從C語言借用過來的。如果你熟悉C語言,你也許會記得其中的printf函數,它提供的強大格式輸出功能曾經帶我們許多的方便。幸運的是,我們在awk中又和它重逢了。awk中printf幾乎與C語言中一模一樣,如果你熟悉C語言的話,你完全可以照C語言的模式使用awk中的printf。因此在這里,我們只給出一個例子,如果你不熟悉的話,請隨便找一本C語言的入門書翻翻。 例:顯示文件myfile中的行號和第3字段: awk '{printf"%03d%s\n",NR,1}' myfile 7.在命令行使用awk 按照順序,我們應當講解awk程序設計的內容了,但在講解之前,我們將用一些例子來對前面的知識進行回顧,這些例子都是在命令行中使用的,由此我們可以知道在命令行中使用awk是多么的方便。這樣做的原因一方面是為下面的內容作鋪墊,另一方面是介紹一些解決簡單問題的方法,我們完全沒有必要用復雜的方法來解決簡單的問題----既然awk提供了較為簡單的方法的話。 例:顯示文本文件mydoc匹配(含有)字符串"sun"的所有行。 awk '/sun/{print}' mydoc 由于顯示整個記錄(全行)是awk的缺省動作,因此可以省略action項。 awk '/sun/' mydoc 例:下面是一個較為復雜的匹配的示例: awk '/[Ss]un/,/[Mm]oon/ {print}' myfile 它將顯示第一個匹配Sun或sun的行與第一個匹配Moon或moon的行之間的行,并顯示到標準輸出上。 例:下面的示例顯示了內置變量和內置函數length()的使用: awk 'length(0)>80 {print NR}' myfile 該命令行將顯示文本myfile中所有超過80個字符的行號,在這里,用0表示整個記錄(行),同時,內置變量NR不使用標志符''。 例:作為一個較為實際的例子,我們假設要對UNIX中的用戶進行安全性檢查,方法是考察/etc下的passwd文件,檢查其中的passwd字段(第二字段)是否為"*",如不為"*",則表示該用戶沒有設置密碼,顯示出這些用戶名(第一字段)。我們可以用如下語句實現: #awk -F: '2=="" {printf("%s no password!\n",1' /etc/passwd 在這個示例中,passwd文件的字段分隔符是“:”,因此,必須用-F:來更改默認的字段分隔符,這個示例中也涉及到了內置函數printf的使用。 8.awk的變量 如同其它程序設計語言一樣,awk允許在程序語言中設置變量,事實上,提供變量的功能是程序設計語言的其本要求,不提供變量的程序設計語言本人還從未見過。 awk 提供兩種變量,一種是awk內置的變量,這前面我們已經講過,需要著重指出的是,與后面提到的其它變量不同的是,在awk程序中引用內置變量不需要使用標志符""(回憶一下前面講過的NR的使用)。awk提供的另一種變量是自定義變量。awk允許用戶在awk程序語句中定義并調用自已的變量。當然這種變量不能與內置變量及其它awk保留字相同,在awk中引用自定義變量必須在它前面加上標志符""。與C語言不同的是,awk中不需要對變量進行初始化, awk根據其在awk中第一次出現的形式和上下文確定其具體的數據類型。當變量類型不確定時,awk默認其為字符串類型。這里有一個技巧:如果你要讓你的 awk程序知道你所使用的變量的明確類型,你應當在在程序中給它賦初值。在后面的實例中,我們將用到這一技巧。 運算與判斷: 作為一種程序設計語言所應具有的特點之一,awk支持多種運算,這些運算與C語言提供的幾本相同:如+、-、*、/、%等等,同時,awk也支持C語言中類似++、--、+=、-=、=+、=-之類的功能,這給熟悉C語言的使用者編寫awk程序帶來了極大的方便。作為對運算功能的一種擴展,awk還提供了一系列內置的運算函數(如log、sqr、cos、sin等等)和一些用于對字符串進行操作(運算)的函數(如length、substr等等)。這些函數的引用大大的提高了awk的運算功能。 作為對條件轉移指令的一部分,關系判斷是每種程序設計語言都具備的功能,awk也不例外。awk 中允許進行多種測試,如常用的==(等于)、!=(不等于)、>(大于)、<(小于)、>=(大于等于)、>=(小于等于)等等,同時,作為樣式匹配,還提供了~(匹配于)和!~(不匹配于)判斷。 作為對測試的一種擴充,awk也支持用邏輯運算符:!(非)、&&(與)、||(或)和括號()進行多重判斷,這大大增強了awk的功能。本文的附錄中列出了awk所允許的運算、判斷以及操作符的優先級。 9.awk的流程控制 流程控制語句是任何程序設計語言都不能缺少的部分。任何好的語言都有一些執行流程控制的語句。awk提供的完備的流程控制語句類似于C語言,這給我們編程帶來了極大的方便。 1、BEGIN和END: 在awk 中兩個特別的表達式,BEGIN和END,這兩者都可用于pattern中(參考前面的awk語法),提供BEGIN和END的作用是給程序賦予初始狀態和在程序結束之后執行一些掃尾的工作。任何在BEGIN之后列出的操作(在{}內)將在awk開始掃描輸入之前執行,而END之后列出的操作將在掃描完全部的輸入之后執行。因此,通常使用BEGIN來顯示變量和預置(初始化)變量,使用END來輸出最終結果。 例:累計銷售文件xs中的銷售金額(假設銷售金額在記錄的第三字段): awk >'BEGIN { FS=":";print "統計銷售金額";total=0} >{print 3;total=total+3;} >END {printf "銷售金額總計:%.2f",total}' sx (注:>是shell提供的第二提示符,如要在shell程序awk語句和awk語言中換行,則需在行尾加反斜杠\) 在這里,BEGIN預置了內部變量FS(字段分隔符)和自定義變量total,同時在掃描之前顯示出輸出行頭。而END則在掃描完成后打印出總合計。 2、流程控制語句 awk提供了完備的流程控制語句,其用法與C語言類似。下面我們一一加以說明: 2.1、if...else語句: 格式: if(表達式) 語句1 else 語句2 格式中"語句1"可以是多個語句,如果你為了方便awk判斷也方便你自已閱讀,你最好將多個語句用{}括起來。awk分枝結構允許嵌套,其格式為: if(表達式1) {if(表達式2) 語句1 else 語句2 } 語句3 else {if(表達式3) 語句4 else 語句5 } 語句6 當然實際操作過程中你可能不會用到如此復雜的分枝結構,這里只是為了給出其樣式罷了。 2.2、while語句 格式為: while(表達式) 語句 2.3、do-while語句 格式為: do { 語句 }while(條件判斷語句) 2.4、for語句 格式為: for(初始表達式;終止條件;步長表達式) {語句} 在awk 的 while、do-while和for語句中允許使用break,continue語句來控制流程走向,也允許使用exit這樣的語句來退出。break 中斷當前正在執行的循環并跳到循環外執行下一條語句。continue從當前位置跳到循環開始處執行。對于exit的執行有兩種情況:當exit語句不在 END中時,任何操作中的exit命令表現得如同到了文件尾,所有模式或操作執行將停止,END模式中的操作被執行。而出現在END中的exit將導致程序終止。 例:為了 awk中的自定義函數 定義和調用用戶自己的函數是幾乎每個高級語言都具有的功能,awk也不例外,但原始的awk并不提供函數功能,只有在nawk或較新的awk版本中才可以增加函數。 函數的使用包含兩部分:函數的定義與函數調用。其中函數定義又包括要執行的代碼(函數本身)和從主程序代碼傳遞到該函數的臨時調用。 awk函數的定義方法如下: function 函數名(參數表){ 函數體 } 在gawk中允許將function省略為func,但其它版本的awk不允許。函數名必須是一個合法的標志符,參數表中可以不提供參數(但在調用函數時函數名后的一對括號仍然是不可缺少的),也可以提供一個或多個參數。與C語言相似,awk的參數也是通過值來傳遞的。 在awk 中調用函數比較簡單,其方法與C語言相似,但awk比C語言更為靈活,它不執行參數有效性檢查。換句話說,在你調用函數時,可以列出比函數預計(函數定義中規定)的多或少的參數,多余的參數會被awk所忽略,而不足的參數,awk將它們置為缺省值0或空字符串,具體置為何值,將取決于參數的使用方式。 awk函數有兩種返回方式:隱式返回和顯式返回。當awk執行到函數的結尾時,它自動地返回到調用程序,這是函數是隱式返回的。如果需要在結束之前退出函數,可以明確地使用返回語句提前退出。方法是在函數中使用形如:return 返回值 格式的語句。 例:下面的例子演示了函數的使用。在這個示例中,定義了一個名為print_header的函數,該函數調用了兩個參數FileName和PageNum, FileName參數傳給函數當前使用的文件名,PageNum參數是當前頁的頁號。這個函數的功能是打印(顯示)出當前文件的文件名,和當前頁的頁號。完成這個功能后,這個函數將返回下一頁的頁號。 nawk >'BEGIN{pageno=1;file=FILENAME >pageno=print_header(file,pageno);#調用函數print_header >printf("當前頁頁號是:%d\n",pageno); >} >#定義函數print_header >function print_header(FileName,PageNum){ >printf("%s %d\n",FileName,PageNum); >PageNum++;return PageNUm; >} >}' myfile 執行這個程序將顯示如下內容: myfile 1 當前頁頁號是:2 awk高級輸入輸出 1.讀取下一條記錄: awk的next語句導致awk讀取下一個記錄并完成模式匹配,然后立即執行相應的操作。通常它用匹配的模式執行操作中的代碼。next導致這個記錄的任何額外匹配模式被忽略。 2.簡單地讀取一條記錄 awk 的 getline語句用于簡單地讀取一條記錄。如果用戶有一個數據記錄類似兩個物理記錄,那么getline將尤其有用。它完成一般字段的分離(設置字段變量0 FNR NF NR)。如果成功則返回1,失敗則返回0(到達文件尾)。如果需簡單地讀取一個文件,則可以編寫以下代碼: 例:示例getline的使用 {while(getline==1) { #process the inputted fields } } 也可以使getline保存輸入數據在一個字段中,而不是通過使用getline variable的形式處理一般字段。當使用這種方式時,NF被置成0,FNR和NR被增值。 用戶也可以使用getline<"filename"方式從一個給定的文件中輸入數據,而不是從命令行所列內容輸入數據。此時,getline將完成一般字段分離(設置字段變量0和NF)。如果文件不存在,返回-1,成功,返回1,返回0表示失敗。用戶可以從給定文件中讀取數據到一個變量中,也可以用stdin(標準輸入設備)或一個包含這個文件名的變量代替filename。值得注意的是當使用這種方式時不修改FNR和NR。 另一種使用getline語句的方法是從UNIX命令接受輸入,例如下面的例子: 例:示例從UNIX命令接受輸入 {while("who -u"|getline) { #process each line from the who command } } 當然,也可以使用如下形式: "command" | getline variable 3.關閉文件: awk中允許在程序中關閉一個輸入或輸出文件,方法是使用awk的close語句。 close("filename"
filename可以是getline打開的文件(也可以是stdin,包含文件名的變量或者getline使用的確切命令)。或一個輸出文件(可以是stdout,包含文件名的變量或使用管道的確切命令)。 4.輸出到一個文件: awk中允許用如下方式將結果輸出到一個文件: printf("hello word!\n"
>"datafile" 或 printf("hello word!\n"
>>"datafile" 5.輸出到一個命令 awk中允許用如下方式將結果輸出到一個命令: printf("hello word!\n"
|"sort-t','" awk與shell .混合編程 因為awk可以作為一個shell命令使用,因此awk能與shell批處理程序很好的融合在一起,這給實現awk與shell程序的混合編程提供了可能。實現混合編程的關鍵是awk與shell .之間的對話,換言之,就是awk與shell .之間的信息交流:awk從shell .中獲取所需的信息(通常是變量的值)、在awk中執行shell命令行、shell .將命令執行的結果送給awk處理以及shell scri
posted on 2012-04-10 15:58
kxbin 閱讀(222)
評論(0) 編輯 收藏 所屬分類:
轉發 、
Linux