設(shè)置BCB6 Project屬性的Lib Path和Include Path為你安裝boost的目錄,運(yùn)行你會看到結(jié)果:
index.html
可以看到index.html已經(jīng)從字符串中提出出來了,那么為什么會是這樣呢?
代碼的核心部分是:
regex expression("\\s+href\\s*=\\s*\"([^\"]*)\"",regbase::normal|regbase::icase);
它用來設(shè)置如何匹配字符串,上面亂七八糟的字符串很難看懂,如果不了解正則表達(dá)式的書寫規(guī)則,上
面代碼可以和天書媲美。
regbase::normal|regbase::icase 是解析參數(shù)設(shè)置,具體可以參考boost幫助文檔。
正則表達(dá)式的書寫規(guī)則
具體的書寫規(guī)則,大家可以參看boost的文檔,我這里做一下簡要說明:
. (dot)
用來匹配任何一個(gè)字符,但不包括新行上的字符
*
閉包,任意有限次的自重復(fù)連接
+
有限次自重復(fù)連接,但至少出現(xiàn)一次
{}
指定可能的重復(fù)次數(shù)
例如:
ba* 匹配 b ba baa baaa等
ba+ 匹配 ba baa baaaaaaaaa等
ba{1,5} 匹配 ba baa baaa baaaa baaaaa
\
轉(zhuǎn)義字符,有很多用途,根據(jù)參數(shù)設(shè)置而變化,最常見的就是類似于c語言\的用法
\s
匹配空格
\w
匹配一個(gè)單詞
\d
匹配數(shù)字
()
有兩種用法:
1是合并的作用,例如(ab)*匹配ab abab ababab等
2是確定匹配,也就是說在()中的字符將被最終拆解出來
根據(jù)上面這張表,我們可以很容易知道前面的那段天書如何解釋。
一個(gè)實(shí)際的例子
前一段時(shí)間在CSDN上有一篇帖子,問題是有一種文件結(jié)構(gòu)如(類似):
@People{
Age=19
Speek=”Hay,{name},how are you”
}
問如何拆分字符串得到@后面的名字,=兩邊的屬性名和屬性值,引號里{}種的名字。
解決這個(gè)問題用正則表達(dá)式再合適不過了。
根據(jù)分析,我們可以這樣構(gòu)造匹配規(guī)則:
"@(.*?)\s*\\{" 匹配@開始的字符創(chuàng),后面兩種類型如何構(gòu)造匹配規(guī)則留給大家思考吧。
這樣我們可以輕易拆解這個(gè)例子。
性能分析
通過上面的討論,大家已經(jīng)了解到boost的強(qiáng)大威力,那個(gè)性能又如何呢?為此我們再實(shí)際來拆分一個(gè)
復(fù)雜的html代碼,看看到底需要花費(fèi)多少時(shí)間。
為了節(jié)省篇幅,這里就不列出html代碼了,不過可以告訴大家,這是一個(gè)又Word生成的大小為186K
的html文件,這個(gè)文件中用到了很多<table>標(biāo)簽,所以我這里測試就來拆分所有<table>標(biāo)簽的
width屬性。測試代碼如下:
#include<deque>
#include<iostream>
#include<algorithm>
#include<boost/regex.hpp>
#include<vcl.h>
int main()
{
using namespace boost;
using namespace std;
TStringList* html=new TStringList();
html->LoadFromFile("D:\\1.htm");
regex expression("\\s+width=([^\"]*)\s+",regbase::normal|regbase::icase);
DWORD start=GetTickCount();
for(int n=0;n<html->Count;n++)
{
string s=html->Strings[n].c_str();
deque<string> result;
regex_split(std::back_inserter(result),s,expression);
copy(result.begin(),result.end(),ostream_iterator<string>(cout,"\n"));
result.clear();
}
start=GetTickCount()-start;
delete html;
cout<<start;
int c;
cin>>c;
return 0;
}
輸出結(jié)果為671毫秒,拆分得到1072個(gè)width屬性值,我們可以看到boost的效率是非常高的,雖然與一些角本語言比起來解析速度還是慢,但已經(jīng)可以滿足大多數(shù)編程要求了。另外作者的計(jì)算機(jī)配置并不是非常高,相信拿到現(xiàn)在任何一臺主流配置的計(jì)算機(jī)上都會優(yōu)于作者的結(jié)果。
結(jié)束語
其實(shí)上面的強(qiáng)大威力只是boost的冰山一角,如果你不自己去體會,你很難想象到boost的強(qiáng)大威力。在boost里還有很多使用的庫,比如格式化輸出,字符串拆解,類型轉(zhuǎn)換等,這些庫使用起來也比較方便,大家可以自行參考boost文檔。在這些庫中還有兩個(gè)庫需要自行編譯,他們是Python和thread庫,而且這些庫的編譯需要專門的工具Jam,所以我們在編譯這些庫的時(shí)候還要編譯jam工具,而編譯jam工具也不是一件快樂的事情,麻煩同樣出現(xiàn)在如果你安裝了多個(gè)編譯器,如果讀者有興趣可以自己試一下。
不過BCB6并不支持全部boost庫,從boost提供的編譯器支持表可以看到[2],BCB6還是有相當(dāng)多的庫不支持的,支持最好的是gcc/g++的編譯器,但也不是全部支持。希望borland下一個(gè)將要發(fā)布的C++編譯器可以支持更多C++標(biāo)準(zhǔn)。
[1] 其實(shí)還有其他類型的包,但在windows系統(tǒng)下,你最好下載zip包
[2] Boost提供的編譯器支持表是針對BCB5的,對于BCB6的支持作者并沒有詳細(xì)測試,如果讀者有興趣可以自己測試boost附帶的測試代碼。