我的畢設(shè)題目是“基于able的互聯(lián)網(wǎng)分布式主題搜索技術(shù)研究”,重點(diǎn)研究了搜索引擎的兩個(gè)重要組成部分:網(wǎng)絡(luò)信息的搜索和網(wǎng)頁(yè)信息的抽取。所要設(shè)計(jì)實(shí)現(xiàn)的專利信息采集抽取系統(tǒng)可以讓我們及時(shí)地了解某類專利在一定時(shí)期的發(fā)展?fàn)顩r,它是一個(gè)主題搜索引擎系統(tǒng),包括專利網(wǎng)頁(yè)抓取和專利信息抽取兩個(gè)子系統(tǒng)。在專利網(wǎng)頁(yè)抓取子系統(tǒng)中,利用網(wǎng)絡(luò)爬行器,使用JSP腳本語(yǔ)言實(shí)現(xiàn)了原型系統(tǒng)的后端,即專利數(shù)據(jù)庫(kù)的選擇、查詢結(jié)果的返回以及網(wǎng)頁(yè)源文件的自動(dòng)下載。在專利信息抽取子系統(tǒng)中,通過XML處理器和JTidy工具生成DOM樹,利用XSLT樣式表和XPath語(yǔ)句將下載到本地的HTML源文件轉(zhuǎn)換成XML文件,從中進(jìn)行專利信息的提取,然后通過Oracle JDBC驅(qū)動(dòng)進(jìn)行入庫(kù)操作,最后利用IBM的able分布式軟件平臺(tái)將各種算法封裝成Agent,以供將來的分布式運(yùn)行。只要對(duì)信息源進(jìn)行足夠的分析工作,此系統(tǒng)可以應(yīng)用在其它一些行業(yè)領(lǐng)域中,如股票價(jià)格查詢、新聞信息搜索等等。我的系統(tǒng)還有許多不成熟的地方,歡迎有這方面經(jīng)驗(yàn)的人與我一起探討共勉!
qq:173635235
msn:bisal1130@yahoo.com.cn
emails:bill1130@gmail.com & bill15@tom.com