根據(jù)中國互聯(lián)網(wǎng)信息中心2003年1月發(fā)布的《中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報告》,
用戶經(jīng)常使用的網(wǎng)絡(luò)服務(wù)中搜索引擎占68.3%,用戶得知新網(wǎng)站的主要途徑中搜索引擎占84.6[1]%。
搜索引擎現(xiàn)在已成為用戶利用因特網(wǎng)信息資源所不可缺少的工具。但是搜索引擎現(xiàn)在的性能還不能令人滿意,性能亟待優(yōu)化。本文就將探討如何利用自動分類來對搜索引擎的性能進行優(yōu)化。
?
1
自動分類的種類和作用
1.1
自動分類的種類
自動分類就是用計算機系統(tǒng)代替人工對文獻等對象進行分類,一般包括自動聚類和自動歸類。自動聚類指的是由計算機系統(tǒng)按照被考察對象的內(nèi)部或者外部特征,按照一定的要求(如類別的數(shù)量限制,同類對象的親近程度等等),將相近、相似或者相同特征的對象聚合在一起的過程。自動歸類是指計算機系統(tǒng)按照一定的分類標準或者分類參考,將被考察對象劃歸到不同類目的過程。[2]
自動聚類和自動歸類的主要區(qū)別就是自動聚類不需要事先定義好分類體系,而自動歸類則需要確定好類別體系,并且要為每個類別提供一批預先分好的對象作為訓練文集,分類系統(tǒng)先通過訓練文集學習分類知識,在實際分類時,再根據(jù)學習到的分類知識為需要分類的文獻確定一個或者多個類別。本文中所指的自動分類是指對網(wǎng)頁的自動分類,包括網(wǎng)頁的自動歸類和自動聚類。
1.2
自動分類的作用
目前搜索引擎提供兩種信息查詢方式:分類瀏覽和關(guān)鍵詞檢索。分類瀏覽一般是基于網(wǎng)站分類目錄。它瀏覽的對象是網(wǎng)站,目錄分類的質(zhì)量較高,檢索效果好;但是成本高、信息更新慢、維護的工作量大。關(guān)鍵詞檢索的對象不是網(wǎng)站,而是符合條件的網(wǎng)頁。關(guān)鍵詞檢索信息量大、更新及時、不需要人工干預;但是返回信息過多,質(zhì)量太低。
目前,很少搜索引擎提供對網(wǎng)頁的分類瀏覽或檢索,其原因之一是由人工進行網(wǎng)頁的分類幾乎是不可能的。如果能夠?qū)嵤┚W(wǎng)頁的自動分分類,就可以實現(xiàn)網(wǎng)頁標引和檢索的分類主題一體化,搜索引擎就能夠兼有分類瀏覽、檢索和關(guān)鍵詞檢索的優(yōu)點,同時具備族性檢索和特性檢索的功能;能夠深入到網(wǎng)頁層次,幫助用戶迅速的判斷返回的結(jié)果是否符合自己的檢索要求。例如在關(guān)鍵詞檢索中用熊貓作為檢索詞,返回的結(jié)果中作為動物的熊貓、作為一種殺毒軟件的熊貓和作為一種電子產(chǎn)品的熊貓等內(nèi)容是夾雜在一起的,用戶要對結(jié)果進行分析判斷,才能確定那些是自己需要的。如果采用了自動分類技術(shù),就可將不同的內(nèi)容分到不同的類目中去,從而節(jié)省用戶的判斷時間,提高檢索效率。
2
自動分類的實現(xiàn)方法
2.1
自動歸類的實現(xiàn)方法
根據(jù)分類知識的獲取方法不同,可以將文本自動分類系統(tǒng)分為兩種類型:基于知識工程的分類系統(tǒng)和基于統(tǒng)計的分類系統(tǒng)。基于知識工程的方法主要依賴語言學知識,需要編制大量的推理規(guī)則作為分類知識,實現(xiàn)相當復雜,而且其開發(fā)費用相當昂貴。這方面的系統(tǒng)有卡內(nèi)基集團為路透社開發(fā)的Construe系統(tǒng)。現(xiàn)在應(yīng)用比較多的是基于統(tǒng)計的自動分類系統(tǒng),它忽略文本的語言學結(jié)構(gòu),將文本作為特征項集合來看,利用加權(quán)特征項構(gòu)成向量進行文本表示,利用詞頻信息對文本特征進行加權(quán)。它實現(xiàn)起來比較簡單,并且分類準確度也高,能夠滿足一般應(yīng)用的要求。向量空間模型是基于統(tǒng)計的分類系統(tǒng)中廣泛采用的文本計算模型。向量空間模型可以將給定的文本轉(zhuǎn)換成一個維數(shù)很高的向量。向量空間模型最突出的特點是可以方便的計算出兩個向量的相似度,即向量所對應(yīng)的文本的相似性。
在向量空間模型中,文本泛指各種機器可讀的記錄。用D(Document)表示,特征項(Term,用t表示)是指出現(xiàn)在文檔D中且能夠代表該文檔內(nèi)容的基本語言單位,主要是由詞或者短語構(gòu)成,文本可以用特征項集表示為D(T1,T2,…,Tn),其中Tk是特征項,1<=k<=N。例如一篇文檔中有a、b、c、d四個特征項,那么這篇文檔就可以表示為D(a,b,c,d)。對含有n個特征項的文本而言,通常會給每個特征項賦予一定的權(quán)重表示其重要程度。即D=D(T1,W1;T2,W2;…,Tn,Wn),簡記為D=D(W1,W2,…,Wn),我們把它叫做文本D的向量表示。其中Wk是Tk的權(quán)重,1<=k<=N。在上面那個例子中,假設(shè)a、b、c、d的權(quán)重分別為30,20,20,10,那么該文本的向量表示為D(30,20,20,10)。在向量空間模型中,兩個文本D1和D2之間的內(nèi)容相關(guān)度Sim(D1,D2)常用向量之間夾角的余弦值表示,公式為:
其中,W1k、W2k分別表示文本D1和D2第K個特征項的權(quán)值,1<=k<=N。
在自動歸類中,我們可以利用類似的方法來計算待歸類文檔和某類目的相關(guān)度。例如文本D1的特征項為a,b,c,d,權(quán)值分別為30,20,20,10,類目C1的特征項為a,c,d,e,權(quán)值分別為40,30,20,10,則D1的向量表示為D1(30,20,20,10,0),C1的向量表示為C1(40,0,30,20,10),則根據(jù)上式計算出來的文本D1與類目C1相關(guān)度是0.86。
網(wǎng)頁自動歸類一般包括以下步驟:
(1)網(wǎng)頁特征的抽取和加權(quán)
網(wǎng)頁特征的抽取是網(wǎng)頁自動歸類和自動聚類的前提。網(wǎng)頁特征的抽取可以從以下幾個方面提高網(wǎng)頁自動分類系統(tǒng)的性能。首先是分類速度,通過網(wǎng)頁特征的選擇,可以大大減少特征集合中的特征數(shù),從而提高網(wǎng)頁自動歸類系統(tǒng)的運行速度,使之能夠滿足現(xiàn)實需求。二是通過適當?shù)奶卣鬟x擇,不但不會降低系統(tǒng)的準確性,反而會使系統(tǒng)的精度提高。這一點已經(jīng)為實驗所證明。[3]
為了使計算機能夠更有效地處理網(wǎng)頁特征,必須對網(wǎng)頁特征進行特征加權(quán),將網(wǎng)頁特征表示成計算機能夠處理的數(shù)學向量。網(wǎng)頁數(shù)據(jù)是一種半結(jié)構(gòu)化的數(shù)據(jù),要比文本復雜的多。在網(wǎng)頁表示中,對任一特征而言,有兩個影響它權(quán)值的因素。一是該詞的詞頻,另一個是該詞在網(wǎng)頁中出現(xiàn)的位置,在網(wǎng)頁中不同位置出現(xiàn)的語詞的價值是不同的。正如張琪玉教授指出:“如果從針對文獻整體的檢準率的角度看,文獻題名中的詞最為有效。其次為文獻中的小標題或者章節(jié)名、文獻摘要。最后為文獻中的詞。”丁璇等人隨機抽取了300篇經(jīng)濟類網(wǎng)頁,對這些網(wǎng)頁進行人工自由標引、人工打分、詞頻統(tǒng)計,并進行統(tǒng)計數(shù)據(jù)的分析、研究,得出了網(wǎng)頁內(nèi)容主題與網(wǎng)頁題名、文章標題、第一段首句、第一段尾句、第二段首句、第二段尾句、第三段首句、第三段尾句、首段、尾段、HTML標記等12個標引源的主題表達能力的先后順序。得出的結(jié)論是首段>文章標題>HTML標記>第一段首句>網(wǎng)頁標題>第一段尾句>第二段首句>第二段尾句>尾段>第三段首句>其它>第三段尾句。并建議它們的加權(quán)值為5:5:5:4:4:4:2:2:2:2:2:2。[4]
(2)機器學習
機器學習的方法主要有支撐向量機(Support vector machine)、最近K鄰居方法和貝葉斯算法等[5-9]。下面簡要介紹支撐向量機和最近K鄰居方法。
支撐向量機是建立在計算學習理論的結(jié)構(gòu)風險最小化原則之上,其主要思想針對兩類分類問題,在高維空間中尋找一個超平面作為兩類的分割,以保證最小的分類錯誤率。支撐向量機的原理如左圖所示,其中的實心點和空心點代表兩個類別的訓練樣本,H為將這兩個類別分開的分類線,H1和H2分別是經(jīng)過這兩個類別樣本中距分類線最近的點且平行于分類線的直線,H1和H2之間的距離叫做這兩個類別的分類間隙。支撐向量機的目標是找到最優(yōu)分類線,最優(yōu)分類線不但能將兩個類別的樣本準確分開,而且要使兩類的分類間隙最大。
最近K鄰居方法的基本思路是在給定新網(wǎng)頁后,考慮在訓練網(wǎng)頁集中與該網(wǎng)頁距離最近(最相似)的K篇文本,根據(jù)這K篇網(wǎng)頁所屬的類別判斷新網(wǎng)頁所屬的類別。它首先根據(jù)特征項集合來對訓練網(wǎng)頁向量重新描述,在新的網(wǎng)頁達到首先確定新網(wǎng)頁的向量表示,然后在訓練網(wǎng)頁中選出與新網(wǎng)頁最相似的K個網(wǎng)頁。也是根據(jù)網(wǎng)頁的向量之間的距離,具體如下:
其中K值的確定是一個關(guān)鍵的問題。現(xiàn)在的一般做法是先選定一個初始值(幾百到幾千之間),在進行自動歸類的過程中根據(jù)結(jié)果進行調(diào)整。接下來在新網(wǎng)頁的K個鄰居中,依次計算每一類的權(quán)重,計算公式為:
其中,
為網(wǎng)頁的特征向量,
為相似度計算公式,而
為類別屬性函數(shù),如果
屬于類
,那么函數(shù)值為1,否則為0。最后比較類的權(quán)重,將網(wǎng)頁分到權(quán)重最大的那個類別中去。
2.2
自動聚類的實現(xiàn)方法
網(wǎng)頁的自動聚類一般包括四個步驟:
(1)網(wǎng)頁表示:包括特征抽取和特征選擇。特征選擇是選擇那些最具有區(qū)分性的特征,也就是最能把不同類別區(qū)分開來的特征,而不是大多數(shù)對象都具有的特征。
(2)相似度計算。主要根據(jù)網(wǎng)頁表示的距離函數(shù)來定義。
(3)聚類:根據(jù)網(wǎng)頁表示和相似度計算的結(jié)果,按照一定的規(guī)則將聚類網(wǎng)頁分成不同的類。
(4)給出聚類的標識。在最后形成的每一類中抽取一定具有代表性的特征,作為該類的標識。
常用的聚類方法有單遍聚類法、逆中心距聚類法、密度測試法、圖聚類法等[10-13]。下面對以上方法做一簡要介紹。
單遍聚類法是按照一定的順序從待分類的網(wǎng)頁集合中取出一篇網(wǎng)頁,任意賦予它一個新的類別,其標引向量作為該新類的聚類中心向量,此后取出的各篇網(wǎng)頁與該類中心向量進行運算得到相似系數(shù),當相似系數(shù)大于給定的一個預定值的時候,就將該網(wǎng)頁歸入此類,同時調(diào)整類中心向量。如果相似系數(shù)不在給定的預定值范圍內(nèi),則該網(wǎng)頁就另立新類并且創(chuàng)建該類中心向量。要處理的每一篇網(wǎng)頁依次與已有的類中心向量進行比較,將其歸入相似度最大(且在預定值范圍之內(nèi))的類中,并且及時調(diào)整該類的中心向量。
逆中心聚類法與單遍聚類法比較類似,具體過程如下:任取一篇網(wǎng)頁作為第一個聚類中心,計算剩下的網(wǎng)頁到該網(wǎng)頁的距離,距離最大的作為第二個聚類中心。計算所有非聚類中心的網(wǎng)頁到每個聚類中心的距離,將每一篇網(wǎng)頁到每個中心距的最小距離求出,選擇出最大的最小中心距者作為新的聚類中心。當然,這個還要結(jié)合所定義的中心距離制約機制等其它條件。聚類中心確定以后,其余文獻就近聚類。
密度測試法的原理是如果某個網(wǎng)頁的附近集聚有較多的網(wǎng)頁,并且在其周圍較廣的范圍內(nèi)也分布有一定的網(wǎng)頁,那么該網(wǎng)頁可作為一個聚類中心。在密度測試中,網(wǎng)頁被劃分為三種類型:未聚類網(wǎng)頁,即還沒有被集聚到任何一類中的網(wǎng)頁;松散型網(wǎng)頁,它們與已經(jīng)存在的類中心相似度比較小,尚不具備被聚于某類的條件;已被聚類的網(wǎng)頁。在聚類開始時,所有的網(wǎng)頁都可以看作未聚類網(wǎng)頁。用Di表示某篇網(wǎng)頁,如果它同時滿足以下兩個條件,則可以將Di作為類別中心:至少有n1篇網(wǎng)頁,它們與Di的相似系數(shù)都超過T1;至少有n2篇網(wǎng)頁,它們與Di的相似系數(shù)都超過T2,其中T1≥T2且n1≤n2。T1、T2、n1、n2都是事先給定的參數(shù)。聚類的過程如下:在未聚類網(wǎng)頁中任取一篇,把它作為聚類中心并對其進行密度測試,測試范圍為尚未聚類和松散型的網(wǎng)頁。如果測試失敗,即被測試的網(wǎng)頁周圍不具有指定數(shù)量的網(wǎng)頁,則該網(wǎng)頁被作為松散型網(wǎng)頁。然后在未聚類網(wǎng)頁中重新選取網(wǎng)頁測試聚類中心;如果測試成功,即被測試網(wǎng)頁周圍集聚一定預定值范圍內(nèi)的相似網(wǎng)頁,則該網(wǎng)頁被作為一個聚類中心,并將其中相似度超過T1的網(wǎng)頁視為已聚類網(wǎng)頁,對于相似度小于T1又大于T2的網(wǎng)頁,視為松散型網(wǎng)頁,其他網(wǎng)頁不改變原有類型。聚類過程一直持續(xù)下去到?jīng)]有未聚類網(wǎng)頁為止。最后將剩下的松散型網(wǎng)頁就近聚集到已存在的類別中。
?
3
自動分類在搜索引擎中應(yīng)用的實例
3.1 WWlib
自動歸類系統(tǒng)
?
?? WWlib(http://www.scit.wlv.ac.uk/wwlib/)
是伍爾弗漢普頓網(wǎng)絡(luò)圖書館的簡稱(Wolverhampton Web Library),它是使用了自動歸類技術(shù)的網(wǎng)絡(luò)信息檢索系統(tǒng)。它的主要組成部分如下[14-15]:
(1)蜘蛛:任務(wù)是自動從網(wǎng)絡(luò)上抓取網(wǎng)頁。
(2)索引器:它接收蜘蛛抓回來的網(wǎng)頁并在本地服務(wù)器上儲存一個副本,給網(wǎng)頁一個唯一的索取號,同時創(chuàng)建一個新的元數(shù)據(jù)模板,將本地的副本分配給分析器,建造和增加分類器的元數(shù)據(jù)模板。
(3)分析器:對嵌入網(wǎng)頁中的超鏈接進行分析。如果發(fā)現(xiàn)是有效的超鏈接,就將它的網(wǎng)址傳遞給索引器并檢查它是否屬于英國。
(4)分類器:在對索引網(wǎng)頁進行分析的同時給出杜威十進分類法分類號。
(5)構(gòu)建器:分析索引器提供的網(wǎng)頁及其元數(shù)據(jù),建立索引數(shù)據(jù)庫,確定索引號和關(guān)鍵詞之間的對應(yīng)關(guān)系,使得使用索引號就可以迅速獲得相應(yīng)的關(guān)鍵詞。
(6)搜索器:接受用戶的檢索提問,在構(gòu)建器的索引數(shù)據(jù)庫中進行查詢,用得出的索取號獲得相應(yīng)的元數(shù)據(jù)和本地副本,使用以上的信息得到一個詳細的結(jié)果,并按相關(guān)度排列檢索結(jié)果。
WWlib
中分類器對網(wǎng)頁的處理方法如下:首先,對網(wǎng)頁進行自動標引,對網(wǎng)頁中的語詞根據(jù)它們的詞頻和網(wǎng)頁中出現(xiàn)的位置賦予權(quán)重。然后將處理后得到的語詞集合與杜威十進分類法分類表中的每一個款目進行比較。每個款目包括它們的分類號、一長串關(guān)鍵詞和它們的同義詞。從一級類目開始比較,直到出現(xiàn)比較顯著的匹配值為止,此時將該網(wǎng)頁歸入此類。匹配值是在綜合考慮到語詞的相似度以及文檔的長短等因素之后給出的。
WWlib
提供的檢索途徑有關(guān)鍵詞檢索、分類號檢索、瀏覽類目下收錄的網(wǎng)頁等。WWlib也支持布爾邏輯檢索和截詞檢索。檢索結(jié)果分為兩行,第一行為分類號、網(wǎng)頁標題,第二行是網(wǎng)頁內(nèi)容摘要。WWlib主要的問題是數(shù)據(jù)庫規(guī)模太小,筆者在2003年4月18日查看時其款目只有
4874
個。但是它的方法對于今后大規(guī)模網(wǎng)頁的自動分類仍然有一定的借鑒意義。
3.2 Grouper
自動聚類系統(tǒng)
Grouper
是Oren Zamir和Oren Etzioni 研制的一個自動聚類系統(tǒng),它的主要作用是對Huskysearch(這個是他們開發(fā)的一個元搜索引擎)返回的結(jié)果進行自動聚類。他們在Grouper: A dynamic clustering interface to web search results[16]一文中詳細描述了它的原理和功能,很遺憾的是隨著Oren Zamir和Oren Etzioni的畢業(yè)離校,這兩個系統(tǒng)也停止了對外服務(wù),但是Grouper還是具有很大的參考價值。
Grouper
采用的是一種叫做后綴樹聚類(Suffix Tree Clustering)的算法(下文簡稱STC)。STC是一種線性時間聚類算法,根據(jù)待聚類網(wǎng)頁中的相似短語進行聚類。這里所說的短語就是指幾個有序的詞。此算法可以分為三個步驟。
(1)
網(wǎng)頁“清洗”。這一步驟可以看作是網(wǎng)頁特征的抽取。它對代表網(wǎng)頁特征的字符串進行過濾,標明各句之間的間隔,去掉不是文字的標記符號(如HTML標記、大部分的標點)。
(2)
確定基本聚類串。基本聚類串是一些具有共同短語網(wǎng)頁的集合。它是在對網(wǎng)頁特征進行抽取的同時使用STC算法進行計算后得到的。對于每一個基本聚類串,根據(jù)它包含的網(wǎng)頁特征的數(shù)量以及組成短語的詞的個數(shù)賦予一定的權(quán)值。但是,在停用詞表中出現(xiàn)的詞或者過于高頻詞或者低頻詞對基本聚類串的權(quán)值沒有貢獻。
(3)
合并基本聚類串為最后的結(jié)果。其主要的依據(jù)是同一聚類中的網(wǎng)頁在語義上的相關(guān)性,允許交叉聚類,也就是一篇網(wǎng)頁可以在多個聚類中出現(xiàn)。
STC
算法的主要特點有:(1)它是一種模糊聚類方法,允許交叉聚類。(2)使用短語而不是詞去判斷網(wǎng)頁的相似性,同時也考慮這些短語出現(xiàn)的位置和順序。它用共同短語來揭示聚類的內(nèi)容,對用戶而言這個也是一個有豐富信息量的摘要。(3)速度快,它是對元搜索引擎的結(jié)果進行聚類,在元搜索引擎返回結(jié)果的同時就開始工作,通常情況下在接收到最后一篇網(wǎng)頁之后就可以顯示出結(jié)果,不會產(chǎn)生明顯的遲滯現(xiàn)象。
Grouper
以表格形式來顯示聚類結(jié)果。每一類用一行表示。首先是該類的大小,用它所包括的網(wǎng)頁數(shù)量來標識;其次是共同短語,就是在該類中出現(xiàn)的高頻詞,同時用數(shù)字表示出該共同短語在此類中出現(xiàn)的百分比;最后是三個該類實例網(wǎng)頁的標題。如果用戶對某一類有興趣,想深入看下去,可以點擊“查看結(jié)果”這個鏈接,進入的頁面就將該類中所有網(wǎng)頁的標題都列出來了,點擊網(wǎng)頁的標題就可以看到具體的頁面。
Grouper
還有一個相關(guān)反饋的功能,可以根據(jù)某類來對檢索策略進行修改,也就是利用該類中的共同詞語來重新檢索。
3.3 Vivísimo
自動聚類系統(tǒng)
Vivísimo
(Http://vivisimo.com)是個元搜索引擎,它調(diào)用
AltaVista
、MSN、 Netscape、 Lycos、 Looksmart、 FindWhat等搜索引擎
的結(jié)果(用戶在它的高級檢索中可以選擇具體調(diào)用那一個或者那一些搜索引擎),對它們進行自動聚類后返回給用戶。Vivísimo已經(jīng)連續(xù)兩年(2002年和2003年)被搜索引擎觀察(Search Engine Watch)的專家評為“最好的元搜索引擎(
Best Meta-Search Engine
)”,英國物理學會出版社(
Institute of Physics Publishing
)也選擇了
Vivísimo
來提供檢索結(jié)果的自動聚類,以加強他們的電子期刊服務(wù)工作。[17]
Vivísimo
基于的原理是一種叫做準確描述所有配對(concise all pairs profiling)(簡稱為CAPP)的方法。[18-19]這種方法著眼于形成可描述的聚類。它的基本原理是將所有的類別成對的進行比較,找出能夠?qū)⒚恳粚︻悇e區(qū)分開來的特征,然后對那些特征進行組織,形成最后的描述,保證每一對至少有一個特征能夠?qū)⑺推渌麑^(qū)別出來。
Vivísimo
自動聚類所依據(jù)的是搜索引擎返回的網(wǎng)頁的網(wǎng)址、標題和簡單描述。而不是整個網(wǎng)頁。我們可以通過下圖來看Vivísimo的一些特點。
?
從圖中我們可以清楚的看到
Vivísimo
采用類似于Windows資源管理器的界面來顯示結(jié)果,非常直觀。Vivísimo用一個詞來對該類進行描述,點詞語左邊的“+”號就可以展開下級類目(如果“+”號是灰色的話就表示沒有下位類了)。Vivísimo也允許交叉聚類。甚至有類目互為上下位類。
例如
Giant Panda(
圖中的第一個類目
)
的下位類是
Panda Bear
,
Panda Cam
,
National Zoo
,
Bamboo
等,而與圖中的第三個類(與第一個類目應(yīng)該是同一級的就是
Panda Bear
,它的下位類是
Tare and Panda
,
Panda Bear′s Playhouse
,
Giant Panda
等。
盡管
Vivísimo
現(xiàn)在的性能不是令人很滿意,但是畢竟它是少數(shù)幾個投入商業(yè)營運并且取得不錯口碑的自動聚類系統(tǒng)。如果不斷對自動聚類系統(tǒng)進行改進,提高它的性能,自動聚類系統(tǒng)就可能有廣闊的前景。
?
4
自動分類在搜索引擎中應(yīng)用的策略分析
4.1
自動聚類和自動歸類的應(yīng)用
從上文的論述中,我們可以知道,就目前的情況而言,自動聚類在搜索引擎中的實現(xiàn)要比自動歸類容易一些,聚類的效果也比較顯著。因此,可以考慮在搜索引擎中首先采用自動聚類。
如果要使用自動歸類的話,首先就要考慮使用什么分類法。現(xiàn)在使用的分類法中既有傳統(tǒng)的圖書館分類法,也有適應(yīng)網(wǎng)絡(luò)環(huán)境而生的網(wǎng)絡(luò)分類法。二者各有千秋,傳統(tǒng)的圖書館分類法系統(tǒng)性強,使用范圍廣,網(wǎng)絡(luò)分類法比較靈活。如果條件許可的話,最好是兩種類型的分類法都使用。對于熟悉圖書館分類法的用戶就提供圖書館分類法的結(jié)果,對于一般用戶則提供自編的網(wǎng)絡(luò)分類法。在使用分類法的時侯,還要考慮分類的粗細問題,也就是分到幾級類目。對于網(wǎng)頁的分類,可能沒有必要分得很細。下面主要論述自動聚類實現(xiàn)時涉及到的問題。
4.2
應(yīng)用的時機
應(yīng)用的時機是指自動聚類是在對網(wǎng)頁數(shù)據(jù)進行索引的時候?qū)嵤€是在搜索引擎返回檢索結(jié)果之后實施。前者可以利用網(wǎng)頁的全文,后者一般只是使用網(wǎng)頁的網(wǎng)址、標題和摘要等少量信息。一般而言,前者的結(jié)果要準確一些,但是綜合考慮,后者的精確度雖然不如前者,但是成本比較低,實用性更強。它不需要對網(wǎng)頁進行標引等預處理,工作量會大大降低,并且隨著技術(shù)的發(fā)展,結(jié)果也會越來越令人滿意。對于結(jié)果相關(guān)性的判斷,既有客觀因素,也有主觀因素。機器只能夠模擬人的思維而不能取代人的活動。自動聚類只是幫助用戶進行相關(guān)性的判斷而已,想靠它一勞永逸的解決相關(guān)性判斷是不太現(xiàn)實的。
4.3
應(yīng)用的對象
自動聚類可以應(yīng)用到元搜索引擎或者單個搜索引擎中。單個搜索引擎的覆蓋范圍有限,且隨著網(wǎng)絡(luò)信息資源的迅速增長而不斷下降。所以將自動分類應(yīng)用于元搜索引擎返回的結(jié)果要比應(yīng)用到單個搜索引擎的效果要明顯一些。當然,元搜索引擎的在對調(diào)用的搜索引擎進行選擇必須要遵循一定的原則,要選取質(zhì)量比較高的,覆蓋面比較廣的,力爭擴大檢全率和檢準率。對于單個搜索引擎返回結(jié)果,也沒有必要全部包括在內(nèi),只需要前面的一部分就可以了(例如50條左右)。因為一般情況下,前面的結(jié)果與檢索要求的相關(guān)度要高一些,這樣做對于系統(tǒng)的精確性不會有太大程度的影響,但是可以將系統(tǒng)的成本大大降低,實用性更高。
4.4
用戶界面
用戶界面的設(shè)計是一個經(jīng)常被忽略的問題,實際上用戶界面的設(shè)計對于自動分類系統(tǒng)的使用效果有很大的影響。一個有關(guān)這方面的實驗就證明了這一點。這個實驗是Hao Chen和Susan Dumais完成的[20]。他們對七種檢索界面的使用效果做了對比。這七種用戶界面是:
(1)懸浮顯示摘要的清單式界面(List with hover summary),就是只有當鼠標移到返回的網(wǎng)頁的標題時才顯示出該網(wǎng)頁內(nèi)容的概要。
(2)內(nèi)嵌摘要的清單是用戶界面(List with summary inline),就是網(wǎng)頁的摘要出現(xiàn)在返回網(wǎng)頁的標題下面。
(3)顯示類名的清單式界面(List with category names),就是在返回網(wǎng)頁的標題后面出現(xiàn)其所屬的類目名稱,同時給出網(wǎng)頁的摘要。
(4)懸浮顯示摘要的分類界面(Category with hover summary),就是首先給出類目的名稱,然后顯示出該類目下網(wǎng)頁標題,當鼠標移到該標題上的時候顯示出該網(wǎng)頁的摘要。
(5)內(nèi)嵌顯示摘要的分類界面(Category with summary inline),它與第四種界面基本上一樣,除了是將網(wǎng)頁的摘要顯示在標題下面。
(6)無類名的分類界面(Category with no category names),它將類目的名稱和網(wǎng)頁的摘要都去掉了。
(7)無網(wǎng)頁標題的界面(Category with no page titles),只顯示出類目供瀏覽。
Hao Chen
和Susan Dumais的挑選了西雅圖地區(qū)微軟公司的雇員參加這次實驗。他們代表著不同年齡、背景、工作和教育水平的人群。每個人的實驗都被分為兩個部分,每一部分完成15個檢索提問。在這兩部分中,使用不同的檢索界面。在完成檢索任務(wù)之后,參加者還要填寫一份網(wǎng)上調(diào)查問卷。整個過程大概需要2個小時。
此次實驗的30個檢索提問涉及的主題非常廣泛,包括運動、電影、旅行、新聞、電腦、汽車和地方事物等等。檢索提問難易程度不一,但是在返回的前100個網(wǎng)頁中都可以找到答案。有17個問題的答案出現(xiàn)在返回的前20個網(wǎng)頁中,有13個問題的答案出現(xiàn)在返回的第21-100個網(wǎng)頁中。為了消除其它因素的影響,Hao Chen和Susan Dumais將每一個檢索提問所用的檢索詞固定下來,并且將結(jié)果緩存下來,保證同樣的檢索提問返回一樣的結(jié)果。他們還檢查了返回網(wǎng)頁鏈接的有效性,這樣影響檢索效果的因素就只有用戶界面了。
在實驗過程中,檢索者的屏幕會出現(xiàn)三個窗口。頂部的窗口是比較小的控制窗口,它顯示檢索提問、檢索詞及計時器和“找到它了”、“放棄此題”這兩個按鈕。左邊窗口出現(xiàn)返回的結(jié)果(采用不同的用戶界面),用戶點擊左邊窗口中的結(jié)果時,右邊窗口就顯示出相應(yīng)的網(wǎng)頁。當參加者找到答案的時候,就點擊控制窗口中的“找到它了”,如果沒有找到,可以點擊“放棄此題”。定時器每五分鐘提醒一次用戶是繼續(xù)此次檢索還是進行新的檢索。
對于用戶界面的評價,采用的是將用戶的主觀感受和客觀結(jié)果(包括檢索所花費的時間和準確度等)相結(jié)合的方式。結(jié)果發(fā)現(xiàn)所有的分類界面都要比清單式的界面效果好。效果最好的是內(nèi)嵌顯示摘要的分類界面。
Hao Chen
和Susan Dumais的實驗說明自動分類系統(tǒng)用戶界面的設(shè)計應(yīng)該最大限度地幫助用戶對返回結(jié)果的相關(guān)性進行判斷。所以,不但要將類名顯示出來還應(yīng)包括類名的說明,使用戶能夠迅速了解該類的內(nèi)容,做出相應(yīng)的判斷。類目結(jié)構(gòu)之間的層次也不要過多,太多的話會使得用戶在瀏覽的過程中迷失,感到無所適從。類目之間的排列可以按結(jié)果從多到少的順序排列,同一類目中的網(wǎng)頁可以按與該類目之間的緊密程度排列。每個類目中的相關(guān)網(wǎng)頁給出與檢索詞內(nèi)容相關(guān)的摘要。
?
?
凡是有該標志的文章,都是該blog博主Caoer(草兒)原創(chuàng),凡是索引、收藏
、轉(zhuǎn)載請注明來處和原文作者。非常感謝。