無為

無為則可為，無為則至深！

:: 管理

190 Posts :: 291 Stories :: 258 Comments :: 0 Trackbacks

根據中國互聯網信息中心2003年1月發布的《中國互聯網絡發展狀況統計報告》，用戶經常使用的網絡服務中搜索引擎占68.3%，用戶得知新網站的主要途徑中搜索引擎占84.6^[1]%。搜索引擎現在已成為用戶利用因特網信息資源所不可缺少的工具。但是搜索引擎現在的性能還不能令人滿意，性能亟待優化。本文就將探討如何利用自動分類來對搜索引擎的性能進行優化。

1 自動分類的種類和作用

1.1 自動分類的種類

自動分類就是用計算機系統代替人工對文獻等對象進行分類，一般包括自動聚類和自動歸類。自動聚類指的是由計算機系統按照被考察對象的內部或者外部特征，按照一定的要求（如類別的數量限制，同類對象的親近程度等等），將相近、相似或者相同特征的對象聚合在一起的過程。自動歸類是指計算機系統按照一定的分類標準或者分類參考，將被考察對象劃歸到不同類目的過程。^[2]

自動聚類和自動歸類的主要區別就是自動聚類不需要事先定義好分類體系，而自動歸類則需要確定好類別體系，并且要為每個類別提供一批預先分好的對象作為訓練文集，分類系統先通過訓練文集學習分類知識，在實際分類時，再根據學習到的分類知識為需要分類的文獻確定一個或者多個類別。本文中所指的自動分類是指對網頁的自動分類，包括網頁的自動歸類和自動聚類。

1.2 自動分類的作用

目前搜索引擎提供兩種信息查詢方式：分類瀏覽和關鍵詞檢索。分類瀏覽一般是基于網站分類目錄。它瀏覽的對象是網站，目錄分類的質量較高，檢索效果好；但是成本高、信息更新慢、維護的工作量大。關鍵詞檢索的對象不是網站，而是符合條件的網頁。關鍵詞檢索信息量大、更新及時、不需要人工干預；但是返回信息過多，質量太低。

目前，很少搜索引擎提供對網頁的分類瀏覽或檢索，其原因之一是由人工進行網頁的分類幾乎是不可能的。如果能夠實施網頁的自動分分類，就可以實現網頁標引和檢索的分類主題一體化，搜索引擎就能夠兼有分類瀏覽、檢索和關鍵詞檢索的優點，同時具備族性檢索和特性檢索的功能；能夠深入到網頁層次，幫助用戶迅速的判斷返回的結果是否符合自己的檢索要求。例如在關鍵詞檢索中用熊貓作為檢索詞，返回的結果中作為動物的熊貓、作為一種殺毒軟件的熊貓和作為一種電子產品的熊貓等內容是夾雜在一起的，用戶要對結果進行分析判斷，才能確定那些是自己需要的。如果采用了自動分類技術，就可將不同的內容分到不同的類目中去，從而節省用戶的判斷時間，提高檢索效率。

2 自動分類的實現方法

2.1 自動歸類的實現方法

根據分類知識的獲取方法不同，可以將文本自動分類系統分為兩種類型：基于知識工程的分類系統和基于統計的分類系統。基于知識工程的方法主要依賴語言學知識，需要編制大量的推理規則作為分類知識，實現相當復雜，而且其開發費用相當昂貴。這方面的系統有卡內基集團為路透社開發的Construe系統。現在應用比較多的是基于統計的自動分類系統，它忽略文本的語言學結構，將文本作為特征項集合來看，利用加權特征項構成向量進行文本表示，利用詞頻信息對文本特征進行加權。它實現起來比較簡單，并且分類準確度也高，能夠滿足一般應用的要求。向量空間模型是基于統計的分類系統中廣泛采用的文本計算模型。向量空間模型可以將給定的文本轉換成一個維數很高的向量。向量空間模型最突出的特點是可以方便的計算出兩個向量的相似度，即向量所對應的文本的相似性。

在向量空間模型中，文本泛指各種機器可讀的記錄。用D（Document）表示，特征項（Term，用t表示）是指出現在文檔D中且能夠代表該文檔內容的基本語言單位，主要是由詞或者短語構成，文本可以用特征項集表示為D(T₁，T₂，…，T_n)，其中T_k是特征項，1<=k<=N。例如一篇文檔中有a、b、c、d四個特征項，那么這篇文檔就可以表示為D(a，b，c，d)。對含有n個特征項的文本而言，通常會給每個特征項賦予一定的權重表示其重要程度。即D＝D(T₁，W₁；T₂，W₂；…，T_n，W_n)，簡記為D＝D(W₁，W₂，…，W_n)，我們把它叫做文本D的向量表示。其中W_k是T_k的權重，1<=k<=N。在上面那個例子中，假設a、b、c、d的權重分別為30，20，20，10，那么該文本的向量表示為D(30，20，20，10)。在向量空間模型中，兩個文本D₁和D₂之間的內容相關度Sim(D₁，D₂)常用向量之間夾角的余弦值表示，公式為：

其中，W_1k、W_2k分別表示文本D₁和D₂第K個特征項的權值，1<=k<=N。

在自動歸類中，我們可以利用類似的方法來計算待歸類文檔和某類目的相關度。例如文本D₁的特征項為a，b，c，d，權值分別為30，20，20，10，類目C₁的特征項為a，c，d，e，權值分別為40，30，20，10，則D₁的向量表示為D₁(30,20,20,10,0),C₁的向量表示為C₁（40，0，30，20，10），則根據上式計算出來的文本D₁與類目C₁相關度是0.86。

網頁自動歸類一般包括以下步驟：

（1）網頁特征的抽取和加權

網頁特征的抽取是網頁自動歸類和自動聚類的前提。網頁特征的抽取可以從以下幾個方面提高網頁自動分類系統的性能。首先是分類速度，通過網頁特征的選擇，可以大大減少特征集合中的特征數，從而提高網頁自動歸類系統的運行速度，使之能夠滿足現實需求。二是通過適當的特征選擇，不但不會降低系統的準確性，反而會使系統的精度提高。這一點已經為實驗所證明。^[3]

為了使計算機能夠更有效地處理網頁特征，必須對網頁特征進行特征加權，將網頁特征表示成計算機能夠處理的數學向量。網頁數據是一種半結構化的數據，要比文本復雜的多。在網頁表示中，對任一特征而言，有兩個影響它權值的因素。一是該詞的詞頻，另一個是該詞在網頁中出現的位置，在網頁中不同位置出現的語詞的價值是不同的。正如張琪玉教授指出：“如果從針對文獻整體的檢準率的角度看，文獻題名中的詞最為有效。其次為文獻中的小標題或者章節名、文獻摘要。最后為文獻中的詞。”丁璇等人隨機抽取了300篇經濟類網頁，對這些網頁進行人工自由標引、人工打分、詞頻統計，并進行統計數據的分析、研究，得出了網頁內容主題與網頁題名、文章標題、第一段首句、第一段尾句、第二段首句、第二段尾句、第三段首句、第三段尾句、首段、尾段、HTML標記等12個標引源的主題表達能力的先后順序。得出的結論是首段>文章標題>HTML標記>第一段首句>網頁標題>第一段尾句>第二段首句>第二段尾句>尾段>第三段首句>其它>第三段尾句。并建議它們的加權值為5:5:5:4:4:4:2:2:2:2:2:2。^[4]

（2）機器學習

機器學習的方法主要有支撐向量機（Support vector machine）、最近K鄰居方法和貝葉斯算法等^[5－9]。下面簡要介紹支撐向量機和最近K鄰居方法。

支撐向量機是建立在計算學習理論的結構風險最小化原則之上，其主要思想針對兩類分類問題，在高維空間中尋找一個超平面作為兩類的分割，以保證最小的分類錯誤率。支撐向量機的原理如左圖所示，其中的實心點和空心點代表兩個類別的訓練樣本，H為將這兩個類別分開的分類線，H1和H2分別是經過這兩個類別樣本中距分類線最近的點且平行于分類線的直線，H1和H2之間的距離叫做這兩個類別的分類間隙。支撐向量機的目標是找到最優分類線，最優分類線不但能將兩個類別的樣本準確分開，而且要使兩類的分類間隙最大。

最近K鄰居方法的基本思路是在給定新網頁后，考慮在訓練網頁集中與該網頁距離最近（最相似）的K篇文本，根據這K篇網頁所屬的類別判斷新網頁所屬的類別。它首先根據特征項集合來對訓練網頁向量重新描述，在新的網頁達到首先確定新網頁的向量表示，然后在訓練網頁中選出與新網頁最相似的K個網頁。也是根據網頁的向量之間的距離，具體如下：

其中K值的確定是一個關鍵的問題。現在的一般做法是先選定一個初始值（幾百到幾千之間），在進行自動歸類的過程中根據結果進行調整。接下來在新網頁的K個鄰居中，依次計算每一類的權重，計算公式為：

其中，為網頁的特征向量，為相似度計算公式，而為類別屬性函數，如果屬于類，那么函數值為1，否則為0。最后比較類的權重，將網頁分到權重最大的那個類別中去。

2.2 自動聚類的實現方法

網頁的自動聚類一般包括四個步驟：

（1）網頁表示：包括特征抽取和特征選擇。特征選擇是選擇那些最具有區分性的特征，也就是最能把不同類別區分開來的特征，而不是大多數對象都具有的特征。

（2）相似度計算。主要根據網頁表示的距離函數來定義。

（3）聚類：根據網頁表示和相似度計算的結果，按照一定的規則將聚類網頁分成不同的類。

（4）給出聚類的標識。在最后形成的每一類中抽取一定具有代表性的特征，作為該類的標識。

常用的聚類方法有單遍聚類法、逆中心距聚類法、密度測試法、圖聚類法等^[10－13]。下面對以上方法做一簡要介紹。

單遍聚類法是按照一定的順序從待分類的網頁集合中取出一篇網頁，任意賦予它一個新的類別，其標引向量作為該新類的聚類中心向量，此后取出的各篇網頁與該類中心向量進行運算得到相似系數，當相似系數大于給定的一個預定值的時候，就將該網頁歸入此類，同時調整類中心向量。如果相似系數不在給定的預定值范圍內，則該網頁就另立新類并且創建該類中心向量。要處理的每一篇網頁依次與已有的類中心向量進行比較，將其歸入相似度最大（且在預定值范圍之內）的類中，并且及時調整該類的中心向量。

逆中心聚類法與單遍聚類法比較類似，具體過程如下：任取一篇網頁作為第一個聚類中心，計算剩下的網頁到該網頁的距離，距離最大的作為第二個聚類中心。計算所有非聚類中心的網頁到每個聚類中心的距離，將每一篇網頁到每個中心距的最小距離求出，選擇出最大的最小中心距者作為新的聚類中心。當然，這個還要結合所定義的中心距離制約機制等其它條件。聚類中心確定以后，其余文獻就近聚類。

密度測試法的原理是如果某個網頁的附近集聚有較多的網頁，并且在其周圍較廣的范圍內也分布有一定的網頁，那么該網頁可作為一個聚類中心。在密度測試中，網頁被劃分為三種類型：未聚類網頁，即還沒有被集聚到任何一類中的網頁；松散型網頁，它們與已經存在的類中心相似度比較小，尚不具備被聚于某類的條件；已被聚類的網頁。在聚類開始時，所有的網頁都可以看作未聚類網頁。用D_i表示某篇網頁，如果它同時滿足以下兩個條件，則可以將D_i作為類別中心：至少有n1篇網頁，它們與D_i的相似系數都超過T1；至少有n2篇網頁，它們與D_i的相似系數都超過T2，其中T1≥T2且n1≤n2。T1、T2、n1、n2都是事先給定的參數。聚類的過程如下：在未聚類網頁中任取一篇，把它作為聚類中心并對其進行密度測試，測試范圍為尚未聚類和松散型的網頁。如果測試失敗，即被測試的網頁周圍不具有指定數量的網頁，則該網頁被作為松散型網頁。然后在未聚類網頁中重新選取網頁測試聚類中心；如果測試成功，即被測試網頁周圍集聚一定預定值范圍內的相似網頁，則該網頁被作為一個聚類中心，并將其中相似度超過T1的網頁視為已聚類網頁，對于相似度小于T1又大于T2的網頁，視為松散型網頁，其他網頁不改變原有類型。聚類過程一直持續下去到沒有未聚類網頁為止。最后將剩下的松散型網頁就近聚集到已存在的類別中。

3 自動分類在搜索引擎中應用的實例

3.1 WWlib 自動歸類系統

? ?? WWlib(http://www.scit.wlv.ac.uk/wwlib/) 是伍爾弗漢普頓網絡圖書館的簡稱（Wolverhampton Web Library），它是使用了自動歸類技術的網絡信息檢索系統。它的主要組成部分如下^[14－15]：

（1）蜘蛛：任務是自動從網絡上抓取網頁。

（2）索引器：它接收蜘蛛抓回來的網頁并在本地服務器上儲存一個副本，給網頁一個唯一的索取號，同時創建一個新的元數據模板，將本地的副本分配給分析器，建造和增加分類器的元數據模板。

（3）分析器：對嵌入網頁中的超鏈接進行分析。如果發現是有效的超鏈接，就將它的網址傳遞給索引器并檢查它是否屬于英國。

（4）分類器：在對索引網頁進行分析的同時給出杜威十進分類法分類號。

（5）構建器：分析索引器提供的網頁及其元數據，建立索引數據庫，確定索引號和關鍵詞之間的對應關系，使得使用索引號就可以迅速獲得相應的關鍵詞。

（6）搜索器：接受用戶的檢索提問，在構建器的索引數據庫中進行查詢，用得出的索取號獲得相應的元數據和本地副本，使用以上的信息得到一個詳細的結果，并按相關度排列檢索結果。

WWlib 中分類器對網頁的處理方法如下：首先，對網頁進行自動標引，對網頁中的語詞根據它們的詞頻和網頁中出現的位置賦予權重。然后將處理后得到的語詞集合與杜威十進分類法分類表中的每一個款目進行比較。每個款目包括它們的分類號、一長串關鍵詞和它們的同義詞。從一級類目開始比較，直到出現比較顯著的匹配值為止，此時將該網頁歸入此類。匹配值是在綜合考慮到語詞的相似度以及文檔的長短等因素之后給出的。

WWlib 提供的檢索途徑有關鍵詞檢索、分類號檢索、瀏覽類目下收錄的網頁等。WWlib也支持布爾邏輯檢索和截詞檢索。檢索結果分為兩行，第一行為分類號、網頁標題，第二行是網頁內容摘要。WWlib主要的問題是數據庫規模太小，筆者在2003年4月18日查看時其款目只有 4874 個。但是它的方法對于今后大規模網頁的自動分類仍然有一定的借鑒意義。

3.2 Grouper 自動聚類系統

Grouper 是Oren Zamir和Oren Etzioni 研制的一個自動聚類系統，它的主要作用是對Huskysearch(這個是他們開發的一個元搜索引擎)返回的結果進行自動聚類。他們在Grouper: A dynamic clustering interface to web search results^[16]一文中詳細描述了它的原理和功能，很遺憾的是隨著Oren Zamir和Oren Etzioni的畢業離校，這兩個系統也停止了對外服務，但是Grouper還是具有很大的參考價值。

Grouper 采用的是一種叫做后綴樹聚類（Suffix Tree Clustering）的算法（下文簡稱STC）。STC是一種線性時間聚類算法，根據待聚類網頁中的相似短語進行聚類。這里所說的短語就是指幾個有序的詞。此算法可以分為三個步驟。

(1) 網頁“清洗”。這一步驟可以看作是網頁特征的抽取。它對代表網頁特征的字符串進行過濾，標明各句之間的間隔，去掉不是文字的標記符號（如HTML標記、大部分的標點）。

(2) 確定基本聚類串。基本聚類串是一些具有共同短語網頁的集合。它是在對網頁特征進行抽取的同時使用STC算法進行計算后得到的。對于每一個基本聚類串，根據它包含的網頁特征的數量以及組成短語的詞的個數賦予一定的權值。但是，在停用詞表中出現的詞或者過于高頻詞或者低頻詞對基本聚類串的權值沒有貢獻。

(3) 合并基本聚類串為最后的結果。其主要的依據是同一聚類中的網頁在語義上的相關性，允許交叉聚類，也就是一篇網頁可以在多個聚類中出現。

STC 算法的主要特點有：（1）它是一種模糊聚類方法，允許交叉聚類。（2）使用短語而不是詞去判斷網頁的相似性，同時也考慮這些短語出現的位置和順序。它用共同短語來揭示聚類的內容，對用戶而言這個也是一個有豐富信息量的摘要。（3）速度快，它是對元搜索引擎的結果進行聚類，在元搜索引擎返回結果的同時就開始工作，通常情況下在接收到最后一篇網頁之后就可以顯示出結果，不會產生明顯的遲滯現象。

Grouper 以表格形式來顯示聚類結果。每一類用一行表示。首先是該類的大小，用它所包括的網頁數量來標識；其次是共同短語，就是在該類中出現的高頻詞，同時用數字表示出該共同短語在此類中出現的百分比；最后是三個該類實例網頁的標題。如果用戶對某一類有興趣，想深入看下去，可以點擊“查看結果”這個鏈接，進入的頁面就將該類中所有網頁的標題都列出來了，點擊網頁的標題就可以看到具體的頁面。

Grouper 還有一個相關反饋的功能，可以根據某類來對檢索策略進行修改，也就是利用該類中的共同詞語來重新檢索。

3.3 Vivísimo 自動聚類系統

Vivísimo （Http://vivisimo.com）是個元搜索引擎，它調用 AltaVista 、MSN、 Netscape、 Lycos、 Looksmart、 FindWhat等搜索引擎的結果（用戶在它的高級檢索中可以選擇具體調用那一個或者那一些搜索引擎），對它們進行自動聚類后返回給用戶。Vivísimo已經連續兩年（2002年和2003年）被搜索引擎觀察（Search Engine Watch）的專家評為“最好的元搜索引擎（ Best Meta-Search Engine ）”，英國物理學會出版社（ Institute of Physics Publishing ）也選擇了 Vivísimo 來提供檢索結果的自動聚類，以加強他們的電子期刊服務工作。^[17]

Vivísimo 基于的原理是一種叫做準確描述所有配對（concise all pairs profiling）（簡稱為CAPP）的方法。^[18-19]這種方法著眼于形成可描述的聚類。它的基本原理是將所有的類別成對的進行比較，找出能夠將每一對類別區分開來的特征，然后對那些特征進行組織，形成最后的描述，保證每一對至少有一個特征能夠將它和其他對區別出來。

Vivísimo 自動聚類所依據的是搜索引擎返回的網頁的網址、標題和簡單描述。而不是整個網頁。我們可以通過下圖來看Vivísimo的一些特點。

從圖中我們可以清楚的看到 Vivísimo 采用類似于Windows資源管理器的界面來顯示結果，非常直觀。Vivísimo用一個詞來對該類進行描述，點詞語左邊的“＋”號就可以展開下級類目（如果“＋”號是灰色的話就表示沒有下位類了）。Vivísimo也允許交叉聚類。甚至有類目互為上下位類。例如 Giant Panda( 圖中的第一個類目 ) 的下位類是 Panda Bear ， Panda Cam ， National Zoo ， Bamboo 等，而與圖中的第三個類（與第一個類目應該是同一級的就是 Panda Bear ，它的下位類是 Tare and Panda ， Panda Bear′s Playhouse ， Giant Panda 等。

盡管 Vivísimo 現在的性能不是令人很滿意，但是畢竟它是少數幾個投入商業營運并且取得不錯口碑的自動聚類系統。如果不斷對自動聚類系統進行改進，提高它的性能，自動聚類系統就可能有廣闊的前景。

4 自動分類在搜索引擎中應用的策略分析

4.1 自動聚類和自動歸類的應用

從上文的論述中，我們可以知道，就目前的情況而言，自動聚類在搜索引擎中的實現要比自動歸類容易一些，聚類的效果也比較顯著。因此，可以考慮在搜索引擎中首先采用自動聚類。

如果要使用自動歸類的話，首先就要考慮使用什么分類法。現在使用的分類法中既有傳統的圖書館分類法，也有適應網絡環境而生的網絡分類法。二者各有千秋，傳統的圖書館分類法系統性強，使用范圍廣，網絡分類法比較靈活。如果條件許可的話，最好是兩種類型的分類法都使用。對于熟悉圖書館分類法的用戶就提供圖書館分類法的結果，對于一般用戶則提供自編的網絡分類法。在使用分類法的時侯，還要考慮分類的粗細問題，也就是分到幾級類目。對于網頁的分類，可能沒有必要分得很細。下面主要論述自動聚類實現時涉及到的問題。

4.2 應用的時機

應用的時機是指自動聚類是在對網頁數據進行索引的時候實施，還是在搜索引擎返回檢索結果之后實施。前者可以利用網頁的全文，后者一般只是使用網頁的網址、標題和摘要等少量信息。一般而言，前者的結果要準確一些，但是綜合考慮，后者的精確度雖然不如前者，但是成本比較低，實用性更強。它不需要對網頁進行標引等預處理，工作量會大大降低，并且隨著技術的發展，結果也會越來越令人滿意。對于結果相關性的判斷，既有客觀因素，也有主觀因素。機器只能夠模擬人的思維而不能取代人的活動。自動聚類只是幫助用戶進行相關性的判斷而已，想靠它一勞永逸的解決相關性判斷是不太現實的。

4.3 應用的對象

自動聚類可以應用到元搜索引擎或者單個搜索引擎中。單個搜索引擎的覆蓋范圍有限，且隨著網絡信息資源的迅速增長而不斷下降。所以將自動分類應用于元搜索引擎返回的結果要比應用到單個搜索引擎的效果要明顯一些。當然，元搜索引擎的在對調用的搜索引擎進行選擇必須要遵循一定的原則，要選取質量比較高的，覆蓋面比較廣的，力爭擴大檢全率和檢準率。對于單個搜索引擎返回結果，也沒有必要全部包括在內，只需要前面的一部分就可以了（例如50條左右）。因為一般情況下，前面的結果與檢索要求的相關度要高一些，這樣做對于系統的精確性不會有太大程度的影響，但是可以將系統的成本大大降低，實用性更高。

4.4 用戶界面

用戶界面的設計是一個經常被忽略的問題，實際上用戶界面的設計對于自動分類系統的使用效果有很大的影響。一個有關這方面的實驗就證明了這一點。這個實驗是Hao Chen和Susan Dumais完成的^[20]。他們對七種檢索界面的使用效果做了對比。這七種用戶界面是：

（1）懸浮顯示摘要的清單式界面（List with hover summary）,就是只有當鼠標移到返回的網頁的標題時才顯示出該網頁內容的概要。

（2）內嵌摘要的清單是用戶界面（List with summary inline），就是網頁的摘要出現在返回網頁的標題下面。

（3）顯示類名的清單式界面（List with category names），就是在返回網頁的標題后面出現其所屬的類目名稱，同時給出網頁的摘要。

（4）懸浮顯示摘要的分類界面（Category with hover summary），就是首先給出類目的名稱，然后顯示出該類目下網頁標題，當鼠標移到該標題上的時候顯示出該網頁的摘要。

（5）內嵌顯示摘要的分類界面（Category with summary inline），它與第四種界面基本上一樣，除了是將網頁的摘要顯示在標題下面。

（6）無類名的分類界面（Category with no category names）,它將類目的名稱和網頁的摘要都去掉了。

（7）無網頁標題的界面（Category with no page titles）,只顯示出類目供瀏覽。

Hao Chen 和Susan Dumais的挑選了西雅圖地區微軟公司的雇員參加這次實驗。他們代表著不同年齡、背景、工作和教育水平的人群。每個人的實驗都被分為兩個部分，每一部分完成15個檢索提問。在這兩部分中，使用不同的檢索界面。在完成檢索任務之后，參加者還要填寫一份網上調查問卷。整個過程大概需要2個小時。

此次實驗的30個檢索提問涉及的主題非常廣泛，包括運動、電影、旅行、新聞、電腦、汽車和地方事物等等。檢索提問難易程度不一，但是在返回的前100個網頁中都可以找到答案。有17個問題的答案出現在返回的前20個網頁中，有13個問題的答案出現在返回的第21－100個網頁中。為了消除其它因素的影響，Hao Chen和Susan Dumais將每一個檢索提問所用的檢索詞固定下來，并且將結果緩存下來，保證同樣的檢索提問返回一樣的結果。他們還檢查了返回網頁鏈接的有效性，這樣影響檢索效果的因素就只有用戶界面了。

在實驗過程中，檢索者的屏幕會出現三個窗口。頂部的窗口是比較小的控制窗口，它顯示檢索提問、檢索詞及計時器和“找到它了”、“放棄此題”這兩個按鈕。左邊窗口出現返回的結果（采用不同的用戶界面），用戶點擊左邊窗口中的結果時，右邊窗口就顯示出相應的網頁。當參加者找到答案的時候，就點擊控制窗口中的“找到它了”，如果沒有找到，可以點擊“放棄此題”。定時器每五分鐘提醒一次用戶是繼續此次檢索還是進行新的檢索。

對于用戶界面的評價，采用的是將用戶的主觀感受和客觀結果（包括檢索所花費的時間和準確度等）相結合的方式。結果發現所有的分類界面都要比清單式的界面效果好。效果最好的是內嵌顯示摘要的分類界面。

Hao Chen 和Susan Dumais的實驗說明自動分類系統用戶界面的設計應該最大限度地幫助用戶對返回結果的相關性進行判斷。所以，不但要將類名顯示出來還應包括類名的說明，使用戶能夠迅速了解該類的內容，做出相應的判斷。類目結構之間的層次也不要過多，太多的話會使得用戶在瀏覽的過程中迷失，感到無所適從。類目之間的排列可以按結果從多到少的順序排列，同一類目中的網頁可以按與該類目之間的緊密程度排列。每個類目中的相關網頁給出與檢索詞內容相關的摘要。

凡是有該標志的文章，都是該blog博主Caoer（草兒）原創，凡是索引、收藏
、轉載請注明來處和原文作者。非常感謝。

posted on 2006-06-24 13:33 草兒閱讀(533) 評論(0) 編輯收藏所屬分類: BI and DM

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關文章: Capacity Planning for the Data Warehouse Environment Bill Gates Is A Failure cognos開發心得 WEB數據倉庫系統層次結構輕量級數據倉庫移動電信數據倉庫設計六環節數據挖掘--極具發展前景的新領域智能學習資源最佳JAVA BI工具專家觀點：數據挖掘的本質

無為

公告

隨筆分類(222)

隨筆檔案(188)

相冊

收藏夾(6)

AJAX

DB BI DM

ＪＡＶＡ編程論壇

ＵＭＬ技術論壇

搜索

積分與排名

最新評論

閱讀排行榜