無為

無為則可為，無為則至深！

:: 管理

190 Posts :: 291 Stories :: 258 Comments :: 0 Trackbacks

一、什么是搜索行為分析

用戶在使用搜索引擎時，動輒返回上千條返回記錄，但里面卻充斥著大量與用戶需求無關的網頁，這對用戶從搜索引擎中獲取知識帶來極大的不變。因此有必要對用戶的搜索行為進行分析，有針對性地返回用戶所需要的記錄。

搜索行為分析主要有兩種類型：“群體行為分析”和“個性化搜索分析”。現在許多搜索引擎推出的“熱門關鍵詞”服務就是一個群體行為分析的典型例子。“熱門關鍵詞”是通過以往的查詢記錄對有相似興趣的用戶進行聚類，同時使用查詢關鍵字擴展技術，盡量提供用戶使用最多的關鍵詞，用戶可以直接點擊這些關鍵詞連接。由于人們的從眾心理，“熱門關鍵詞”往往也是你想查詢的關鍵詞。個性化搜索則是通過積累用戶的搜索個性化數據（也就是用戶搜索日志），將使用戶的搜索更加精確，更符合每個用戶的需求。

二、為什么要進行用戶搜索行為分析

1、用戶瀏覽的選擇性

用戶每次搜索時，搜索引擎都會返回成百上千個查詢結果，這些結果當中有一部分是質量較高的結果，有一部分是質量很差的查詢結果，用戶根據結果的快照或摘要進行判斷，瀏覽他所需要的結果．因此，如果用戶點擊一個查詢結果，就可認為用戶視此查詢結果質量較高；被用戶多次點擊瀏覽的頁面無疑就是用戶認為質量較高的頁面，這說明用戶的瀏覽行為具有選擇性。

2、用戶瀏覽的局部性

用戶點擊的網頁地址相當集中．大部分用戶點擊都落在前面幾頁，拿天網搜索為例。第一頁的用戶點擊占總點擊的47％，而前面5頁的點擊占到總點擊的75％以上，不到總量1／3的頁面的點擊次數占到總點擊次數的2／3 J，這表明用戶點擊URL具有很強的局部性，用戶點擊的局部性提醒我們注意排在前5頁的查詢結果，保證排在前幾頁的查詢結果都是高質量的查詢結果。

3、用戶點擊率的問題

由于網頁存在的時間越長，累計下來的訪問次數可能越多，故網頁被訪問的次數不能很好地反映一個網頁內容的質量。所以，應使用頁面的用戶點擊率來反映頁面的質量。用戶點擊率是頁面被訪問次數和頁面被搜索次數之和。雖然每次用戶的點擊都是在某查詢項下的點擊，但研究結果表明，在大部分的查詢項下，URL的點擊頻率和在所有查詢項下URL的總點擊頻率基本一致．因此，在計算用戶點擊率時就不必考慮該點擊次數是在什么查詢項下的點擊次數。

三、利用WEB挖掘技術進行用戶搜索行為的分析

WEB日志挖掘的主要目標是從WEB的訪問記錄中抽取感興趣的模式，互連網中的每個服務器都保留了訪問日志(WEB Access Log)，記錄了關于用戶訪問和交互的信息。分析這些數據可以幫助理解用戶的行為，從而改進站點的結構，或為用戶提供個性化的服務。利用web挖掘技術，可以提高搜索引擎獲取信息的準確性，并可以對用戶搜索結果進行相關處理，盡量實現查準率和查全率的有機結合。可以從以下幾個方面運用WEB挖掘技術進行用戶搜索行為的分析：

1、文檔自動分類和搜索結果聚類

（1）目錄式搜索引擎和機器人撞索引擎各有利弊。應用Web挖掘技術，可以有效地解決以上問題。搜索引擎通過向Interact發送稱為網絡蜘蛛的機器人程序自動地從所爬行過的網頁上抽取檢索到的信息，然后連同該網頁的URL地址一起存入搜索引擎的索引數據庫中。與一般的純文本文件不同，web頁是HTML格式的超文本，頁面中有很多標記，用以描述頁面的標題、關鍵詞、以及URL等，這些都包含了重要的分類信息。通過Web挖掘和機器學習技術可以對索引數據庫中的信息進行整理，對文檔進行自動分類，從而提高了用戶的檢索速度和檢索的精確度。由于采用了機器自動分類的方法，克服了人工分類中信息檢索不全面、更新速度慢的缺點。最常用的文檔自動分類方法為樸素貝葉斯分類，k最鄰近參照分類(kNN)，還有支持向量機技術（SVM）。分類結果可視化顯示時可以采取不同類別不同層次的形式，對每類的點集日志記錄，可以返回給搜索引擎進行分析，例如通過不同類別權重的調整，可以對用戶搜索行為進行反饋

（2）用戶檢索時會得到大量的返回記錄集，其中很大一部分是與用戶的查詢請求不相關的。通過對檢索結果的文檔集合進行聚類，可以使得與用戶檢索結果相關的文檔聚類得比較靠近，從而遠離那些不相關的文檔。在對用戶搜索日志進行分析時，可以把相關信息整合到結果聚類的過程，對擁有相似興趣的人返回的搜索結果集相關度也應該是比較高的。

2、實現個性化的搜索引擎

上面說到擁有相同興趣度的人，經過日志分析處理后，返回的搜索結果也應該是相關的。但從另一個方面看，搜索引擎還存在個性化問題。因為不同的人使用相同的檢索詞得到的結果是相同的，也就是說搜索引擎沒有考慮人的地域、年齡、工作性質等方面的差別。實際上，用戶在使用搜索引擎檢索信息的同時，在網站的服務器上留下了大量的有用信息。當用戶接收到搜索引擎的返回結果時，用戶會根據簡短的文檔摘要進行判斷，發現感興趣的內容后會點擊該文檔，查看詳細內容。通過對用戶在文檔上停留的時間，以及是否在該文檔進一步訪問其他鏈接到該頁的文檔，是否重復訪問該文檔等歷史信息的不斷收集，可以發現一些與用戶所檢索的關鍵詞密切相關的網頁。

3、自動文摘的形成

搜索引擎在向用戶返回檢索結果時，通常要給出每個文檔的一個簡單的摘要。大部分搜索擎是機械地截取文檔的前幾句。利用web文本挖掘中的文本總結技術，可以從web頁中提煉出重要信息形成文檔摘要，使用戶能快速、方便地了解檢索信息。自動文摘技術可以使用戶直觀地快速地了解檢索出文檔的主要內容。如果是機械地提取文檔前幾句做為文摘，可能誤導作者點擊該文檔，但對用戶日志的分析卻不會挖掘出此類情況。

4、查詢結果的相關度排序

相關性是WEB檢索的核心。搜索引擎的主要目標是檢索出所有與用戶查詢相關的文檔，盡可能減少不相關的文檔。基于Web文檔內容的挖掘是建立在這樣一種假設之上，即從文檔中提取的文檔表示或者相關概率都可以是相對固定的。說得明確一些，就是認為所有文檔都有一些客觀存的特征信息在那里等待提取。這是從客觀的角度上檢索相關文檔。而文檔是否相關的最終判定者應該是用戶。用戶主觀上認為相關的文檔才是真正的相關文檔。基于文檔內容中包括的超文本鏈接信息的挖掘雖然考慮了網頁設計者對相關文檔的主觀判定，但忽略了真正的網頁使用者——用戶的心理。通過分析搜索用戶日志就能知道用戶在文檔相關判定上的意見。通過分析這些用戶選擇意見能夠更好地挖掘相關文檔。

凡是有該標志的文章，都是該blog博主Caoer（草兒）原創，凡是索引、收藏
、轉載請注明來處和原文作者。非常感謝。

posted on 2006-05-25 21:40 草兒閱讀(162) 評論(0) 編輯收藏所屬分類: BI and DM

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關文章: Capacity Planning for the Data Warehouse Environment Bill Gates Is A Failure cognos開發心得 WEB數據倉庫系統層次結構輕量級數據倉庫移動電信數據倉庫設計六環節數據挖掘--極具發展前景的新領域智能學習資源最佳JAVA BI工具專家觀點：數據挖掘的本質

無為

公告

隨筆分類(222)

隨筆檔案(188)

相冊

收藏夾(6)

AJAX

DB BI DM

ＪＡＶＡ編程論壇

ＵＭＬ技術論壇

搜索

積分與排名

最新評論

閱讀排行榜