無為

無為則可為，無為則至深！

:: 管理

190 Posts :: 291 Stories :: 258 Comments :: 0 Trackbacks

一、什么是搜索行為分析

用戶在使用搜索引擎時(shí)，動輒返回上千條返回記錄，但里面卻充斥著大量與用戶需求無關(guān)的網(wǎng)頁，這對用戶從搜索引擎中獲取知識帶來極大的不變。因此有必要對用戶的搜索行為進(jìn)行分析，有針對性地返回用戶所需要的記錄。

搜索行為分析主要有兩種類型：“群體行為分析”和“個(gè)性化搜索分析”。現(xiàn)在許多搜索引擎推出的“熱門關(guān)鍵詞”服務(wù)就是一個(gè)群體行為分析的典型例子。“熱門關(guān)鍵詞”是通過以往的查詢記錄對有相似興趣的用戶進(jìn)行聚類，同時(shí)使用查詢關(guān)鍵字?jǐn)U展技術(shù)，盡量提供用戶使用最多的關(guān)鍵詞，用戶可以直接點(diǎn)擊這些關(guān)鍵詞連接。由于人們的從眾心理，“熱門關(guān)鍵詞”往往也是你想查詢的關(guān)鍵詞。個(gè)性化搜索則是通過積累用戶的搜索個(gè)性化數(shù)據(jù)（也就是用戶搜索日志），將使用戶的搜索更加精確，更符合每個(gè)用戶的需求。

二、為什么要進(jìn)行用戶搜索行為分析

1、用戶瀏覽的選擇性

用戶每次搜索時(shí)，搜索引擎都會返回成百上千個(gè)查詢結(jié)果，這些結(jié)果當(dāng)中有一部分是質(zhì)量較高的結(jié)果，有一部分是質(zhì)量很差的查詢結(jié)果，用戶根據(jù)結(jié)果的快照或摘要進(jìn)行判斷，瀏覽他所需要的結(jié)果．因此，如果用戶點(diǎn)擊一個(gè)查詢結(jié)果，就可認(rèn)為用戶視此查詢結(jié)果質(zhì)量較高；被用戶多次點(diǎn)擊瀏覽的頁面無疑就是用戶認(rèn)為質(zhì)量較高的頁面，這說明用戶的瀏覽行為具有選擇性。

2、用戶瀏覽的局部性

用戶點(diǎn)擊的網(wǎng)頁地址相當(dāng)集中．大部分用戶點(diǎn)擊都落在前面幾頁，拿天網(wǎng)搜索為例。第一頁的用戶點(diǎn)擊占總點(diǎn)擊的47％，而前面5頁的點(diǎn)擊占到總點(diǎn)擊的75％以上，不到總量1／3的頁面的點(diǎn)擊次數(shù)占到總點(diǎn)擊次數(shù)的2／3 J，這表明用戶點(diǎn)擊URL具有很強(qiáng)的局部性，用戶點(diǎn)擊的局部性提醒我們注意排在前5頁的查詢結(jié)果，保證排在前幾頁的查詢結(jié)果都是高質(zhì)量的查詢結(jié)果。

3、用戶點(diǎn)擊率的問題

由于網(wǎng)頁存在的時(shí)間越長，累計(jì)下來的訪問次數(shù)可能越多，故網(wǎng)頁被訪問的次數(shù)不能很好地反映一個(gè)網(wǎng)頁內(nèi)容的質(zhì)量。所以，應(yīng)使用頁面的用戶點(diǎn)擊率來反映頁面的質(zhì)量。用戶點(diǎn)擊率是頁面被訪問次數(shù)和頁面被搜索次數(shù)之和。雖然每次用戶的點(diǎn)擊都是在某查詢項(xiàng)下的點(diǎn)擊，但研究結(jié)果表明，在大部分的查詢項(xiàng)下，URL的點(diǎn)擊頻率和在所有查詢項(xiàng)下URL的總點(diǎn)擊頻率基本一致．因此，在計(jì)算用戶點(diǎn)擊率時(shí)就不必考慮該點(diǎn)擊次數(shù)是在什么查詢項(xiàng)下的點(diǎn)擊次數(shù)。

三、利用WEB挖掘技術(shù)進(jìn)行用戶搜索行為的分析

WEB日志挖掘的主要目標(biāo)是從WEB的訪問記錄中抽取感興趣的模式，互連網(wǎng)中的每個(gè)服務(wù)器都保留了訪問日志(WEB Access Log)，記錄了關(guān)于用戶訪問和交互的信息。分析這些數(shù)據(jù)可以幫助理解用戶的行為，從而改進(jìn)站點(diǎn)的結(jié)構(gòu)，或?yàn)橛脩籼峁﹤€(gè)性化的服務(wù)。利用web挖掘技術(shù)，可以提高搜索引擎獲取信息的準(zhǔn)確性，并可以對用戶搜索結(jié)果進(jìn)行相關(guān)處理，盡量實(shí)現(xiàn)查準(zhǔn)率和查全率的有機(jī)結(jié)合。可以從以下幾個(gè)方面運(yùn)用WEB挖掘技術(shù)進(jìn)行用戶搜索行為的分析：

1、文檔自動分類和搜索結(jié)果聚類

（1）目錄式搜索引擎和機(jī)器人撞索引擎各有利弊。應(yīng)用Web挖掘技術(shù)，可以有效地解決以上問題。搜索引擎通過向Interact發(fā)送稱為網(wǎng)絡(luò)蜘蛛的機(jī)器人程序自動地從所爬行過的網(wǎng)頁上抽取檢索到的信息，然后連同該網(wǎng)頁的URL地址一起存入搜索引擎的索引數(shù)據(jù)庫中。與一般的純文本文件不同，web頁是HTML格式的超文本，頁面中有很多標(biāo)記，用以描述頁面的標(biāo)題、關(guān)鍵詞、以及URL等，這些都包含了重要的分類信息。通過Web挖掘和機(jī)器學(xué)習(xí)技術(shù)可以對索引數(shù)據(jù)庫中的信息進(jìn)行整理，對文檔進(jìn)行自動分類，從而提高了用戶的檢索速度和檢索的精確度。由于采用了機(jī)器自動分類的方法，克服了人工分類中信息檢索不全面、更新速度慢的缺點(diǎn)。最常用的文檔自動分類方法為樸素貝葉斯分類，k最鄰近參照分類(kNN)，還有支持向量機(jī)技術(shù)（SVM）。分類結(jié)果可視化顯示時(shí)可以采取不同類別不同層次的形式，對每類的點(diǎn)集日志記錄，可以返回給搜索引擎進(jìn)行分析，例如通過不同類別權(quán)重的調(diào)整，可以對用戶搜索行為進(jìn)行反饋

（2）用戶檢索時(shí)會得到大量的返回記錄集，其中很大一部分是與用戶的查詢請求不相關(guān)的。通過對檢索結(jié)果的文檔集合進(jìn)行聚類，可以使得與用戶檢索結(jié)果相關(guān)的文檔聚類得比較靠近，從而遠(yuǎn)離那些不相關(guān)的文檔。在對用戶搜索日志進(jìn)行分析時(shí)，可以把相關(guān)信息整合到結(jié)果聚類的過程，對擁有相似興趣的人返回的搜索結(jié)果集相關(guān)度也應(yīng)該是比較高的。

2、實(shí)現(xiàn)個(gè)性化的搜索引擎

上面說到擁有相同興趣度的人，經(jīng)過日志分析處理后，返回的搜索結(jié)果也應(yīng)該是相關(guān)的。但從另一個(gè)方面看，搜索引擎還存在個(gè)性化問題。因?yàn)椴煌娜耸褂孟嗤臋z索詞得到的結(jié)果是相同的，也就是說搜索引擎沒有考慮人的地域、年齡、工作性質(zhì)等方面的差別。實(shí)際上，用戶在使用搜索引擎檢索信息的同時(shí)，在網(wǎng)站的服務(wù)器上留下了大量的有用信息。當(dāng)用戶接收到搜索引擎的返回結(jié)果時(shí)，用戶會根據(jù)簡短的文檔摘要進(jìn)行判斷，發(fā)現(xiàn)感興趣的內(nèi)容后會點(diǎn)擊該文檔，查看詳細(xì)內(nèi)容。通過對用戶在文檔上停留的時(shí)間，以及是否在該文檔進(jìn)一步訪問其他鏈接到該頁的文檔，是否重復(fù)訪問該文檔等歷史信息的不斷收集，可以發(fā)現(xiàn)一些與用戶所檢索的關(guān)鍵詞密切相關(guān)的網(wǎng)頁。

3、自動文摘的形成

搜索引擎在向用戶返回檢索結(jié)果時(shí)，通常要給出每個(gè)文檔的一個(gè)簡單的摘要。大部分搜索擎是機(jī)械地截取文檔的前幾句。利用web文本挖掘中的文本總結(jié)技術(shù)，可以從web頁中提煉出重要信息形成文檔摘要，使用戶能快速、方便地了解檢索信息。自動文摘技術(shù)可以使用戶直觀地快速地了解檢索出文檔的主要內(nèi)容。如果是機(jī)械地提取文檔前幾句做為文摘，可能誤導(dǎo)作者點(diǎn)擊該文檔，但對用戶日志的分析卻不會挖掘出此類情況。

4、查詢結(jié)果的相關(guān)度排序

相關(guān)性是WEB檢索的核心。搜索引擎的主要目標(biāo)是檢索出所有與用戶查詢相關(guān)的文檔，盡可能減少不相關(guān)的文檔。基于Web文檔內(nèi)容的挖掘是建立在這樣一種假設(shè)之上，即從文檔中提取的文檔表示或者相關(guān)概率都可以是相對固定的。說得明確一些，就是認(rèn)為所有文檔都有一些客觀存的特征信息在那里等待提取。這是從客觀的角度上檢索相關(guān)文檔。而文檔是否相關(guān)的最終判定者應(yīng)該是用戶。用戶主觀上認(rèn)為相關(guān)的文檔才是真正的相關(guān)文檔。基于文檔內(nèi)容中包括的超文本鏈接信息的挖掘雖然考慮了網(wǎng)頁設(shè)計(jì)者對相關(guān)文檔的主觀判定，但忽略了真正的網(wǎng)頁使用者——用戶的心理。通過分析搜索用戶日志就能知道用戶在文檔相關(guān)判定上的意見。通過分析這些用戶選擇意見能夠更好地挖掘相關(guān)文檔。

凡是有該標(biāo)志的文章，都是該blog博主Caoer（草兒）原創(chuàng)，凡是索引、收藏
、轉(zhuǎn)載請注明來處和原文作者。非常感謝。

posted on 2006-05-25 21:40 草兒閱讀(162) 評論(0) 編輯收藏所屬分類: BI and DM

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發(fā)表評論。




網(wǎng)站導(dǎo)航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關(guān)文章: Capacity Planning for the Data Warehouse Environment Bill Gates Is A Failure cognos開發(fā)心得 WEB數(shù)據(jù)倉庫系統(tǒng)層次結(jié)構(gòu) 輕量級數(shù)據(jù)倉庫移動電信數(shù)據(jù)倉庫設(shè)計(jì)六環(huán)節(jié) 數(shù)據(jù)挖掘--極具發(fā)展前景的新領(lǐng)域智能學(xué)習(xí)資源最佳JAVA BI工具專家觀點(diǎn)：數(shù)據(jù)挖掘的本質(zhì)

無為

公告

隨筆分類(222)

隨筆檔案(188)

相冊

收藏夾(6)

AJAX

DB BI DM

ＪＡＶＡ編程論壇

ＵＭＬ技術(shù)論壇

搜索

積分與排名

最新評論

閱讀排行榜