一、什么是搜索行為分析
用戶在使用搜索引擎時(shí),動輒返回上千條返回記錄,但里面卻充斥著大量與用戶需求無關(guān)的網(wǎng)頁,這對用戶從搜索引擎中獲取知識帶來極大的不變。因此有必要對用戶的搜索行為進(jìn)行分析,有針對性地返回用戶所需要的記錄。
搜索行為分析主要有兩種類型:“群體行為分析”和“個(gè)性化搜索分析”。現(xiàn)在許多搜索引擎推出的“熱門關(guān)鍵詞”服務(wù)就是一個(gè)群體行為分析的典型例子。“熱門關(guān)鍵詞”是通過以往的查詢記錄對有相似興趣的用戶進(jìn)行聚類,同時(shí)使用查詢關(guān)鍵字?jǐn)U展技術(shù),盡量提供用戶使用最多的關(guān)鍵詞,用戶可以直接點(diǎn)擊這些關(guān)鍵詞連接。由于人們的從眾心理,“熱門關(guān)鍵詞”往往也是你想查詢的關(guān)鍵詞。個(gè)性化搜索則是通過積累用戶的搜索個(gè)性化數(shù)據(jù)(也就是用戶搜索日志),將使用戶的搜索更加精確,更符合每個(gè)用戶的需求。
二、為什么要進(jìn)行用戶搜索行為分析
1、 用戶瀏覽的選擇性
用戶每次搜索時(shí),搜索引擎都會返回成百上千個(gè)查詢結(jié)果,這些結(jié)果當(dāng)中有一部分是質(zhì)量較高的結(jié)果,有一部分是質(zhì)量很差的查詢結(jié)果,用戶根據(jù)結(jié)果的快照或摘要進(jìn)行判斷,瀏覽他所需要的結(jié)果.因此,如果用戶點(diǎn)擊一個(gè)查詢結(jié)果,就可認(rèn)為用戶視此查詢結(jié)果質(zhì)量較高;被用戶多次點(diǎn)擊瀏覽的頁面無疑就是用戶認(rèn)為質(zhì)量較高的頁面,這說明用戶的瀏覽行為具有選擇性。
2、用戶瀏覽的局部性
用戶點(diǎn)擊的網(wǎng)頁地址相當(dāng)集中.大部分用戶點(diǎn)擊都落在前面幾頁,拿天網(wǎng)搜索為例。第一頁的用戶點(diǎn)擊占總點(diǎn)擊的47%,而前面5頁的點(diǎn)擊占到總點(diǎn)擊的75%以上,不到總量1/3的頁面的點(diǎn)擊次數(shù)占到總點(diǎn)擊次數(shù)的2/3 J,這表明用戶點(diǎn)擊URL具有很強(qiáng)的局部性,用戶點(diǎn)擊的局部性提醒我們注意排在前5頁的查詢結(jié)果,保證排在前幾頁的查詢結(jié)果都是高質(zhì)量的查詢結(jié)果。
3、 用戶點(diǎn)擊率的問題
由于網(wǎng)頁存在的時(shí)間越長,累計(jì)下來的訪問次數(shù)可能越多,故網(wǎng)頁被訪問的次數(shù)不能很好地反映一個(gè)網(wǎng)頁內(nèi)容的質(zhì)量。所以,應(yīng)使用頁面的用戶點(diǎn)擊率來反映頁面的質(zhì)量。用戶點(diǎn)擊率是頁面被訪問次數(shù)和頁面被搜索次數(shù)之和。雖然每次用戶的點(diǎn)擊都是在某查詢項(xiàng)下的點(diǎn)擊,但研究結(jié)果表明,在大部分的查詢項(xiàng)下,URL的點(diǎn)擊頻率和在所有查詢項(xiàng)下URL的總點(diǎn)擊頻率基本一致.因此,在計(jì)算用戶點(diǎn)擊率時(shí)就不必考慮該點(diǎn)擊次數(shù)是在什么查詢項(xiàng)下的點(diǎn)擊次數(shù)。
三、利用WEB挖掘技術(shù)進(jìn)行用戶搜索行為的分析
WEB日志挖掘的主要目標(biāo)是從WEB的訪問記錄中抽取感興趣的模式,互連網(wǎng)中的每個(gè)服務(wù)器都保留了訪問日志(WEB Access Log),記錄了關(guān)于用戶訪問和交互的信息。分析這些數(shù)據(jù)可以幫助理解用戶的行為,從而改進(jìn)站點(diǎn)的結(jié)構(gòu),或?yàn)橛脩籼峁﹤€(gè)性化的服務(wù)。利用web挖掘技術(shù),可以提高搜索引擎獲取信息的準(zhǔn)確性,并可以對用戶搜索結(jié)果進(jìn)行相關(guān)處理,盡量實(shí)現(xiàn)查準(zhǔn)率和查全率的有機(jī)結(jié)合。可以從以下幾個(gè)方面運(yùn)用WEB挖掘技術(shù)進(jìn)行用戶搜索行為的分析:
?
1、 文檔自動分類和搜索結(jié)果聚類
(1)目錄式搜索引擎和機(jī)器人撞索引擎各有利弊。應(yīng)用Web挖掘技術(shù),可以有效地解決以上問題。搜索引擎通過向Interact發(fā)送稱為網(wǎng)絡(luò)蜘蛛的機(jī)器人程序自動地從所爬行過的網(wǎng)頁上抽取檢索到的信息,然后連同該網(wǎng)頁的URL地址一起存入搜索引擎的索引數(shù)據(jù)庫中。與一般的純文本文件不同,web頁是HTML格式的超文本,頁面中有很多標(biāo)記,用以描述頁面的標(biāo)題、關(guān)鍵詞、以及URL等,這些都包含了重要的分類信息。通過Web挖掘和機(jī)器學(xué)習(xí)技術(shù)可以對索引數(shù)據(jù)庫中的信息進(jìn)行整理,對文檔進(jìn)行自動分類,從而提高了用戶的檢索速度和檢索的精確度。由于采用了機(jī)器自動分類的方法,克服了人工分類中信息檢索不全面、更新速度慢的缺點(diǎn)。最常用的文檔自動分類方法為樸素貝葉斯分類,k最鄰近參照分類(kNN),還有支持向量機(jī)技術(shù)(SVM)。分類結(jié)果可視化顯示時(shí)可以采取不同類別不同層次的形式,對每類的點(diǎn)集日志記錄,可以返回給搜索引擎進(jìn)行分析,例如通過不同類別權(quán)重的調(diào)整,可以對用戶搜索行為進(jìn)行反饋
(2)用戶檢索時(shí)會得到大量的返回記錄集,其中很大一部分是與用戶的查詢請求不相關(guān)的。通過對檢索結(jié)果的文檔集合進(jìn)行聚類,可以使得與用戶檢索結(jié)果相關(guān)的文檔聚類得比較靠近,從而遠(yuǎn)離那些不相關(guān)的文檔。在對用戶搜索日志進(jìn)行分析時(shí),可以把相關(guān)信息整合到結(jié)果聚類的過程,對擁有相似興趣的人返回的搜索結(jié)果集相關(guān)度也應(yīng)該是比較高的。
2、 實(shí)現(xiàn)個(gè)性化的搜索引擎
上面說到擁有相同興趣度的人,經(jīng)過日志分析處理后,返回的搜索結(jié)果也應(yīng)該是相關(guān)的。但從另一個(gè)方面看,搜索引擎還存在個(gè)性化問題。因?yàn)椴煌娜耸褂孟嗤臋z索詞得到的結(jié)果是相同的,也就是說搜索引擎沒有考慮人的地域、年齡、工作性質(zhì)等方面的差別。實(shí)際上,用戶在使用搜索引擎檢索信息的同時(shí),在網(wǎng)站的服務(wù)器上留下了大量的有用信息。當(dāng)用戶接收到搜索引擎的返回結(jié)果時(shí),用戶會根據(jù)簡短的文檔摘要進(jìn)行判斷,發(fā)現(xiàn)感興趣的內(nèi)容后會點(diǎn)擊該文檔,查看詳細(xì)內(nèi)容。通過對用戶在文檔上停留的時(shí)間,以及是否在該文檔進(jìn)一步訪問其他鏈接到該頁的文檔,是否重復(fù)訪問該文檔等歷史信息的不斷收集,可以發(fā)現(xiàn)一些與用戶所檢索的關(guān)鍵詞密切相關(guān)的網(wǎng)頁。
3、自動文摘的形成
搜索引擎在向用戶返回檢索結(jié)果時(shí),通常要給出每個(gè)文檔的一個(gè)簡單的摘要。大部分搜索擎是機(jī)械地截取文檔的前幾句。利用web文本挖掘中的文本總結(jié)技術(shù),可以從web頁中提煉出重要信息形成文檔摘要,使用戶能快速、方便地了解檢索信息。自動文摘技術(shù)可以使用戶直觀地快速地了解檢索出文檔的主要內(nèi)容。如果是機(jī)械地提取文檔前幾句做為文摘,可能誤導(dǎo)作者點(diǎn)擊該文檔,但對用戶日志的分析卻不會挖掘出此類情況。
4、 查詢結(jié)果的相關(guān)度排序
相關(guān)性是WEB檢索的核心。搜索引擎的主要目標(biāo)是檢索出所有與用戶查詢相關(guān)的文檔,盡可能減少不相關(guān)的文檔。基于Web文檔內(nèi)容的挖掘是建立在這樣一種假設(shè)之上,即從文檔中提取的文檔表示或者相關(guān)概率都可以是相對固定的。說得明確一些,就是認(rèn)為所有文檔都有一些客觀存的特征信息在那里等待提取。這是從客觀的角度上檢索相關(guān)文檔。而文檔是否相關(guān)的最終判定者應(yīng)該是用戶。用戶主觀上認(rèn)為相關(guān)的文檔才是真正的相關(guān)文檔。基于文檔內(nèi)容中包括的超文本鏈接信息的挖掘雖然考慮了網(wǎng)頁設(shè)計(jì)者對相關(guān)文檔的主觀判定,但忽略了真正的網(wǎng)頁使用者——用戶的心理。通過分析搜索用戶日志就能知道用戶在文檔相關(guān)判定上的意見。通過分析這些用戶選擇意見能夠更好地挖掘相關(guān)文檔。
|