亚洲熟妇av一区二区三区 ,亚洲欧美中文日韩视频,亚洲国产精品无码av

個性化推薦技術(shù)漫談[轉(zhuǎn)載]

如果說過去的十年是搜索技術(shù)大行其道的十年，那么個性化推薦技術(shù)將成為未來十年中最重要的革新之一。目前幾乎所有大型的電子商務(wù)系統(tǒng)，如Amazon、CDNOW、Netflix等，都不同程度地使用了各種形式的推薦系統(tǒng)。而近來以“發(fā)現(xiàn)”為核心的網(wǎng)站正開始在互聯(lián)網(wǎng)上嶄露頭角，比如側(cè)重于音樂推薦的八寶盒，側(cè)重于圖書推薦的豆瓣等等。

那么，一個好的推薦系統(tǒng)需要滿足什么目標(biāo)呢？
個性化推薦系統(tǒng)必須能夠基于用戶之前的口味和喜好提供相關(guān)的精確的推薦，而且這種口味和喜歡的收集必須盡量少的需要用戶的勞動。推薦的結(jié)果必須能夠?qū)崟r計算，這樣才能夠在用戶離開網(wǎng)站前之前獲得推薦的內(nèi)容，并且及時的對推薦結(jié)果作出反饋。實時性也是推薦系統(tǒng)與通常的數(shù)據(jù)挖掘技術(shù)顯著不同的一個特點。

一個完整的推薦系統(tǒng)由三部分構(gòu)成：行為記錄模塊、模型分析模塊和推薦模塊。行為記錄模塊負責(zé)記錄能夠體現(xiàn)用戶喜好的行為，比如購買、下載、評分等。這部分看起來簡單，其實需要非常仔細的設(shè)計。比如說購買和評分這兩種行為表達潛在的喜好程度就不盡相同完善的行為記錄需要能夠綜合多種不同的用戶行為，處理不同行為的累加。模型分析模塊的功能則實現(xiàn)了對用戶行為記錄的分析，采用不同算法建立起模型描述用戶的喜好信息。最后，通過推薦模塊，實時的從內(nèi)容集篩選出目標(biāo)用戶可能會感興趣的內(nèi)容推薦給用戶。因此，除了推薦系統(tǒng)本身，為了實現(xiàn)推薦，還需要一個可供推薦的內(nèi)容集。比如，對于音樂推薦系統(tǒng)來說，一個音樂庫就是這樣的內(nèi)容集。我們對內(nèi)容集本身需要提供的信息要求非常低，在經(jīng)典的協(xié)同過濾算法下，內(nèi)容集甚至只需要提供ID就足夠。而對于基于內(nèi)容的推薦系統(tǒng)來說，由于往往需要對內(nèi)容進行特征抽取和索引，我們就會需要提供更多的領(lǐng)域知識和內(nèi)容屬性。這種情況下，還是拿音樂舉例，歌手、流派之類的屬性和音頻信息就成為必需的內(nèi)容集信息。

迄今為止在個性化推薦系統(tǒng)中，協(xié)同過濾（Collaborative Filtering）技術(shù)是應(yīng)用最成功的技術(shù)。目前國內(nèi)外互聯(lián)網(wǎng)上有許多大型網(wǎng)站已經(jīng)應(yīng)用這項技術(shù)為用戶更加智能的推薦內(nèi)容。如果你想要研究協(xié)同過濾，一定不能錯過MovieLens（http://movielens.umn.edu/）。它是協(xié)同過濾最著名的研究項目之一。

第一代的協(xié)同過濾技術(shù)，又被稱為基于用戶（User-based）的協(xié)同過濾。基于用戶的協(xié)同過濾，基本原理是基于用戶行為選擇的相關(guān)性。用戶的行為選擇這里指的是下載、購買、評價等等能夠顯式或者隱式體現(xiàn)出用戶喜好的行為。在一個典型的基于協(xié)同過濾技術(shù)的推薦系統(tǒng)中，輸入數(shù)據(jù)通常可以表述為一個m×n 的用戶內(nèi)容矩陣R，m是用戶數(shù)，n是內(nèi)容數(shù)。矩陣的值與內(nèi)容的類型有關(guān)，通常由行為記錄模塊決定。如果內(nèi)容是網(wǎng)上書店中的書，則矩陣的值可以表示用戶購買與否，例如1表示購買，0表示沒有購買；或者表示用戶對它的評價有多高，這樣的評價值就可以有幾個等級，比如常見的1～5級評價制。

基于用戶的協(xié)同過濾，通過比較目標(biāo)用戶的一系列行為選擇和其他用戶之間的相似性，來識別出一組相互具有類似喜好的用戶，又可以稱為“同好”。一旦系統(tǒng)能夠識別一個用戶的同好用戶，就能夠?qū)⑺麄冏罡信d趣的內(nèi)容作為當(dāng)前用戶的推薦結(jié)果推薦給這個用戶。也就是說，以前的行為選擇與你相似的用戶，在以后的行為中很可能也會和你相似。因此將這些用戶做為基準(zhǔn)來向你推薦內(nèi)容。

協(xié)同過濾的核心問題是尋找與目標(biāo)用戶興趣相近的一組用戶。這種相似用戶通常被稱為最近鄰居（Nearest Neighbor）。用戶之間的相似度是通過比較兩個用戶的行為選擇矢量得到的。目前，比較行為選擇矢量的相似度計算方法有許多種，比較經(jīng)典的算法包括泊松相關(guān)系數(shù)（Person Correlation Coefficient）和余弦相似性（Cosine-based Similarity）。

“最近鄰居”產(chǎn)生后，我們就能夠計算得到用戶最可能感興趣的內(nèi)容集（也叫做TopN推薦集）。為了得到推薦集，分別統(tǒng)計“最近鄰居”中的用戶對不同內(nèi)容的興趣度，取其中排在最前面的內(nèi)容作為推薦集。下面是一個簡化的示例：假如用戶張三有兩個同好：李四和王五。

張三喜歡看電影A；

李四喜歡看電影A，B，C和D；

王五喜歡看電影A，B，D，E和F；

這樣，推薦系統(tǒng)就能夠過濾出相似用戶都喜歡的電影B和D作為張三最可能也會喜歡的電影推薦給張三。

基于用戶的協(xié)同過濾技術(shù)在個性化推薦系統(tǒng)中獲得了極大的成功，但它有自身的局限性。推薦集的產(chǎn)生方式意味著一個內(nèi)容只有已經(jīng)被用戶選擇（購買）后才有機會被推薦給其他用戶。對于一個網(wǎng)上書店來說，新上架的書因為還沒有被相當(dāng)數(shù)量的用戶購買或者評價的記錄，便很少有機會被用戶的“最近鄰居”篩選進入推薦集。這個問題，也被稱之為協(xié)同過濾的“冷啟動”問題。

此外，因為計算用戶的相似度時，是通過將目標(biāo)用戶的歷史行為記錄與其他每一個用戶的記錄相比較得出的，所以對于一個現(xiàn)實的推薦系統(tǒng)來說，擴展性將成為非常嚴(yán)重的問題。設(shè)想一下，對于一個擁有上百萬用戶的網(wǎng)站來說，每計算一個用戶都將涉及到上百萬次的比較，更不要說其中會帶來的大量數(shù)據(jù)庫IO操作的開銷。

于是第二代基于內(nèi)容項（Item-based）的協(xié)同過濾技術(shù)就產(chǎn)生了。與基于用戶的技術(shù)不同的是，這種方法比較的是內(nèi)容項與內(nèi)容項之間的相似度。Item-based 方法同樣需要進行三個步驟獲得推薦：1）得到內(nèi)容項（Item）的歷史評分?jǐn)?shù)據(jù)；2）針對內(nèi)容項進行內(nèi)容項之間的相似度計算，找到目標(biāo)內(nèi)容項的“最近鄰居”；3）產(chǎn)生推薦。這里內(nèi)容項之間的相似度是通過比較兩個內(nèi)容項上的用戶行為選擇矢量得到的。舉個例子，假設(shè)用戶和內(nèi)容項如下：

	電影A	電影B	電影C	電影D
張三	喜歡
李四	喜歡	喜歡	喜歡	喜歡
王五	不喜歡		不喜歡	不喜歡
趙六	喜歡	喜歡		喜歡

可以看出，電影A與D是最相似的。因為張三喜歡A，所以電影D就可以推薦給張三。

和基于用戶的推薦系統(tǒng)相比，基于內(nèi)容項的推薦系統(tǒng)最大的改進是更具有擴展性。基于內(nèi)容項的方法通過計算內(nèi)容項之間的相似性來代替用戶之間的相似性。對于通常的互聯(lián)網(wǎng)應(yīng)用來說，提供的內(nèi)容項數(shù)量相對較為穩(wěn)定。比如一個大型網(wǎng)上書店，可能出售的書籍?dāng)?shù)量也就在幾十萬上下，而用戶數(shù)量就可能達到幾百萬。所以，比起用戶，內(nèi)容項之間的相似性計算需要的計算量要少很多，從而大大降低了在線計算量，提高系統(tǒng)性能。基于內(nèi)容項的推薦系統(tǒng)應(yīng)用最為成功的是Amazon。Amazon為此還申請了一項專利叫做”Collaborative recommendations using item-to-item similarity mappings”[1]。當(dāng)然，在降低了計算量的同時，完全基于內(nèi)容項的推薦技術(shù)也在推薦的準(zhǔn)確度上做了小小的犧牲。大多數(shù)情況下，基于用戶的推薦技術(shù)表現(xiàn)要略好于基于內(nèi)容項的方法。這是因為基于內(nèi)容的方法忽略了相似用戶之間的組群特征。

不論是第一代的基于用戶方法，還是第二代的基于內(nèi)容項方法，都不可避免的遇到數(shù)據(jù)稀疏的問題。在任何一個網(wǎng)站中，用戶的評分記錄或者購買記錄，相對整個可供選擇的內(nèi)容集來說，都是很小的一部分。所以在許多推薦系統(tǒng)中，每個用戶涉及的數(shù)據(jù)量相當(dāng)有限，在一些大的系統(tǒng)如Amazon中，用戶最多不過就評價過上百萬本書的1％，造成評估數(shù)據(jù)相當(dāng)稀疏。當(dāng)用戶評價過的內(nèi)容之間找不到交集時，就難以判斷用戶的口味是否相似，難以找到相似用戶集，導(dǎo)致推薦效果大大降低。為了解決用戶數(shù)據(jù)的稀疏問題，最方便的辦法就是將用戶對沒有選擇過的內(nèi)容項的評分設(shè)為一個固定的缺省值，例如用戶的平均評分。針對如何預(yù)測遺漏的評分業(yè)內(nèi)又提出了很多種方法，不過一般來說采用最簡單的改進方法就可以有效地提高協(xié)同過濾推薦系統(tǒng)的準(zhǔn)確度。

另外一方面，即便采用了基于內(nèi)容項的方法，在數(shù)據(jù)量巨大的時候，計算復(fù)雜度仍然成為性能瓶頸。為了進一步解決協(xié)同過濾技術(shù)的擴展性能問題，目前比較有效的辦法是在用戶評分?jǐn)?shù)據(jù)上做一次聚類分析(clustering)。聚類技術(shù)首先將具有相似興趣愛好的用戶分配到相同的分類中。聚類產(chǎn)生之后，它或者將“最近鄰居”搜索對象限制在最相近的聚類中，根據(jù)類中其他用戶的評價預(yù)測目標(biāo)用戶的評價，或者用聚類的中心作為近似提取推薦結(jié)果。由于用戶之間的分類相對變化比較小，因此聚類過程往往可以離線進行，而無需實時計算，這樣就大大降低了實時推薦的計算壓力，提高推薦系統(tǒng)的速度。一般來說，聚類將用戶分為多少個類，推薦系統(tǒng)的整體速度就能夠提高多少倍。具體選擇什么樣的聚類算法，又會因應(yīng)用領(lǐng)域和數(shù)據(jù)的分布特性而不同。如果聚類算法選擇不當(dāng)，反而會降低推薦的準(zhǔn)確性。近年來，推薦系統(tǒng)的算法技術(shù)的發(fā)展也有了一些新的方向，比如SlopeOne，SVD等方法，就不一一列舉了。

在我看來，一個商用推薦系統(tǒng)的尤其關(guān)鍵之處在于對海量用戶數(shù)據(jù)的處理。因為推薦系統(tǒng)是數(shù)據(jù)優(yōu)先，數(shù)據(jù)的積累越多對推薦的精度就越有好處。而當(dāng)用戶的行為數(shù)據(jù)真正積累到上百萬甚至上億時，如何在合理時間內(nèi)得出有效的推薦，就是對推薦技術(shù)最大的考驗。除此之外，一個優(yōu)秀的推薦系統(tǒng)需要能夠結(jié)合內(nèi)容相似與用戶行為相。傳統(tǒng)的協(xié)同過濾方法是忽略內(nèi)容本身的屬性的，這一方面固然是對數(shù)據(jù)要求少的優(yōu)點，但另一方面也帶來了難以避免的“冷啟動”問題。其實，隨著標(biāo)簽系統(tǒng)在互聯(lián)網(wǎng)上的廣泛應(yīng)用，標(biāo)簽本身就不失為是一種很好的內(nèi)容屬性。如何利用也是值得大家探討的。充分利用到內(nèi)容本身的屬性，將不同的相似性結(jié)合起來，這會給基于協(xié)同過濾的推薦技術(shù)帶來新的動力。最后一點，設(shè)計良好的推薦技術(shù)要能夠從用戶對推薦內(nèi)容的反饋中自行調(diào)整和學(xué)習(xí)。因為實際上每個用戶對于推薦的內(nèi)容都有不同的要求，比如有的用戶可能偏好比較熱門的內(nèi)容，有的用戶更愿意發(fā)現(xiàn)冷門的內(nèi)容。針對不同用戶的反饋來不斷學(xué)習(xí)每個用戶的特征，才能夠避免所采用算法本身先天的偏差，獲得較為理想的效果。

本文為音樂八寶盒（http://www.8box.cn/） co-funder　大為提供

轉(zhuǎn)載：http://blog.csdn.net/java060515/archive/2007/04/19/1570243.aspx

posted on 2008-07-31 14:00 流浪汗閱讀(2089) 評論(0) 編輯收藏所屬分類: Search

留言簿(14)

隨筆分類

隨筆檔案

文章分類

文章檔案

新聞分類

新聞檔案

收藏夾

友情鏈接

同學(xué)鏈接

學(xué)習(xí)鏈接

最新隨筆

搜索

積分與排名

最新評論

閱讀排行榜

評論排行榜


只有注冊用戶登錄后才能發(fā)表評論。




網(wǎng)站導(dǎo)航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關(guān)文章: 推薦引擎：從搜索到發(fā)現(xiàn)[轉(zhuǎn)載] 推薦引擎機制的前提、基本方式和典型應(yīng)用[轉(zhuǎn)載] 網(wǎng)站推薦機制中的藝術(shù)、科學(xué)與商務(wù)問題[轉(zhuǎn)載] 音樂八寶盒的推薦引擎模式[轉(zhuǎn)載] 個性化推薦技術(shù)漫談[轉(zhuǎn)載]