Posted on 2012-06-17 18:36
天才 閱讀(64)
評論(0) 編輯 收藏
所有的算法都會(huì)有個(gè)假設(shè)前提,所有假設(shè)都是基于用戶行為的分析。而算法就是把這些分析公式化。
PR算法主要基于數(shù)量假設(shè)和質(zhì)量假設(shè)兩個(gè)方面考慮的。
數(shù)量假設(shè):該頁面收到越多的入鏈(其他網(wǎng)頁對該頁面的鏈接稱為入鏈),則表示該網(wǎng)頁越重要。也就是一個(gè)好的頁面肯定會(huì)獲得很多其他頁面的推薦。
質(zhì)量假設(shè):指向該頁面的入鏈的質(zhì)量不同,質(zhì)量高的網(wǎng)頁會(huì)通過鏈接傳遞更多的權(quán)重,越是質(zhì)量高的網(wǎng)頁指向該頁面,則表示該頁面越重要。也就是一個(gè)好的網(wǎng)頁肯定也會(huì)獲得其他好的網(wǎng)頁的認(rèn)同。
通過以上兩個(gè)假設(shè),PR算法剛開始會(huì)挑選一批網(wǎng)頁作為種子網(wǎng)頁并賦予較高的PR,通過迭代遞歸算法計(jì)算來更新每個(gè)頁面節(jié)點(diǎn)的PR得分,直到得分穩(wěn)定為止,即為當(dāng)前頁面PR得分。
PR計(jì)算出來的結(jié)果是對網(wǎng)頁重要性的評估,作為網(wǎng)頁排名其中的一個(gè)因素。但PR是一個(gè)全局性的算法,和具體查詢無關(guān),即和相關(guān)性無關(guān)的。PR高不能 說明該網(wǎng)頁相關(guān)。假如搜索引擎只用PR這一算法進(jìn)行排序的話,那無論你輸入任何的查詢詞,輸出的結(jié)果都是一樣的,誰PR高就誰排前面。
過度追求PR的結(jié)果往往得不償失,PR重要嗎?PR不重要嗎?看果園去!
對于PR來說,一個(gè)高不是高,大家高才是真的高!
PR的計(jì)算很簡單,假如A網(wǎng)頁有兩個(gè)出鏈分別連接到B網(wǎng)頁和C網(wǎng)頁。假如A網(wǎng)頁的PR值是1,那么以概率平均分配的原則,B和C網(wǎng)頁都會(huì)平均得到 0.5值的傳遞。這種計(jì)算方法是建立在隨機(jī)游走模型上的,隨機(jī)游走模型是指假設(shè)這個(gè)網(wǎng)頁有三個(gè)出鏈,用戶點(diǎn)擊每個(gè)出鏈的概率是一樣的,所以傳遞的PR值也 是一樣的。
由于網(wǎng)頁之間是互相連接的,所以PR不能一直循環(huán)傳遞下去,否則最后所有網(wǎng)頁的PR值都會(huì)無窮大。所以PR算法引入了衰減因子的概念,即是中轉(zhuǎn)的次數(shù)越多離種子網(wǎng)頁越遠(yuǎn),傳遞的PR值越少,直到傳遞值為0得分穩(wěn)定為止。才計(jì)算最后PR得分,加入排序結(jié)果的計(jì)算中。
另外,有些網(wǎng)頁只有入鏈沒有出鏈,那么會(huì)導(dǎo)致積蓄的PR值越來越高,而不能傳遞出去。這樣會(huì)違背PR的設(shè)計(jì)初衷,影響公平性。這種結(jié)構(gòu)被稱為鏈接陷阱。
遠(yuǎn)程跳轉(zhuǎn)是解決鏈接陷阱的通用方式,就是PR的傳遞并不局限于出鏈的傳遞,也可以以一定的概率向任意一個(gè)頁面?zhèn)鬟fPR。
PR算法作為谷歌標(biāo)志性算法,早已普遍運(yùn)用到反作弊當(dāng)中,即以挑選出一批作弊網(wǎng)頁作為種子網(wǎng)頁(挑選信任網(wǎng)頁也亦然),給予一定的作弊分值(或信任分值),跟PR算法一樣進(jìn)行傳遞,設(shè)定一個(gè)懲罰閥值,達(dá)到則為作弊網(wǎng)頁。
這種反作弊是基于假設(shè):
一、如果一個(gè)網(wǎng)頁將其鏈接指向作弊網(wǎng)頁,則這個(gè)網(wǎng)頁很可能也是作弊網(wǎng)頁。
二、如果一個(gè)網(wǎng)頁被作弊網(wǎng)頁指向,則不能說明這個(gè)網(wǎng)頁是作弊的。
當(dāng)然這只是最原始的反作弊思路。研究搜索引擎算法不應(yīng)該只盯著公式看,要看這個(gè)算法解決了什么問題,是基于什么樣的假設(shè),這種假設(shè)是不是符合用戶行為。了解了算法的來龍去脈,才能更好的知道搜索引擎解決問題的方法。這樣才是學(xué)習(xí)SEO的王道!
了解規(guī)則是為了更好的運(yùn)用規(guī)則,避免違反規(guī)則受到懲罰。
作為一個(gè)文科生,我給大家最后的忠告是:珍惜生命,遠(yuǎn)離公式!!!