<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    posts - 30,  comments - 3,  trackbacks - 0
     
    1.馬爾可夫
    2.GBDT,隨機(jī)森林
    3.SVD,LDA等理論
    4.上述理論的工具使用
    5.網(wǎng)絡(luò)可視化工具的調(diào)研

    暫時(shí)就想到這些,到時(shí)候再補(bǔ)充~
    posted @ 2012-02-29 10:16 Seraphi 閱讀(242) | 評(píng)論 (0)編輯 收藏
    Apriori算法乃是關(guān)聯(lián)規(guī)則挖掘的經(jīng)典算法,盡管是94年提出的算法,然而至今也有著旺盛的生命力。在互聯(lián)網(wǎng)科學(xué)領(lǐng)域,也有著廣泛的應(yīng)用,因此還是值得大家都對(duì)此學(xué)習(xí)一下。

    一、術(shù)語(yǔ)
    1.支持度:support,所有實(shí)例中覆蓋某一項(xiàng)集的實(shí)例數(shù)。
    2.置信度:confidence。對(duì)于X→Y這個(gè)規(guī)則,如果數(shù)據(jù)庫(kù)的包含X的實(shí)例數(shù)的c%也包含Y,則X→Y的置信度為c%。
    3.頻繁項(xiàng)集:也稱(chēng)large itemsets,指支持度大于minsup(最小支持度)的項(xiàng)集

    二、思想
    1.Apriori算法思想與其它關(guān)聯(lián)規(guī)則挖掘算法在某些方面是相同的。即首先找出所有的頻繁項(xiàng)集,然后從頻繁項(xiàng)集中抽取出規(guī)則,再?gòu)囊?guī)則中將置信度小于最小置信度的規(guī)則剃除掉。

    2.若項(xiàng)集i為頻繁項(xiàng)集,則其所有子集必為頻繁項(xiàng)集。因此,Apriori算法思想在于從頻繁的k-1項(xiàng)集中合并出k項(xiàng)集,然后剃除掉子集有不是頻繁項(xiàng)集的k項(xiàng)集。

    3.先從數(shù)據(jù)庫(kù)中讀出每條實(shí)例,對(duì)于設(shè)定閾值,選出頻繁1項(xiàng)集,然后從頻繁1項(xiàng)集中合并,并剃除掉包含非頻繁1項(xiàng)集子集的2項(xiàng)集……

    4.符號(hào)說(shuō)明:
    Lk:Set of large(frequent) k-itemsets
    Ck:Set of candidate k-itemsets
    apriori-gen()函數(shù)通過(guò)合并k-1的頻繁項(xiàng)集,生成Ck

    三、算法描述
    1) Apriori基本算法
     1L1={large 1-itemsets};
     2for(k=2;Lk-1!=Φ;k++)
     3{
     4  Ck=apriori-gen(Lk-1);
     5  for(all transaction t∈D)
     6  {
     7     Ct=subset(Ck,t);
     8     for(all candidates c∈Ct)
     9        c.count++;
    10  }

    11  Lk={c∈Ck|c.count>=minsup}
    12}

    13Answer=∪k Lk;

    2)apriori-gen()函數(shù)
        這個(gè)函數(shù)將Lk-1(即所有k-1頻繁項(xiàng)集的集合)作為參數(shù),返回一個(gè)Lk的超集(即Ck
        算法如下:
    1insert into Ck
    2select p.item1, p.item2 ,p.itemk-1,q.itemk-1
    3from Lk-1 p, Lk-1 q
    4where p.item1=q.item1, p.item2=q.item2 , p.itemk-1<q.itemk-1
       
        然后通過(guò)剪枝,剃除掉Ck中某些子集不為頻繁k-1項(xiàng)集的項(xiàng)集,算法如下:
    1for(all items c∈Ck)
    2{
    3     for(all k-1 itemsets s of c)
    4     {
    5        if(s
    ∉Lk-1)
    6           delete c from Ck;
    7     }

    8}
       
    3)從頻繁項(xiàng)集中生成規(guī)則
    1for(all l∈Answer)
    2{
    3  A=set of nonempty-subset(l);
    4  for(all aA)
    5  {
    6    output a→(l-a);
    7  }

    8}
      

    四、舉例(這里將minsup=1,mincof=0.5)
    L3={{1 2 3}{1 2 4}{1 3 4}{1 3 5}{2 3 4}}
    在合并步驟時(shí),選取L3中,前兩個(gè)項(xiàng)都相同,第三個(gè)項(xiàng)不同的項(xiàng)集合并,如{1 2 3}與{1 2 4}合并、{1 3 4}與{1 3 5}合并成{1 2 3 4}和{1 3 4 5}。因此,C4={{1 2 3 4}{1 3 4 5}},但是由于{1 3 4 5}中某子集{3 4 5}并未在L3中出現(xiàn),因此,將{1 3 4 5}剃除掉,所以L4={{1 2 3 4}}。
    然后以L4為例,選取出關(guān)聯(lián)的規(guī)則:
    L4中{1 2 3 4}項(xiàng)集中抽取出(這里只列出左邊為3項(xiàng)的情況):
    {1 2 3}→4
    {1 2 4}→3
    {1 3 4}→2
    {2 3 4}→1
    顯然,因?yàn)橹挥幸粋€(gè)4項(xiàng)集,因此,這四條規(guī)則的置信度都為100%。因此,全數(shù)為關(guān)聯(lián)規(guī)則。

    五、Apriori變體
        有些Apriori變體為追求時(shí)間效率,不是從L1→C2→L2→C3→....的步驟產(chǎn)生,而是從L1→C2→C3'..產(chǎn)生。

    參考文獻(xiàn):
    Agrawal, Rakesh, Srikant, Ramakrishnan. Fast algorithms for mining association rules in large databases. Very Large Data Bases, International Conference Proceedings, p 487, 1994   
    posted @ 2012-02-27 13:08 Seraphi 閱讀(780) | 評(píng)論 (0)編輯 收藏
    大致內(nèi)容:
    本文要解決的主要問(wèn)題是社交網(wǎng)絡(luò)中的標(biāo)簽推薦(本文主要為音樂(lè)、視頻等多媒體對(duì)象推薦合適的標(biāo)簽)。較之以前的推薦策略——a.根據(jù)已有標(biāo)簽進(jìn)行詞語(yǔ)共現(xiàn)的推薦; b.根據(jù)文本特征(如標(biāo)題、描述)來(lái)推薦; c.利用標(biāo)簽相關(guān)性度量來(lái)推薦。大部分僅僅至多使用了上述的兩種策略,然而本文將3種特征全部結(jié)合,并提出一些啟發(fā)式的度量和兩種排序?qū)W習(xí)(L2R)的方法,使得標(biāo)簽推薦的效果(p@5)有了顯著的提高。

    問(wèn)題陳述:
    作者將數(shù)據(jù)集分為三類(lèi):train, validation, test。對(duì)于訓(xùn)練集D,包含<Ld,Fd>。Ld指對(duì)象d的所有標(biāo)簽集;Fd指d的文本特征集(即Ld=L1d∪L2d∪L3d...Lnd,Fd=F1d∪ F2d∪ F3d....Fnd)。對(duì)于驗(yàn)證集和測(cè)試集,由三部分組成<Lo,Fo,yo>。Lo為已知標(biāo)簽,yo為答案標(biāo)簽,實(shí)驗(yàn)中作者將一部分標(biāo)簽劃分Lo,一部分為yo,這樣做可以方便系統(tǒng)自動(dòng)評(píng)價(jià)推薦性能。

    Metrics說(shuō)明:
    (1)Tag Co-occurrence:基于共現(xiàn)方法的標(biāo)簽推薦主要是利用了關(guān)聯(lián)規(guī)則(association rules),如X→y,X為前導(dǎo)標(biāo)簽集,y為根據(jù)X(經(jīng)過(guò)統(tǒng)計(jì))得到的標(biāo)簽。還要提到兩個(gè)參數(shù):support(σ),意為X,y在訓(xùn)練集中共現(xiàn)的次數(shù),confidence(θ)=p(y與object o相關(guān)聯(lián)|X與object o相關(guān)聯(lián))。由于從訓(xùn)練集中得到的規(guī)則很多,因此要設(shè)定σ 、θ 的最小閾值,只選取最為頻繁發(fā)生、最可靠的共現(xiàn)信息。
        Sum(c,o,l)=ΣX⊆Lθ(Xc), (X→c)R, |X|≤l

    (2)Discriminative Power: 指區(qū)分度,對(duì)于一個(gè)頻繁出現(xiàn)的標(biāo)簽特征,區(qū)分度會(huì)很低。作者提出一個(gè)IFF度量(類(lèi)似于IR中的IDF),定義如下:
        IFF(c)=log[(|D|+1)/(fctag+1)]
    其中
    fctag為訓(xùn)練集D中,以c作為標(biāo)簽者的對(duì)象數(shù)。
    盡管這個(gè)度量可能偏重于一些并未在訓(xùn)練集中出現(xiàn)作為標(biāo)簽的詞語(yǔ),然而在排序函數(shù)中,它的權(quán)重會(huì)被合理安排。
        另外,過(guò)于頻繁的標(biāo)簽和過(guò)于稀少的標(biāo)簽都不會(huì)是合理的推薦,而那些頻率中等的term則最受青睞。有一種Stability(Stab)度量?jī)A向于頻率適中的詞語(yǔ):
        Stab(c,ks)=ks/[ks+|ks-log(fctag)|] , 其中ks表示term的理想頻率,要根據(jù)數(shù)據(jù)集來(lái)調(diào)整。

    (3)Descriptive Power
    指對(duì)于一個(gè)侯選c的描述能力,主要有如下4種度量
    ①TF: TF(c,o)=ΣFoi∈Ftf(c,Foi)
    ②TS: TS(c,o)=ΣFoi∈Fj where j=1 (if cFoi ), otherwise j=0
    ③wTS:wTS(c,o)=ΣFoi∈Fj where j=AFS(Fi) (if c∈Foi ), otherwise j=0 
    ④wTF:wTS(c,o)=ΣFoi∈Ftf(c,Foi) where j=AFS(Fi) (if c∈Foi ), otherwise j=0 
    這里要引入兩個(gè)概念:
    FIS:Feature Instance spread. FIS(Foi) 為Foi中所有的term的平無(wú)數(shù)TS值。
    AFS:Average Feature Spread:AFS(Fi)為訓(xùn)練集中所有對(duì)象的平均FIS(Foi),即
    AFS(Fi)=ΣojFIS(Foji)/|D|

    (4)詞項(xiàng)預(yù)測(cè)度
    Heymann et al.[11]通過(guò)詞項(xiàng)的熵來(lái)度量這個(gè)特征。
    詞項(xiàng)c在標(biāo)簽特征的熵值Htags(c)=-Σ(ci)R    θ(ci)logθ(ci) ,其中R為訓(xùn)練集中的規(guī)則集。

    標(biāo)簽推薦策略:
    (1)幾個(gè)先進(jìn)的baseline:
    ① Sum+:擴(kuò)展了Sum度量,通過(guò)相應(yīng)關(guān)聯(lián)規(guī)則的前導(dǎo)和后繼中的詞項(xiàng)的Stablity為Confidence賦予權(quán)重。給定一個(gè)對(duì)象o的侯選標(biāo)簽c,Sum+定義如下:
        Sum+(c,o,kx,kc,kr)=Σx∈L0 θ(xc)*Stab(x,kx)*Stab(c,kc)*Rank(c,o,kr)
        其中:kx,kc,kr為調(diào)節(jié)參數(shù),Rank(c,o,kr)=kr/[kr+p(c,o), p(c,o)為c在這個(gè)關(guān)聯(lián)規(guī)則中confidence排名的位置,這個(gè)值可以使Confidence值更為平滑地衰減。Sum+限制了前導(dǎo)中的標(biāo)簽數(shù)為1。
    ② LATRE(Lazy Associative Tag Recommendation):與Sum+不同,LATRE可以在立即請(qǐng)求的方式快速生成更大的關(guān)聯(lián)規(guī)則,這與其它策略不同(因?yàn)樗鼈兌际鞘孪仍谟?xùn)練集中計(jì)算好所有的規(guī)則),但也可能包含一些在測(cè)試集中并不是很有用的規(guī)則。 LATRE排序每個(gè)侯選c,通過(guò)相加所有包含c的規(guī)則的confidence值。
    ③ CTTR(Co-occurrence and Text based Tag Recommender):利用了從文本域特征中抽取出的詞項(xiàng)和一個(gè)相關(guān)性度量,但所有考慮事先已經(jīng)賦給對(duì)象o的標(biāo)簽。作者對(duì)比CTTR與作者的方法,評(píng)價(jià)了作者自創(chuàng)幾個(gè)度量和應(yīng)用事先預(yù)有標(biāo)簽的有效性,篇幅有限,不再對(duì)此詳述。

    (2) New Heuristics
    8種,作者擴(kuò)展了Sum+和LATRE baseline加入了描述性度量(TS,TF,wTS,wTF),共合成了8種方案。
        Sum+DP(c,o,kx,kc,kr,α)=αSum+(c,o,kx,kc,kr)+(1-α)DP(c,o)
        LATRE+DP(c,o,l,α)=αSum(c,o,l)+(1-α)DP(c,o)

    (3)排序?qū)W習(xí)策略:
    對(duì)一個(gè)Metric矩陣(對(duì)于侯選c)Mc∈Rm,m是考慮的metric數(shù),即矩陣的維數(shù)。然后驗(yàn)證集V的對(duì)象v賦一個(gè)Yc,若c為v的合理推薦,Yc=1,否則Yc=0。因?yàn)橛?xùn)練集用來(lái)抽取關(guān)聯(lián)規(guī)則和計(jì)算metrics,驗(yàn)證集用來(lái)學(xué)習(xí)solutions,因此只對(duì)驗(yàn)證集賦Yc。學(xué)習(xí)模型,即排序函數(shù)f(Mc)將被用于測(cè)試集:
    ① RankSVM:作者使用SVM-rank tool學(xué)習(xí)一個(gè)函數(shù)f(Mc)=f(W,Mc),其中W=<w1,w2,....,wm>是一個(gè)對(duì)metrics賦權(quán)值的向量。其中,RankSVM有兩個(gè)參數(shù),kernel function和cost j。

    ② 遺傳算法:
        這里將個(gè)體(即標(biāo)簽排序函數(shù))看成一個(gè)樹(shù)表示,葉子結(jié)點(diǎn)為變量或常數(shù)。樹(shù)內(nèi)結(jié)點(diǎn)為基本運(yùn)算符(+,-,*,/,ln)。若域超出運(yùn)算范圍,結(jié)果默認(rèn)為0。例如,一個(gè)樹(shù)表示函數(shù):Sum+0.7*TS,如下圖:

        個(gè)體的健壯度(Fitness)表示相應(yīng)排序函數(shù)的推薦質(zhì)量,本文以P@k為衡量標(biāo)準(zhǔn)給定f(Mc),yo是o的相關(guān)標(biāo)簽,Rof是通過(guò)f(Mc)排序后的o的推薦結(jié)果,Rk,of的Rof中前k個(gè)結(jié)果,推薦質(zhì)量定義如下:
    P@k(Rof,yo,f)=|Rk,of∩yo|/min(k,|yo|)

    實(shí)驗(yàn)評(píng)價(jià):
    (1)數(shù)據(jù)收集:LastFM, Youtube, YahooVideo。 然后去停用詞,詞干化處理(Poster Stemmer)
    (2)評(píng)價(jià)方法:
    a.將object預(yù)先的一些標(biāo)簽一部分作為已經(jīng),一部分作為答案,方便評(píng)價(jià),某些生成的答案,并不能在答案集中,但并不意味不相關(guān),因此可作為lower bound。
    b.在實(shí)際實(shí)驗(yàn)中,作者將驗(yàn)證集和測(cè)試集的對(duì)象標(biāo)簽平均分為L(zhǎng)o,yo,使用title和description作為文本特征Fo
    c.在評(píng)價(jià)指標(biāo)上,主要使用P@5,并用了Recall和MAP值
    d.以?xún)煞N方案來(lái)對(duì)各種推薦方法評(píng)價(jià):
    ① 把每個(gè)數(shù)據(jù)集分為3份,對(duì)應(yīng)小規(guī)模,中規(guī)模,大規(guī)模,以便針對(duì)每種情況,調(diào)整參數(shù),評(píng)價(jià)不同規(guī)模下各方法的效果
    ② 利用整個(gè)數(shù)據(jù)集,統(tǒng)一的評(píng)價(jià)

    這兩種方案,①更加有針對(duì)性,②則代價(jià)較低
    對(duì)于第一個(gè)方案,作者隨機(jī)從每個(gè)子集(大、中、小規(guī)模)中選取50000個(gè)樣本,對(duì)于第二種方案,作者使用第一個(gè)方案選取出的3個(gè)樣本集組合的樣本。這兩種方案都把每個(gè)樣本集分為5份來(lái)做5折交叉驗(yàn)證。3/5做訓(xùn)練,1/5做驗(yàn)證,1/5做測(cè)試。之所以在驗(yàn)證集上做L2R是為了避免過(guò)擬合。


    (3)參數(shù)設(shè)定
    ① Sum+DP中,kr=kx=kc=5, α=[0.7,1.0]
    ② LATRE+DP和L2R中,l=3, ks=5。在確定σminθmin時(shí),將值設(shè)定為與σmin和θmin=0相比,結(jié)果下降小于3%的值
    ③ RankSVM中,選定線性核,cost j=100
    ④ 歸一化特征向量結(jié)果不明顯,因此本文并沒(méi)有采取特征向量歸一化。

    (4)實(shí)驗(yàn)結(jié)果:
    a. LastFM上提升較小,原因有二:① 有LastFM上標(biāo)簽、標(biāo)題、描述內(nèi)容重疊少,使TS,wTS集中在小值上,使得難以區(qū)別good,bad;② LastFM上對(duì)象標(biāo)簽較少,使TS,wTS難以發(fā)揮較好作用。
    b. LATRE在大部分情況,好于Sum+,而CTTR在一些情況好于LATRE。尤其是在Youtube。
    c. 對(duì)比每個(gè)方案和數(shù)據(jù)集,作者的heuristics都有較大提升,因此引入描述性度量(descriptive power)會(huì)顯著提高推薦效果,尤其是標(biāo)簽數(shù)較少的情況(因?yàn)楣铂F(xiàn)效果差)
    d. 比較Sum+, LATRE, CTTR。作者的8種啟發(fā)式護(hù)展都有不小的提升(LastFM最小),證實(shí)了利用預(yù)先已知標(biāo)簽和描述度量的作用。
    e. 新啟發(fā)思想中,LATRE+wTS在大多數(shù)情況最好。在DP確定下,LATRE通常好于Sum+;DP變時(shí),wTS最好,其實(shí)是wTF,TS。
    f. L2R中,兩種方法都有提升,但提升幅度有限,觀察發(fā)現(xiàn),GP和SVMRank主要利用的還是LATRE+wTS的metrics,GP中最常用的是Sum(c,o,3),然后是wTS,再是IFF,其它少于這些函數(shù)的25%。RankSVM中,最高權(quán)重主要還是集中于Sum,wTS。
    g.盡管L2R效果提升不明顯,但框架靈活,易于擴(kuò)展(加入新度量和tag recommender問(wèn)題,如個(gè)性化)
    h.對(duì)于SVMRank和GP的比較,效果好壞主要取決于數(shù)據(jù)集。

    論文:
    Fabiano Belem,  Eder Martins,  Tatiana Pontes,  Jussara Almeida,  Marcos Goncalves.  Associative Tag Recommendation Exploiting Multiple Textual Features. Proceedings of the 34th international ACM SIGIR conference on Research and development in Information, Jul. 2011.
     
    論文鏈接:
    SIGIR2011_Associative_Tag_Recommendation_Exploiting_Multiple_Textual_Features.pdf
    posted @ 2012-02-24 13:05 Seraphi 閱讀(692) | 評(píng)論 (0)編輯 收藏
    大致內(nèi)容:
    本文在political affilication(民主黨,共和黨), ethnicity identification(African Americans)和affinity for a particular business(星巴克)三個(gè)任務(wù)上,對(duì)user進(jìn)行二元分類(lèi)

    相關(guān)參考資源:
    Bing Social
    Klout
    Twitter's "Who to Follow"
    Google's "Follow Finder"
    用戶(hù)的profile可被用來(lái)自動(dòng)匹配相似用戶(hù),也可以通過(guò)profile顯式表達(dá)去推薦
    GBDT(Gradient Boosted Decision Tree)
    avatar 頭像

    本文思想及實(shí)現(xiàn):
    對(duì)用戶(hù)分類(lèi),用到兩類(lèi)信息:
    (1)user-centric information(言語(yǔ)表達(dá),tweet內(nèi)容,行為,喜好)
    (2)social graph information
    整個(gè)系統(tǒng)架構(gòu)由兩部分組成:(1)ML(machine learning) component,用來(lái)通過(guò)user-centric information對(duì)用戶(hù)分類(lèi);(2)a graph-based updating component,包含了social graph信息,通過(guò)該用戶(hù)的社會(huì)網(wǎng)絡(luò)分布對(duì)分類(lèi)信息做出更新

    ML部分:使用GBDT Framework作為分類(lèi)算法,GBDT可解決過(guò)擬合問(wèn)題,且有smaller resulting models and faster decoing time的特點(diǎn)[7]。
    (1)profile:選取基本profile信息:a.用戶(hù)名長(zhǎng)度;b.用戶(hù)名中字母數(shù)字個(gè)數(shù);c.用戶(hù)名中不同的大小寫(xiě)形式;d.頭像使用;e.粉絲數(shù);f.關(guān)注者;g.粉絲/關(guān)注比例;h.創(chuàng)建帳戶(hù)日期;i.bio;j.location。其中bio使用正則表達(dá)式進(jìn)行匹配抽取信息
    (2)Tweeting bahavior:判斷information source/seeker:a.tweet數(shù);b.retweet數(shù)/比例;c.reply數(shù)/比例;d.平均hashtag數(shù);e.URLs per tweets;f.fraction of tweets touneated;g.tweets時(shí)間間隔,標(biāo)準(zhǔn)差;h.一天的平均tweet數(shù)和標(biāo)準(zhǔn)差
    (3)Linguistic Content Feature:使用LDA,從BOW中抽取
    a.proto-word(typical lexical expression in a specific class):本文通過(guò)概率模型抽取pro-word
    b.proto-hashtag:與proto-word類(lèi)似
    c.Generic LDA:假設(shè)a user can be represented as a multinomial distribution over topics
    d.Domain-specific LDA:GLDA得到粗粒度topic,DLDA細(xì)粒度
    e.sentiment words:對(duì)于某term建立窗口,對(duì)其周?chē)鷑個(gè)詞語(yǔ)進(jìn)行考查,判斷用戶(hù)傾向。
    (4)社會(huì)網(wǎng)絡(luò)特征:
    a.Friend Accounts
    b.Users whom to the target user replyed and retweeted

    基于圖的標(biāo)簽更新:
    這個(gè)步驟基于社會(huì)關(guān)系網(wǎng)絡(luò)用來(lái)對(duì)機(jī)器學(xué)習(xí)所給出錯(cuò)誤標(biāo)注做以糾正。在這個(gè)實(shí)驗(yàn)中,作者僅僅選取了friend accouts一項(xiàng),因?yàn)樗钅鼙硎総arget user的興趣和傾向。實(shí)驗(yàn)在target user的所有friends都運(yùn)行了ML算法,將其所有朋友帳號(hào)都賦予了一個(gè)標(biāo)簽,然后用朋友帳號(hào)的標(biāo)簽來(lái)對(duì)target user的標(biāo)簽做出評(píng)判及更正。
        final_score(ui)=α*ML+(1-α)*label updating

    實(shí)驗(yàn)分析:
    作者分別將α設(shè)為0,1和0.5進(jìn)行實(shí)驗(yàn)。最后實(shí)驗(yàn)表明,ML本身就可以取得較高的結(jié)果,而標(biāo)簽更新算法本身則效果不佳。對(duì)于political affinity,標(biāo)簽更新作用較大,對(duì)整體結(jié)果有著較好(比起其它兩個(gè)task)但仍然是很微小的提升。Starbuck標(biāo)簽更新算法也有用,則非常小。而對(duì)于Ethnicity來(lái)說(shuō),標(biāo)簽更新算法還不如沒(méi)有,反而起到了負(fù)作用。作者分析原因,在于social connection對(duì)于政治有著較大的幫助,而對(duì)于種族和商品這種個(gè)性化的東西,作用不是很大。
    在實(shí)驗(yàn)中,作者使用了兩個(gè)base line:
    B2:在ML階段只使用了profile和tweeting bahavior兩項(xiàng)特征(這兩項(xiàng)特征容易取得)
    B1在不同實(shí)驗(yàn)中,有著不同含義:
    a.政治傾向上:B1把在bio field中提到的對(duì)民主/共和黨的傾向作為分類(lèi)依據(jù),進(jìn)行分類(lèi)
    b.種族上:B1根據(jù)用戶(hù)的頭像來(lái)對(duì)其進(jìn)行種族分類(lèi)。
    c.星巴克:B1把所有在bio field提到星巴克的用戶(hù)分類(lèi)為星巴克粉絲。

    結(jié)果表明:B2總體性能不如本文所提到的系統(tǒng),說(shuō)明lingistic特征和社會(huì)網(wǎng)絡(luò)特征對(duì)于結(jié)果有著巨大的積極影響。而B(niǎo)1有著極高的準(zhǔn)確率,但召回率太低,也沒(méi)有太大的實(shí)用價(jià)值。

    工具:
    Opinion Finder[25]

    論文:
    Marco Pennacchiotti,  Ana-Maria Popescu:Democrats, Republicans and Starbucks Afficionados: User Classification in Twitter.Proceedings of the 17th ACM SIGKDD international conference on Knowledge discovery and data mining, Aug. 2011

    論文鏈接:
    KDD2011_Democrats_republicans_and_starbucks_afficionados_user_classification_in_twitter.pdf
    posted @ 2012-02-18 13:23 Seraphi 閱讀(685) | 評(píng)論 (0)編輯 收藏
    大致內(nèi)容:
    這篇論文的任務(wù)是對(duì)twitter上的短文本進(jìn)行分類(lèi),分到預(yù)先定義的5個(gè)類(lèi)別中:news,event,opinions,deal,PM(private message)。該論文摒棄傳統(tǒng)的BOW特征模型而別出心裁地選取了8個(gè)特征(8F):
    1個(gè)是名詞性特性:用戶(hù)。這個(gè)特征是8F特征中最為主要的特征,因?yàn)樗从沉诵畔⒃吹闹饕?lèi)別特征。如,企業(yè)的用戶(hù)和個(gè)人用戶(hù)通常有著不同的用戶(hù)行為,這個(gè)特征可以限定該用戶(hù)tweet的分類(lèi)范圍。
    另外7個(gè)是binary feature(存在特征):
    俚語(yǔ)與詞語(yǔ)縮寫(xiě)的使用:俚語(yǔ)和詞語(yǔ)縮寫(xiě)通常不會(huì)是一個(gè)新聞
    time-event短語(yǔ):Event類(lèi)別的重要特征
    評(píng)論性詞語(yǔ):Opinion類(lèi)重要特征
    詞語(yǔ)的強(qiáng)調(diào)(大寫(xiě)或字母重要,如veeery):同上
    currency和percentage標(biāo)志:如¥$%,這些都是Deal類(lèi)別的重要特征
    @usrname:這是PM的重要特征,當(dāng)然也有可能是Event類(lèi)中的一個(gè)特征(participants)。
    實(shí)驗(yàn)表明8F比BOW在精度上均為大幅提高。

    使用工具:
    weka

    論文:
    Bharath Sriram, Dave Fuhry, Engin Demir, Hakan Ferhatosmanoglu, Murat Demirbas:Short Text Classification in Twitter to Improve Information Filtering. Proceeding of the 33rd international ACM SIGIR conference on Research and development in information retrieval, Jul. 2010

    論文鏈接:
    SIGIR2010_Short_Text_Classification_in_Twitter_to_Improve_Information_Filtering.pdf
    posted @ 2012-02-18 12:32 Seraphi 閱讀(1291) | 評(píng)論 (0)編輯 收藏
    術(shù)語(yǔ):
    content-based, neighborhood-based, collaborative filtering, substitutes(相等價(jià)的商品,如可口可樂(lè)與百事可樂(lè)), complements(附加的、補(bǔ)充的商品,如ipod和ipod faceplate), listing fee上市費(fèi), flippers(who buy a low price and resell at a higher price)

    大致內(nèi)容:
    這篇論文的作者是e-bay的高級(jí)技術(shù)人員,主要從scale, product dimension, buy dimension, seller dimension, buyer seller handshake這幾個(gè)方面和5Ws(what, where, when, why, who)和1H(how)來(lái)說(shuō)明E-Bay推薦的關(guān)鍵問(wèn)題和難點(diǎn)。
    同樣的商品,可能有多種情況(有無(wú)盒,有無(wú)標(biāo)簽,有多新/舊)。而對(duì)于買(mǎi)家,也分為casual shopper, impulsive shopper, value-driven shopper, collector filppers

    what:對(duì)于用戶(hù)不同的瀏覽情況,給予不同的推薦。例如:用戶(hù)U1和U2都瀏覽了某個(gè)item-i1。用戶(hù)U1反復(fù)瀏覽多次i1,并將其加入購(gòu)物車(chē)。用戶(hù)U2則看了一眼就再也沒(méi)有訪問(wèn)i1的頁(yè)面。對(duì)于這兩位用戶(hù),推薦系統(tǒng)所做出的推薦不能是相同的。
    where:在用戶(hù)瀏覽的不同網(wǎng)頁(yè)/階段(search,bid,check-out,post-transaction)所做的推薦不同。
    when:用戶(hù)在購(gòu)買(mǎi)商品后,經(jīng)過(guò)不同的時(shí)間,給予不同的推薦(例如:對(duì)于一個(gè)剛買(mǎi)相機(jī)一天的用戶(hù),推薦系統(tǒng)應(yīng)該推薦其附件(包),對(duì)于一個(gè)買(mǎi)了相機(jī)30多天的用戶(hù)來(lái)說(shuō),推薦系統(tǒng)更應(yīng)為其推薦一些關(guān)于相機(jī)保養(yǎng)的商品)
    why:推薦系統(tǒng)給出推薦原因,如60%的用戶(hù)買(mǎi)了這個(gè)商品也買(mǎi)了那件
    who:不同的用戶(hù)類(lèi)型給予不同的推薦。對(duì)于老手,推薦并非有太大功效,而對(duì)于新用戶(hù),則作用最大。
    how:推薦時(shí)會(huì)有大規(guī)模,超稀疏的user-item矩陣,用SVD進(jìn)行降維分解。另一種方案是聚類(lèi),可用K-means和層次聚類(lèi)的方法。

    論文:
    Neel Sundaresan:Recommender Systems at the Long Tail Proceedings of the fifth ACM conference on Recommender systems, Oct. 2011
    論文鏈接:
    Recsys2011_Recommender_System_at_the_Long_Tail.pdf
    posted @ 2012-02-18 11:49 Seraphi 閱讀(556) | 評(píng)論 (0)編輯 收藏
    術(shù)語(yǔ):
    followee/friend 用戶(hù)關(guān)注的對(duì)象(即新浪微博中的“關(guān)注”)
    follower 關(guān)注用戶(hù)的對(duì)象(即微博中的“粉絲”)
    collaborative filtering 協(xié)同過(guò)濾

    大致內(nèi)容:
    本文作者及其團(tuán)隊(duì)對(duì)twitter用戶(hù)推薦做了深入研究,并制作了一個(gè)在線的twitter用戶(hù)推薦的應(yīng)用。并以profile推薦和search推薦兩種方式呈現(xiàn)給用戶(hù)。
    profile推薦即用戶(hù)不需要自己輸入查詢(xún),該應(yīng)用將根據(jù)用戶(hù)的profile自動(dòng)生成查詢(xún),來(lái)查找相關(guān)用戶(hù)。
    search推薦即用戶(hù)自行輸入查詢(xún),來(lái)尋找自己感興趣的用戶(hù)。
    本文列舉了9種生成用戶(hù)profile的策略:
    S1:由用戶(hù)U本身的tweets
    S2:由用戶(hù)U的followees的tweets產(chǎn)生
    S3:由用戶(hù)U的followers的tweets產(chǎn)生
    S4:由S1,S2,S3的并集產(chǎn)生
    S5:由用戶(hù)U的followee ID產(chǎn)生
    S6:由用戶(hù)U的follower ID產(chǎn)生
    S7:由S5,S6并集產(chǎn)生
    S8:結(jié)合S1-S7,得分函數(shù)依賴(lài)于S1和S6
    S9:結(jié)果S1-S7,得分函數(shù)基于推薦列表中用戶(hù)位置。

    ※以上方法中,S1-S4為content based,S5-S7是collaborative filtering。

    然后用lucene對(duì)這9種策略分別建立索引,進(jìn)行實(shí)驗(yàn)。其中,基于內(nèi)容的策略中,采用tf-idf權(quán)值。

    評(píng)價(jià)指標(biāo):
    1、①Precision:即推薦列表與已有followee重復(fù)的百分比,S5-S7(Collaborative filtering)好于S1-S4(content based),S3高于S2,Precision隨Recommendation List Size增大而降低
        ②Position:相關(guān)用戶(hù)的位置因素亦很重要,在此,基于內(nèi)容方法略好于協(xié)同過(guò)濾。

    2、以上兩個(gè)指標(biāo)均為脫機(jī)(offline)評(píng)價(jià)指標(biāo),實(shí)際上即便是followee中沒(méi)有存在的那些出現(xiàn)在Recommendation List中的用戶(hù),也并非不相關(guān),有很多為potential followees。因此,本文還做了一個(gè)live-user trial,選取了34位參與者參加實(shí)驗(yàn),結(jié)果30個(gè)推薦列表中,平均采取6.9人,且位置主要集中在推薦列表的top10。另外,search中(31名參與)結(jié)果并不如profile,平均4.9人采納。作者分析了這個(gè)原因,在于search中用戶(hù)所提供信息遠(yuǎn)小于profile中的信息,因此效果不如profile推薦。

    論文:
    John Hannon, Mike Bennett, Barry Smyth:Recommending Twitter Users to Follow Using Content and Collaborative Filtering Approaches. Proceedings of the fourth ACM conference on Recommender systems, Sep. 2010
    論文鏈接:
    2010_RECSYS_RecommendingTwitterUsers.pdf
    posted @ 2012-02-18 11:28 Seraphi 閱讀(675) | 評(píng)論 (0)編輯 收藏
    大致內(nèi)容:
    對(duì)twitter構(gòu)成及使用進(jìn)行了簡(jiǎn)要的說(shuō)明,并通過(guò)實(shí)驗(yàn)證明,在某一領(lǐng)域中,根據(jù)粉絲數(shù)推薦的列表最受歡迎。另外,比起無(wú)領(lǐng)域知識(shí)和twitter經(jīng)驗(yàn)的用戶(hù),具有領(lǐng)域知識(shí)和熟練使用twitter的用戶(hù)會(huì)傾向于相關(guān)領(lǐng)域list數(shù)量。

    實(shí)驗(yàn)方法:
    用twitter API爬取twitter,對(duì)用戶(hù)分析(粉絲數(shù)、list數(shù)、相關(guān)list數(shù)),做在線survey來(lái)分析結(jié)果。


    論文:
    Wit Krutkam, Kanda Runapongsa Saikeaw, Arnut Chaosakul: Twitter Accounts Recommendation Based on Followers and Lists

    論文鏈接:
    jictee2010_Twitter_Accounts_Recommendation_based_on_followers_and_lists.pdf

    posted @ 2012-02-18 11:04 Seraphi 閱讀(143) | 評(píng)論 (0)編輯 收藏
    僅列出標(biāo)題
    共3頁(yè): 上一頁(yè) 1 2 3 
    主站蜘蛛池模板: 亚洲中文字幕无码av在线| 亚洲AV网站在线观看| 国产国产人免费视频成69堂| 免费91麻豆精品国产自产在线观看 | 亚洲精华国产精华精华液| 亚洲人成网www| 亚洲色图.com| 亚洲va在线va天堂va手机| 91亚洲精品麻豆| 亚洲AV无码一区二区三区牛牛| 亚洲情A成黄在线观看动漫软件 | 亚洲制服丝袜一区二区三区| 亚洲国产美女福利直播秀一区二区 | 一级毛片成人免费看a| 免费精品国自产拍在线播放| 免费看一级高潮毛片| 国产精品综合专区中文字幕免费播放| 美女露隐私全部免费直播| jyzzjyzz国产免费观看| 日本免费污片中国特一级| 亚州免费一级毛片| 成全视频在线观看免费高清动漫视频下载| 免费高清在线爱做视频| 免费看国产精品麻豆| 亚洲欧洲美洲无码精品VA| 久久精品国产亚洲av麻| 亚洲成a人片在线观看中文!!!| 性xxxx黑人与亚洲| 国产99久久亚洲综合精品| 99麻豆久久久国产精品免费| 男的把j放进女人下面视频免费| 黄色网址免费观看| 日本一道本高清免费| 久久久青草青青国产亚洲免观 | 亚洲国产成人影院播放| 亚洲精品国精品久久99热一| 亚洲AV无码乱码麻豆精品国产| 国产亚洲精品第一综合| 久久国产精品国产自线拍免费| 中文字幕无码视频手机免费看| 亚洲v国产v天堂a无码久久|