<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    posts - 30,  comments - 3,  trackbacks - 0
    大致內容:
    本文在political affilication(民主黨,共和黨), ethnicity identification(African Americans)和affinity for a particular business(星巴克)三個任務上,對user進行二元分類

    相關參考資源:
    Bing Social
    Klout
    Twitter's "Who to Follow"
    Google's "Follow Finder"
    用戶的profile可被用來自動匹配相似用戶,也可以通過profile顯式表達去推薦
    GBDT(Gradient Boosted Decision Tree)
    avatar 頭像

    本文思想及實現:
    對用戶分類,用到兩類信息:
    (1)user-centric information(言語表達,tweet內容,行為,喜好)
    (2)social graph information
    整個系統架構由兩部分組成:(1)ML(machine learning) component,用來通過user-centric information對用戶分類;(2)a graph-based updating component,包含了social graph信息,通過該用戶的社會網絡分布對分類信息做出更新

    ML部分:使用GBDT Framework作為分類算法,GBDT可解決過擬合問題,且有smaller resulting models and faster decoing time的特點[7]。
    (1)profile:選取基本profile信息:a.用戶名長度;b.用戶名中字母數字個數;c.用戶名中不同的大小寫形式;d.頭像使用;e.粉絲數;f.關注者;g.粉絲/關注比例;h.創建帳戶日期;i.bio;j.location。其中bio使用正則表達式進行匹配抽取信息
    (2)Tweeting bahavior:判斷information source/seeker:a.tweet數;b.retweet數/比例;c.reply數/比例;d.平均hashtag數;e.URLs per tweets;f.fraction of tweets touneated;g.tweets時間間隔,標準差;h.一天的平均tweet數和標準差
    (3)Linguistic Content Feature:使用LDA,從BOW中抽取
    a.proto-word(typical lexical expression in a specific class):本文通過概率模型抽取pro-word
    b.proto-hashtag:與proto-word類似
    c.Generic LDA:假設a user can be represented as a multinomial distribution over topics
    d.Domain-specific LDA:GLDA得到粗粒度topic,DLDA細粒度
    e.sentiment words:對于某term建立窗口,對其周圍n個詞語進行考查,判斷用戶傾向。
    (4)社會網絡特征:
    a.Friend Accounts
    b.Users whom to the target user replyed and retweeted

    基于圖的標簽更新:
    這個步驟基于社會關系網絡用來對機器學習所給出錯誤標注做以糾正。在這個實驗中,作者僅僅選取了friend accouts一項,因為它最能表示target user的興趣和傾向。實驗在target user的所有friends都運行了ML算法,將其所有朋友帳號都賦予了一個標簽,然后用朋友帳號的標簽來對target user的標簽做出評判及更正。
        final_score(ui)=α*ML+(1-α)*label updating

    實驗分析:
    作者分別將α設為0,1和0.5進行實驗。最后實驗表明,ML本身就可以取得較高的結果,而標簽更新算法本身則效果不佳。對于political affinity,標簽更新作用較大,對整體結果有著較好(比起其它兩個task)但仍然是很微小的提升。Starbuck標簽更新算法也有用,則非常小。而對于Ethnicity來說,標簽更新算法還不如沒有,反而起到了負作用。作者分析原因,在于social connection對于政治有著較大的幫助,而對于種族和商品這種個性化的東西,作用不是很大。
    在實驗中,作者使用了兩個base line:
    B2:在ML階段只使用了profile和tweeting bahavior兩項特征(這兩項特征容易取得)
    B1在不同實驗中,有著不同含義:
    a.政治傾向上:B1把在bio field中提到的對民主/共和黨的傾向作為分類依據,進行分類
    b.種族上:B1根據用戶的頭像來對其進行種族分類。
    c.星巴克:B1把所有在bio field提到星巴克的用戶分類為星巴克粉絲。

    結果表明:B2總體性能不如本文所提到的系統,說明lingistic特征和社會網絡特征對于結果有著巨大的積極影響。而B1有著極高的準確率,但召回率太低,也沒有太大的實用價值。

    工具:
    Opinion Finder[25]

    論文:
    Marco Pennacchiotti,  Ana-Maria Popescu:Democrats, Republicans and Starbucks Afficionados: User Classification in Twitter.Proceedings of the 17th ACM SIGKDD international conference on Knowledge discovery and data mining, Aug. 2011

    論文鏈接:
    KDD2011_Democrats_republicans_and_starbucks_afficionados_user_classification_in_twitter.pdf
    posted on 2012-02-18 13:23 Seraphi 閱讀(685) 評論(0)  編輯  收藏

    只有注冊用戶登錄后才能發表評論。


    網站導航:
     
    主站蜘蛛池模板: 国产亚洲美女精品久久久久| 亚洲成AV人片一区二区密柚| 亚洲成AV人片在| 色噜噜噜噜亚洲第一| 手机在线看永久av片免费| 亚洲国产精品无码久久久不卡| 理论片在线观看免费| 国产免费啪嗒啪嗒视频看看| 在线aⅴ亚洲中文字幕| 欧美a级在线现免费观看| 亚洲精品成人网站在线播放| 久久久久久一品道精品免费看| 在线播放亚洲第一字幕| 又粗又长又爽又长黄免费视频 | 97无码人妻福利免费公开在线视频 | 亚洲一级片免费看| 免费乱理伦在线播放| 黄色片网站在线免费观看| 四虎永久免费观看| 黄色三级三级三级免费看| 亚洲国产精品成人一区| 人成免费在线视频| 国产亚洲精品久久久久秋霞| XXX2高清在线观看免费视频| 久久精品国产亚洲一区二区| 久久青草免费91线频观看不卡| 久久亚洲国产精品五月天| 久操视频免费观看| 亚洲成av人片不卡无码| 免费无码黄十八禁网站在线观看| 亚洲人成图片网站| 国产国产人免费视频成69大陆| 免费高清A级毛片在线播放| 亚洲国产一成久久精品国产成人综合| 日日摸夜夜添夜夜免费视频| 国产AV无码专区亚洲AV男同| 曰批全过程免费视频播放网站| 国产午夜亚洲精品| 亚洲精品tv久久久久| 最近中文字幕国语免费完整| 亚洲一级毛片在线观|