大致內容:
這篇論文的任務是對twitter上的短文本進行分類,分到預先定義的5個類別中:news,event,opinions,deal,PM(private message)。該論文摒棄傳統的BOW特征模型而別出心裁地選取了8個特征(8F):
1個是名詞性特性:用戶。這個特征是8F特征中最為主要的特征,因為它反映了信息源的主要類別特征。如,企業的用戶和個人用戶通常有著不同的用戶行為,這個特征可以限定該用戶tweet的分類范圍。
另外7個是binary feature(存在特征):
俚語與詞語縮寫的使用:俚語和詞語縮寫通常不會是一個新聞
time-event短語:Event類別的重要特征
評論性詞語:Opinion類重要特征
詞語的強調(大寫或字母重要,如veeery):同上
currency和percentage標志:如¥$%,這些都是Deal類別的重要特征
@usrname:這是PM的重要特征,當然也有可能是Event類中的一個特征(participants)。
實驗表明8F比BOW在精度上均為大幅提高。
使用工具:
weka
論文:
Bharath Sriram, Dave Fuhry, Engin Demir, Hakan Ferhatosmanoglu, Murat Demirbas:Short Text Classification in Twitter to Improve Information Filtering.
Proceeding of the 33rd international ACM SIGIR conference on Research and development in information retrieval, Jul. 2010論文鏈接:
SIGIR2010_Short_Text_Classification_in_Twitter_to_Improve_Information_Filtering.pdf
posted on 2012-02-18 12:32
Seraphi 閱讀(1290)
評論(0) 編輯 收藏