TextMining04-分類.pdf
自動分類的概念
|
|
分類效果的評價
|
P,R,F, 每個類的評價指標,總體類評價(宏觀、微觀)
|
特征抽取(feature
extraction)
|
預處理
|
文本表示(vsm)
|
特征選擇(Feature
Selection)
特征重構(Re-parameterisation,如LSI)
|
文檔頻率法(DF,
document frequency)
|
*TFIDF型權重
TF,TF*IDF:
,TFC: 對上面進行歸一化,LTC: 降低TF的作用
*Robertson & SparckJones(idf) 公式,相關表,熵等,互信息不佳
|
信息增益法information gain
|
互信息法mutual
information
|
The X2 test(chi-square)
|
分類算法
|
KNN
|
|
*
Rocchio方法
|
SVM
|
注意: 特征重構(LSI),互信息表現不佳,TF*IDF的變形公式,SVM
http://www.tkk7.com/Files/fullfocus/04.pdf
posted on 2008-06-18 10:47
fullfocus 閱讀(1718)
評論(0) 編輯 收藏 所屬分類:
聚類算法研究