自動分類的概念 |
|
||
分類效果的評價 |
P,R,F, 每個類的評價指標,總體類評價(宏觀、微觀) |
||
特征抽取(feature extraction) |
預處理 |
||
文本表示(vsm) |
|||
特征選擇(Feature Selection) 特征重構(Re-parameterisation,如LSI) |
文檔頻率法(DF, document frequency) |
*TFIDF型權重 TF,TF*IDF:
,TFC: 對上面進行歸一化,LTC: 降低TF的作用 *Robertson & SparckJones(idf) 公式,相關表,熵等,互信息不佳 |
|
信息增益法information gain |
|||
互信息法mutual information |
|||
The X2 test(chi-square) |
|||
分類算法 |
KNN |
|
* Rocchio方法 |
SVM |
http://www.tkk7.com/Files/fullfocus/04.pdf