TextMining02-特征提取.pdf
|
分詞
|
最大匹配法..
|
分詞歧義和各種數(shù)字,日期,姓名識別
|
最大概率法
|
最短路徑法
|
詞性標(biāo)注
|
基于規(guī)則的詞性標(biāo)注
|
|
基于統(tǒng)計(jì)的詞性標(biāo)注(及缺陷)
|
|
文檔模型
|
布爾模型
|
|
向量空間模型(tf-idf)
|
|
文檔概率模型
|
|
文本相似性計(jì)算
|
基于概率模型的相似度(Okapi收費(fèi))
|
|
基于vsm的相似度計(jì)算
(基于內(nèi)積,和集合相似度計(jì)算的比較)
|
歐氏距離
|
向量內(nèi)積相似度
|
余弦相似度
|
Jaccard相似度
|
文本序列
|
海明距離
|
|
編輯距離
|
|
編輯操作的代價(算法)
|
|
特征空間的變化
|
LSA隱形語義分析
|
|
SVD思想、步驟。(truncated)
|
|
SVD實(shí)例和工具
|
|
PS:
海明距離在文本序列的相似度比較上會比較有用。
海明距離。通常一
幀包括m個數(shù)據(jù)(報(bào)文)位和r個冗余位或者校驗(yàn)位。設(shè)整個長度為n(即n=m+r),則此長度為n的單元通常被稱作n位碼字(codeword)。
給出任意兩個碼字,如10001001和10110001,可以確定它們有多少個對應(yīng)位不同。在此例中有3位不同。為了確定有多少位不同,只須對兩個碼字
做異或運(yùn)算,然后計(jì)算結(jié)果中1的個數(shù)。兩個碼字中不同位的個數(shù),稱為海明距離(Hamming
Distance)。其重要性在于,假如兩個碼字具有海明距離d,則需要d個位差錯才能將其中一個碼字轉(zhuǎn)換成另一個。
一種編碼的校驗(yàn)和糾錯能力取決于它的海明距離。為檢測出d比特錯,需要使用d+1的編碼;因?yàn)閐個單比特錯決不可能將一個有效的碼
字轉(zhuǎn)變成另一個有效的碼字。當(dāng)接收方看到無效的碼字,它糾能明白發(fā)生傳輸錯誤。同樣,為了糾正d比特錯,必須使用距離為2d+1的編碼,這是因?yàn)橛行Тa字
的距離遠(yuǎn)到即使發(fā)生d個變化,這個發(fā)生了變化的碼字仍然比其它碼字都接近原始碼字。作為糾錯碼的一個簡單例子,考慮如下只有4個有效碼字的代碼:
0000000000、0000011111、1111100000和1111111111這種代碼的距離為5,也就是說,它能糾正雙比特錯。假如碼字
0000000111到達(dá)后,接收方知道原始碼字應(yīng)該為0000011111。但是,如果出現(xiàn)了三位錯,而將0000000000變成了
0000000111,則差錯將不能正確地糾正。
http://www.tkk7.com/Files/fullfocus/featureselect.pdf
posted on 2008-06-09 20:38
fullfocus 閱讀(1642)
評論(0) 編輯 收藏 所屬分類:
聚類算法研究