亚洲精选在线观看,亚洲成a人片在线观看中文动漫 ,国产偷v国产偷v亚洲高清

北大ppt 文本挖掘技術系列之一---TextMining02-特征提取---(附：海明距離)

TextMining02-特征提取.pdf
分詞	最大匹配法..	分詞歧義和各種數字，日期，姓名識別
	最大概率法
	最短路徑法
詞性標注	基于規則的詞性標注
詞性標注	基于統計的詞性標注（及缺陷）
文檔模型	布爾模型
	向量空間模型（tf-idf）
	文檔概率模型
文本相似性計算	基于概率模型的相似度（Okapi收費）
	基于vsm的相似度計算（基于內積，和集合相似度計算的比較）	歐氏距離
		向量內積相似度
		余弦相似度
		Jaccard相似度
文本序列	海明距離
	編輯距離
	編輯操作的代價（算法）
特征空間的變化	LSA隱形語義分析
	SVD思想、步驟。（truncated）
	SVD實例和工具

PS:
海明距離在文本序列的相似度比較上會比較有用。

海明距離。通常一幀包括m個數據（報文）位和r個冗余位或者校驗位。設整個長度為n（即n=m+r），則此長度為n的單元通常被稱作n位碼字(codeword)。

給出任意兩個碼字，如10001001和10110001，可以確定它們有多少個對應位不同。在此例中有3位不同。為了確定有多少位不同，只須對兩個碼字做異或運算，然后計算結果中1的個數。兩個碼字中不同位的個數，稱為海明距離(Hamming Distance)。其重要性在于，假如兩個碼字具有海明距離d，則需要d個位差錯才能將其中一個碼字轉換成另一個。
一種編碼的校驗和糾錯能力取決于它的海明距離。為檢測出d比特錯，需要使用d+1的編碼；因為d個單比特錯決不可能將一個有效的碼字轉變成另一個有效的碼字。當接收方看到無效的碼字，它糾能明白發生傳輸錯誤。同樣，為了糾正d比特錯，必須使用距離為2d+1的編碼，這是因為有效碼字的距離遠到即使發生d個變化，這個發生了變化的碼字仍然比其它碼字都接近原始碼字。作為糾錯碼的一個簡單例子，考慮如下只有4個有效碼字的代碼： 0000000000、0000011111、1111100000和1111111111這種代碼的距離為5，也就是說，它能糾正雙比特錯。假如碼字 0000000111到達后，接收方知道原始碼字應該為0000011111。但是，如果出現了三位錯，而將0000000000變成了 0000000111，則差錯將不能正確地糾正。

http://www.tkk7.com/Files/fullfocus/featureselect.pdf

posted on 2008-06-09 20:38 fullfocus 閱讀(1643) 評論(0) 編輯收藏所屬分類: 聚類算法研究

常用鏈接

留言簿(2)

隨筆分類

隨筆檔案

文章檔案

他山之石

搜索

積分與排名

最新評論

閱讀排行榜

評論排行榜


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關文章: 北大ppt 文本挖掘技術系列之五--TextMining05-聚類北大ppt 文本挖掘技術系列之四---TextMining04-分類北大ppt 文本挖掘技術系列之三---TextMining03-檢索part2 北大ppt 文本挖掘技術系列之二---TextMining03-檢索part1 北大ppt 文本挖掘技術系列之一---TextMining02-特征提取---(附：海明距離) focus聚類研究系列一-----熟悉現有項目基礎（站在巨人的肩膀上） K-MEANS,AHC, single path直觀演示---Clustering Web Search Results TF-IDF解釋召回率與精度