亚洲日本香蕉视频观看视频,亚洲综合区图片小说区,亚洲国产香蕉人人爽成AV片久久

在文本分類的過(guò)程中，特征（也可以簡(jiǎn)單的理解為“詞”）從人類能夠理解的形式轉(zhuǎn)換為計(jì)算機(jī)能夠理解的形式時(shí)，實(shí)際上經(jīng)過(guò)了兩步驟的量化——特征選擇階段的重要程度量化和將具體文本轉(zhuǎn)化為向量時(shí)的特征權(quán)重量化。初次接觸文本分類的人很容易混淆這兩個(gè)步驟使用的方法和各自的目的，因而我經(jīng)常聽(tīng)到讀者有類似“如何使用TFIDF做特征選擇”或者“卡方檢驗(yàn)量化權(quán)重后每篇文章都一樣”等等困惑。

文本分類本質(zhì)上也是一個(gè)模式識(shí)別的問(wèn)題，因此我想借用一個(gè)更直觀的例子來(lái)說(shuō)說(shuō)特征選擇和權(quán)重量化到底各自是什么東西，當(dāng)然，一旦解釋清楚，你馬上就會(huì)覺(jué)得文本分類這東西實(shí)在白癡，實(shí)在沒(méi)什么技術(shù)含量，你也就不會(huì)再繼續(xù)看我的技術(shù)博客，不過(guò)我不擔(dān)心，因?yàn)槟阋呀?jīng)踏上了更光明的道路（笑），我高興還來(lái)不及。

想想通過(guò)指紋來(lái)識(shí)別一個(gè)人的身份，只看一個(gè)人的指紋，當(dāng)然說(shuō)不出他姓甚名誰(shuí)，識(shí)別的過(guò)程實(shí)際上是比對(duì)的過(guò)程，要與已有的指紋庫(kù)比較，找出相同的，或者說(shuō)相似到一定程度的那一個(gè)。

首要的問(wèn)題是，人的指紋太復(fù)雜，包含太多的位置和幾何形狀，要完全重現(xiàn)一個(gè)人的指紋，存儲(chǔ)和計(jì)算都是大麻煩。因此第一步總是一個(gè)特征選擇的問(wèn)題，我們把全人類的指紋都統(tǒng)計(jì)一下，看看哪幾個(gè)位置能夠最好的區(qū)分不同的人。顯然不同的位置效果很不一樣，在有的位置上，我的指紋是是什么形狀，其他人也大都是這個(gè)形狀，這個(gè)位置就不具有區(qū)分度，或者說(shuō)不具有表征性，或者說(shuō)，對(duì)分類問(wèn)題來(lái)說(shuō)，它的重要程度低。這樣的位置我們就傾向于在識(shí)別的時(shí)候根本不看它，不考慮它。

那怎么看誰(shuí)重要誰(shuí)不重要呢？這就依賴于具體的選擇方法如何來(lái)量化重要程度，對(duì)卡方檢驗(yàn)和信息增益這類方法來(lái)說(shuō)，量化以后的得分越大的特征就越重要（也就是說(shuō)，有可能有些方法，是得分越小的越重要）。

比如說(shuō)你看10個(gè)位置，他們的重要程度分別是：

1 2 3 4 5 6 7 8 9 10

（20，5，10，20，30，15，4，3，7， 3）

顯然第1，第3，4，5，6個(gè)位置比其他位置更重要，而相對(duì)的，第1個(gè)位置又比第3個(gè)位置更重要。

識(shí)別時(shí)，我們只在那些重要的位置上采樣。當(dāng)今的指紋識(shí)別系統(tǒng)，大都只用到人指紋的5個(gè)位置（驚訝么？只要5個(gè)位置的信息就可以區(qū)分60億人），這5個(gè)位置就是經(jīng)過(guò)特征選擇過(guò)程而得以保留的系統(tǒng)特征集合。假設(shè)這個(gè)就是剛才的例子，那么該集合應(yīng)該是：

（第1個(gè)位置，第3個(gè)位置，第4個(gè)位置，第5個(gè)位置，第6個(gè)位置）

當(dāng)然，具體的第3個(gè)位置是指紋中的哪個(gè)位置你自己總得清楚。

確定了這5個(gè)位置之后，就可以把一個(gè)人的指紋映射到這個(gè)只有5個(gè)維度的空間中，我們就把他在5個(gè)位置上的幾何形狀分別轉(zhuǎn)換成一個(gè)具體的值，這就是特征權(quán)重的計(jì)算。依據(jù)什么來(lái)轉(zhuǎn)換，就是你選擇的特征權(quán)重量化方法，在文本分類中，最常用的就是TFIDF。

我想一定是“權(quán)重“這個(gè)詞誤導(dǎo)了所有人，讓大家以為TFIDF計(jì)算出的值代表的是特征的重要程度，其實(shí)完全不是。例如我們有一位男同學(xué)，他的指紋向量是：

（10，3，4，20，5）

你注意到他第1個(gè)位置的得分（10）比第3個(gè)位置的得分（3）高，那么能說(shuō)第1個(gè)位置比第3個(gè)位置重要么？如果再有一位女同學(xué)，她的指紋向量是：

（10，20，4，20，5）

看看，第1個(gè)位置得分（10）又比第3個(gè)位置（20）低了，那這兩個(gè)位置到底哪個(gè)更重要呢？答案是第1個(gè)位置更重要，但這不是在特征權(quán)重計(jì)算這一步體現(xiàn)出來(lái)的，而是在我們特征選擇的時(shí)候就確定了，第1個(gè)位置比第3個(gè)位置更重要。

因此要記住，通過(guò)TFIDF計(jì)算一個(gè)特征的權(quán)重時(shí)，該權(quán)重體現(xiàn)出的根本不是特征的重要程度！

那它代表什么？再看看兩位同學(xué)的指紋，放到一起：

（10， 3，4，20，5）

（10，20，4，20，5）

在第三個(gè)位置上女同學(xué)的權(quán)重高于男同學(xué)，這不代表該女同學(xué)在指紋的這個(gè)位置上更“優(yōu)秀“（畢竟，指紋還有什么優(yōu)秀不優(yōu)秀的分別么，笑），也不代表她的這個(gè)位置比男同學(xué)的這個(gè)位置更重要，3和20這兩個(gè)得分，僅僅代表他們的”不同“。

在文本分類中也是如此，比如我們的系統(tǒng)特征集合只有兩個(gè)詞：

（經(jīng)濟(jì)，發(fā)展）

這兩個(gè)詞是使用卡方檢驗(yàn)（特征選擇）選出來(lái)的，有一篇文章的向量形式是

（2，5）

另一篇

（3，4）

這兩個(gè)向量形式就是用TFIDF算出來(lái)的，很容易看出兩篇文章不是同一篇，為什么？因?yàn)樗麄兊奶卣鳈?quán)重根本不一樣，所以說(shuō)權(quán)重代表的是差別，而不是優(yōu)劣。想想你說(shuō)“經(jīng)濟(jì)這個(gè)詞在第二篇文章中得分高，因此它在第二篇文章中比在第一篇文章中更重要“，這句話代表什么意義呢？你自己都不知道吧（笑）。

所以，當(dāng)再說(shuō)起使用TFIDF來(lái)計(jì)算特征權(quán)重時(shí)，最好把“權(quán)重“這個(gè)字眼忘掉，我們就把它說(shuō)成計(jì)算得分好了（甚至”得分“也不太好，因?yàn)槿丝倳?huì)不自覺(jué)的認(rèn)為，得分高的就更重要），或者就僅僅說(shuō)成是量化。

如此，你就再也不會(huì)拿TFIDF去做特征選擇了。

小Tips：為什么有的論文里確實(shí)使用了TFIDF作特征選擇呢？

嚴(yán)格說(shuō)來(lái)并不是不可以，而且嚴(yán)格說(shuō)來(lái)只要有一種方法能夠從一堆特征中挑出少數(shù)的一些，它就可以叫做一種特征選擇方法，就連“隨機(jī)選取一部分“都算是一種，而且效果并沒(méi)有差到驚人的地步哦！還是可以分對(duì)一大半的哦！所以有的人就用TFIDF的得分來(lái)把特征排排序，取得分最大的幾個(gè)進(jìn)入系統(tǒng)特征集合，效果也還行（畢竟，連隨機(jī)選取效果也都還行），怎么說(shuō)呢，他們?cè)敢膺@么干就這么干吧。就像咱國(guó)家非得實(shí)行戶口制度，這個(gè)制度說(shuō)不出任何道理，也不見(jiàn)他帶來(lái)任何好處，但不也沒(méi)影響二十一世紀(jì)成為中國(guó)的世紀(jì)么，呵呵。

發(fā)表于 2009-04-19 11:40 Jasper 閱讀(44439) 評(píng)論(48) 編輯收藏所屬分類: 文本分類技術(shù)

評(píng)論

# re: 文本分類入門（番外篇）特征選擇與特征權(quán)重計(jì)算的區(qū)別

效率果然很高，謝謝～拿TFIDF做選擇的還真的不少喔，看到這樣的論文馬上就扔掉了。實(shí)驗(yàn)中TFIDF和詞頻做SVM的輸入?yún)^(qū)別大不？

Lebee_leon 評(píng)論于 2009-04-19 12:47 回復(fù) 更多評(píng)論

# re: 文本分類入門（番外篇）特征選擇與特征權(quán)重計(jì)算的區(qū)別[未登錄](méi)

好文章

bee 評(píng)論于 2009-04-21 11:06 回復(fù) 更多評(píng)論

# re: 文本分類入門（番外篇）特征選擇與特征權(quán)重計(jì)算的區(qū)別[未登錄](méi)

讀完舒坦。。。
多謝博主。

博主能不能講講關(guān)于LIBSVM的使用方面的文章啊。。。也許如何使用本身并不難，但沒(méi)人給你引個(gè)路，想開(kāi)始還真難啊。。。不是有句話叫萬(wàn)事開(kāi)頭難嗎？
比如輸入的文本格式要怎么處理成標(biāo)準(zhǔn)輸入格式呢？還有具體使用過(guò)程中會(huì)遇到的一些問(wèn)題。。。

不管怎么樣，還是很期待你的下一篇文章^.^。學(xué)到了很多東西啊。

bee 評(píng)論于 2009-04-21 11:23 回復(fù) 更多評(píng)論

# re: 文本分類入門（番外篇）特征選擇與特征權(quán)重計(jì)算的區(qū)別

這是我曾今犯的錯(cuò)，呵呵，樓主的文章深入淺出，非常好，我的畢設(shè)終于順利完成了！

sunshang 評(píng)論于 2009-04-22 22:04 回復(fù) 更多評(píng)論

# re: 文本分類入門（番外篇）特征選擇與特征權(quán)重計(jì)算的區(qū)別

請(qǐng)問(wèn)樓主知道如果我要計(jì)算多個(gè)屬性和起來(lái)的信息增益如何去做呢？

koala++ 評(píng)論于 2009-04-25 18:09 回復(fù) 更多評(píng)論

# re: 文本分類入門（番外篇）特征選擇與特征權(quán)重計(jì)算的區(qū)別

@koala++
如果假設(shè)各個(gè)特征項(xiàng)是獨(dú)立的，可以簡(jiǎn)單的計(jì)算每個(gè)特征的增益，然后取和。
如果假設(shè)不是獨(dú)立的，就把他們的組合看成是一個(gè)新的變量，統(tǒng)計(jì)這個(gè)新變量可能的取值，每個(gè)取值取到的概率，重復(fù)運(yùn)用信息增益的公式計(jì)算即可。

Jasper 評(píng)論于 2009-04-26 12:25 回復(fù) 更多評(píng)論

# re: 文本分類入門（番外篇）特征選擇與特征權(quán)重計(jì)算的區(qū)別

樓主，我感覺(jué)你這里的比較有問(wèn)題：
你說(shuō)：“我想一定是“權(quán)重“這個(gè)詞誤導(dǎo)了所有人，讓大家以為TFIDF計(jì)算出的值代表的是特征的重要程度，其實(shí)完全不是。例如我們有一位男同學(xué)，他的指紋向量是：（10，3，4，20，5）你注意到他第1個(gè)位置的得分（10）比第3個(gè)位置的得分（3）高，那么能說(shuō)第1個(gè)位置比第3個(gè)位置重要么？”

我想在指紋識(shí)別中這個(gè)值確實(shí)不能夠說(shuō)位置1就比位置3重要，那是因?yàn)槟愕倪@個(gè)從指紋特征往這個(gè)向量值映射的函數(shù)我們未知所造成的。可是在TC問(wèn)題中，TFIDF值的建模就是把那些出現(xiàn)頻率高，且區(qū)分作用大的詞賦予更高的tfidf值，所以他的高是可以說(shuō)明這個(gè)詞更加重要的（或者是這個(gè)特征更加重要）

假如一篇文章的tfidf向量表示為（10，3，4，20，5），那么這里的“10”和“3”會(huì)帶來(lái)什么效果呢？很明顯，在做向量乘法計(jì)算相似度的時(shí)候顯然是“10”比“3”對(duì)于整體的相似度貢獻(xiàn)更大。因?yàn)閟imilarity = (10，3，4，20，5) * (x1,x2,x3,x4,x5)T; 那么在不考慮x1,x2,..x5的情況下。顯然10比3“貢獻(xiàn)”大啊。

所以請(qǐng)博主在考慮一下，TFIDF這個(gè)在IR中如此經(jīng)典的一個(gè)模型難道就真的這么一文不值？

lianghao.lee 評(píng)論于 2009-04-26 13:37 回復(fù) 更多評(píng)論

# re: 文本分類入門（番外篇）特征選擇與特征權(quán)重計(jì)算的區(qū)別

@lianghao.lee
就是因?yàn)椴煌娜嗽诜诸惖牟煌A段對(duì)“重要”的定義彼此不同，所以大家會(huì)在一項(xiàng)指標(biāo)重要還是不重要上存在分歧。注意我在談特征選擇階段特征對(duì)類別區(qū)分度方面的“重要”，而您糾結(jié)在文章向量表示時(shí)相似度判別時(shí)的“重要”。這種混淆很常見(jiàn)，所以也不能怪您，如果您有興趣繼續(xù)在文本分類方面深入，相信您有一天會(huì)得到不同的理解。

Jasper 評(píng)論于 2009-04-26 17:07 回復(fù) 更多評(píng)論

# re: 文本分類入門（番外篇）特征選擇與特征權(quán)重計(jì)算的區(qū)別

非常感謝

koala++ 評(píng)論于 2009-04-27 09:48 回復(fù) 更多評(píng)論

# re: 文本分類入門（番外篇）特征選擇與特征權(quán)重計(jì)算的區(qū)別[未登錄](méi)

我曾經(jīng)也在這個(gè)問(wèn)題上琢磨了好久。現(xiàn)在很多文章都沒(méi)有在這點(diǎn)上說(shuō)清楚，也許是我沒(méi)能理解清楚。
呵呵有這篇文章，以后一定能讓好多人解惑。

James 評(píng)論于 2009-04-28 14:13 回復(fù) 更多評(píng)論

# re: 文本分類入門（番外篇）特征選擇與特征權(quán)重計(jì)算的區(qū)別

@Jasper
呵呵~ 我并沒(méi)有說(shuō)TFIDF是最好的特征選擇方法，可他確實(shí)是一種特征選擇的途徑，我只是不太同意你在最后說(shuō)的：
“所以有的人就用TFIDF的得分來(lái)把特征排排序，取得分最大的幾個(gè)進(jìn)入系統(tǒng)特征集合，效果也還行（畢竟，連隨機(jī)選取效果也都還行）”
因?yàn)槿绻軌蛲ㄟ^(guò)實(shí)驗(yàn)證明統(tǒng)計(jì)結(jié)果表明TFIDF特征選擇與隨機(jī)選取效果的期望和方差基本一致的話，您就可以說(shuō)明TFIDF確實(shí)對(duì)特征提取沒(méi)有作用，而其他人之前確實(shí)將TFIDF與特征選擇混淆了。可是如果他的效果好于隨機(jī)的話就說(shuō)明他還是有一定的道理的。

呵呵~ 還有你說(shuō)：而您糾結(jié)在文章向量表示時(shí)相似度判別時(shí)的“重要”。

特征提取不是分類的目的，只是想通過(guò)特征提取來(lái)降維并得到有區(qū)分度的特征詞，可是這些特征詞最后還是為基于相似度的分類服務(wù)的，所以可以將特征提取的作用歸納為:找到區(qū)分度重要的詞，找到對(duì)相似度計(jì)算重要的詞

對(duì)于區(qū)分度重要，如果通過(guò)Tfidf提取出來(lái)的特征能夠很好的定義相同類別里面文本的相似，不就是能夠很好的定義不同類別里面文本的區(qū)別嗎？也許是博主認(rèn)為做tfidf特征提取就是將tfidf值最高的詞提取出來(lái)了，所以認(rèn)為這樣的不合理吧。如果能夠很好的利用tfidf值的類內(nèi)分布和類間分布來(lái)做特征提取是能夠很好的得到有區(qū)分度的特征詞的。

而另一方面，而正如博主所說(shuō)的tfidf在相似度計(jì)算中是很“重要”的，所以用tfidf來(lái)做特征提取對(duì)于之后的分類的相似度計(jì)算是很有用的。

拙見(jiàn)，海涵~

lianghao.lee 評(píng)論于 2009-05-01 21:32 回復(fù) 更多評(píng)論

# re: 文本分類入門（番外篇）特征選擇與特征權(quán)重計(jì)算的區(qū)別

@lianghao.lee
連您自己都同意了我的觀點(diǎn)，即認(rèn)為單純使用TFIDF值來(lái)判斷一個(gè)特征是否有區(qū)分度不夠，而應(yīng)該考慮該值在類間的分布，這個(gè)分布情況，不管您給它起什么名字，它一定不叫TFIDF，它只是以TFIDF值為基礎(chǔ)，正如信息增益，卡方檢驗(yàn)和互信息等方法全都是以特征的文檔頻率為基礎(chǔ)一樣，它們都不叫文檔頻率方法，只有直接依據(jù)文檔頻率大小排序的方法才叫做“文檔頻率特征選擇”（而且確實(shí)有這種方法）。因?yàn)檎f(shuō)到底，我們從文本中能觀察到的量其實(shí)只有兩個(gè)：詞頻和文檔頻率，所有的方法一律以這兩個(gè)量為計(jì)算基礎(chǔ)，但不能由此把所有的方法都叫做詞頻方法或者文檔頻率方法。TFIDF也是一種很基礎(chǔ)的量（它是由詞頻和文檔頻率計(jì)算來(lái)的），同樣它也帶來(lái)了較詞頻和文檔頻率單獨(dú)使用完全不同的效果。
如果您同意這些，您就會(huì)明白我所說(shuō)的“TFIDF不能用來(lái)做特征選擇”，正是指單獨(dú)使用一個(gè)特征的TFIDF值來(lái)判斷毫無(wú)道理，卡方檢驗(yàn)完全基于文檔頻率計(jì)算，但單看文檔頻率也毫無(wú)道理（好吧，文檔頻率有那么一點(diǎn)道理，呵呵）。
另外，兩個(gè)文檔的相似度在有的分類模型里（例如支持向量機(jī)）里完全沒(méi)有用處，您通過(guò)文檔在空間中的分布也可以看出來(lái)，一些位于類別邊界附近的文檔，其實(shí)與另一個(gè)類里的文檔更加相似（反而與同類的文檔不那么相似），在這種模型中，我們僅通過(guò)它所處的位置來(lái)判斷分類，而絲毫不受它與誰(shuí)相似的影響。相信這一點(diǎn)您一想就能明白。當(dāng)然這里所爭(zhēng)論的乃是對(duì)分類來(lái)說(shuō)文檔相似度是否一定有用（對(duì)有的方法完全沒(méi)用），而不是說(shuō)TFIDF對(duì)判斷相似是否有用，我要說(shuō)，對(duì)文檔相似度計(jì)算來(lái)說(shuō)，TFIDF是非常有效的。

Jasper 評(píng)論于 2009-05-02 16:47 回復(fù) 更多評(píng)論

# re: 文本分類入門（番外篇）特征選擇與特征權(quán)重計(jì)算的區(qū)別

如果說(shuō)權(quán)重不是重要度，那用KNN法的時(shí)候，那些權(quán)重大的的確起到了比較大的影響作用。

dvdface 評(píng)論于 2009-05-02 22:00 回復(fù) 更多評(píng)論

# re: 文本分類入門（番外篇）特征選擇與特征權(quán)重計(jì)算的區(qū)別

特征選擇是降維，減少文本特征的數(shù)量，去掉冗余信息量。特征權(quán)重計(jì)算的權(quán)重只是為了向量表示嗎？對(duì)后面的文本分類算法起到什么作用了？

radar 評(píng)論于 2009-06-05 16:47 回復(fù) 更多評(píng)論

# re: 文本分類入門（番外篇）特征選擇與特征權(quán)重計(jì)算的區(qū)別

@radar
準(zhǔn)確的說(shuō),計(jì)算權(quán)重是為了能給每篇文章一個(gè)"唯一"的身份,就跟計(jì)算指紋不是為了得到指紋數(shù)據(jù)本身,而是為了得到唯一性一樣.我們需要一種指標(biāo),這種指標(biāo)能讓計(jì)算機(jī)"看到"不同的兩篇文章確實(shí)不同,并且知道不同在哪里.只有能看到這種不同,計(jì)算機(jī)才能看出同類文章相似在哪里.如果有一種指標(biāo),它衡量每篇文章時(shí)結(jié)果都一樣,顯然程序沒(méi)法在這種數(shù)據(jù)基礎(chǔ)上學(xué)習(xí)分類的.因此形成向量表示實(shí)際是一個(gè)中間目的,終極的目的是為了讓文章之間看上去彼此不同,并且這種不同有所依據(jù).

Jasper 評(píng)論于 2009-06-05 16:56 回復(fù) 更多評(píng)論

# re: 文本分類入門（番外篇）特征選擇與特征權(quán)重計(jì)算的區(qū)別

想請(qǐng)問(wèn)一下，那新的待分類的文本的權(quán)重如何確定？也是和訓(xùn)練文本一樣？重新TFIDF來(lái)計(jì)算？

hezi 評(píng)論于 2009-06-14 09:58 回復(fù) 更多評(píng)論

# re: 文本分類入門（番外篇）特征選擇與特征權(quán)重計(jì)算的區(qū)別

博主，能不能寫(xiě)下關(guān)于SMO算法啊，詳細(xì)通俗易懂點(diǎn)的，謝謝

dawsonjin 評(píng)論于 2009-07-03 20:29 回復(fù) 更多評(píng)論

# re: 文本分類入門（番外篇）特征選擇與特征權(quán)重計(jì)算的區(qū)別

看百家講壇，喜歡易中天把三國(guó)講得輕松；今天看你的SVM入門（七），吸引我一路看過(guò)來(lái)。了不起，了不起。復(fù)雜概念在你這兒變得這么容易親近，榜樣啊。

正學(xué)模式分類評(píng)論于 2009-09-16 20:56 回復(fù) 更多評(píng)論

# re: 文本分類入門（番外篇）特征選擇與特征權(quán)重計(jì)算的區(qū)別[未登錄](méi)

您的意思，是不是類似于，中國(guó)的勞動(dòng)密集型的制造業(yè)發(fā)達(dá)，美國(guó)的技術(shù)密集型的科技產(chǎn)業(yè)發(fā)達(dá)，這樣形成互補(bǔ)，但是中國(guó)跟印度，都是勞動(dòng)密集型的制造業(yè)發(fā)達(dá)，有類似的條件，應(yīng)該歸為一類。但是，中國(guó)的勞動(dòng)密集型的制造業(yè)在中國(guó)，“不重要”。重要不重要，看你怎么比吧！難道說(shuō)跟俄羅斯的輕工業(yè)來(lái)比，體現(xiàn)中國(guó)輕工業(yè)占了很高的GDP比重？很“重要”？只能說(shuō)它在中國(guó)比在俄羅斯占的GDP比重大，更重要。（看它不當(dāng)輕工當(dāng)回事，中國(guó)倒是合理發(fā)展了輕工）

一個(gè)固定的詞IDF只有一個(gè)，不同的是TF，占詞頻的比重大。在AB兩篇文章中如果幾個(gè)不同的詞，TF都基本一致，比如說(shuō)都是（5，1），而這兩個(gè)詞在C中是（1，5），難道就僅靠隨機(jī)判斷，就能得出AB同一類，跟C不同一類嗎？svm里面的核方法，是在原空間進(jìn)行點(diǎn)積或者向量相減之后點(diǎn)積（rbf核）這樣的方法可以跟隨機(jī)等價(jià)嗎？

還有“經(jīng)濟(jì)這個(gè)詞在第二篇文章中得分高，因此它在第二篇文章中比在第一篇文章中更重要”，TF高，難道意味著這個(gè)詞在第二篇文章不比第一篇重要嗎？

eric 評(píng)論于 2009-10-05 00:58 回復(fù) 更多評(píng)論

# re: 文本分類入門（番外篇）特征選擇與特征權(quán)重計(jì)算的區(qū)別[未登錄](méi)

第二段“占詞頻的比重大”，后面補(bǔ)上“的詞基本一致，難道還不能分為一類嗎？”

eric 評(píng)論于 2009-10-05 01:05 回復(fù) 更多評(píng)論

# re: 文本分類入門（番外篇）特征選擇與特征權(quán)重計(jì)算的區(qū)別[未登錄](méi)

如果要談什么重要還是不重要,那首先要牢記評(píng)判重要的標(biāo)準(zhǔn),或者說(shuō),明確自己說(shuō)的指標(biāo)針對(duì)什么問(wèn)題而言重要還是不重要。文中的觀點(diǎn)是告訴大家TFIDF在特征選擇階段不重要，而在分類階段很重要。但有太多的朋友在辯駁時(shí)混淆了問(wèn)題的討論范圍。您也一再?gòu)?qiáng)調(diào)TFIDF值一樣的詞對(duì)分類的影響云云，可見(jiàn)您其實(shí)也在用我的結(jié)論往另一個(gè)問(wèn)題上套。不過(guò)學(xué)習(xí)的過(guò)程大抵如此，我們一錯(cuò)再錯(cuò)，一錯(cuò)再錯(cuò)，但卻越來(lái)越好，越來(lái)越好。希望能和大家一起進(jìn)步。@eric

Jasper 評(píng)論于 2009-10-05 14:44 回復(fù) 更多評(píng)論

# re: 文本分類入門（番外篇）特征選擇與特征權(quán)重計(jì)算的區(qū)別

在利用wvtool實(shí)現(xiàn)文本的向量化時(shí)候，
似乎看不到特征選取，即上文中的選擇特征位置的過(guò)程，
而僅僅存在TFIDF來(lái)進(jìn)行對(duì)關(guān)鍵詞（針對(duì)詞頻選取topN作為關(guān)鍵詞）進(jìn)行向量化。
如何將博主提到的卡方檢驗(yàn)和chi融入其中呢？

cuijie 評(píng)論于 2009-10-26 16:50 回復(fù) 更多評(píng)論

# re: 文本分類入門（番外篇）特征選擇與特征權(quán)重計(jì)算的區(qū)別

@cuijie
我也有這個(gè)問(wèn)題，還希望有人能給解答下

strayly 評(píng)論于 2009-12-26 18:13 回復(fù) 更多評(píng)論

# re: 文本分類入門（番外篇）特征選擇與特征權(quán)重計(jì)算的區(qū)別

可以理解為:特征選擇，如chi-square之類比較的是特征之間誰(shuí)對(duì)分類效果更優(yōu)，屬于橫向比對(duì)；而tfidf，比較的是單個(gè)特征對(duì)于文檔應(yīng)當(dāng)歸屬那個(gè)類的權(quán)重，屬于縱向比對(duì).

l0he1g 評(píng)論于 2010-03-11 10:48 回復(fù) 更多評(píng)論

# re: 文本分類入門（番外篇）特征選擇與特征權(quán)重計(jì)算的區(qū)別

@Jasper同意

char 評(píng)論于 2010-12-09 10:39 回復(fù) 更多評(píng)論

# re: 文本分類入門（番外篇）特征選擇與特征權(quán)重計(jì)算的區(qū)別

看完樓主的文章有個(gè)疑問(wèn)：我一直覺(jué)得TFIDF用來(lái)做特征選擇依據(jù)挺正常的啊？為什么樓主覺(jué)得這樣不合理呢？

TFIDF= 某個(gè)詞在某篇文本中出現(xiàn)的次數(shù) / 有該詞出現(xiàn)的文本數(shù)量，

我覺(jué)得這個(gè)TFIDF值能夠反映某個(gè)詞對(duì)于不同類文本間的區(qū)分度，所以TFIDF越大就證明這個(gè)詞對(duì)于區(qū)分不同類文本的作用越大（也就意味著特征明顯）。

不知我說(shuō)的對(duì)不對(duì)？

請(qǐng)教樓主，謝謝~

Andyseren 評(píng)論于 2010-12-27 16:17 回復(fù) 更多評(píng)論

# re: 文本分類入門（番外篇）特征選擇與特征權(quán)重計(jì)算的區(qū)別

看了很有收獲

guolinagogo 評(píng)論于 2011-02-25 16:12 回復(fù) 更多評(píng)論

# re: 文本分類入門（番外篇）特征選擇與特征權(quán)重計(jì)算的區(qū)別

博主知道RVM嗎？還想聽(tīng)下博主關(guān)于RVM的講解。

happy 評(píng)論于 2011-04-08 09:35 回復(fù) 更多評(píng)論

# re: 文本分類入門（番外篇）特征選擇與特征權(quán)重計(jì)算的區(qū)別

博主的思路應(yīng)該是局限與discriminative model 里面，做為分類買的一種，tfidf確實(shí)不太適合，但是生成模型里，面有時(shí)候就是有權(quán)重的概念@lianghao.lee

alexz 評(píng)論于 2012-09-02 00:24 回復(fù) 更多評(píng)論

# re: 文本分類入門（番外篇）特征選擇與特征權(quán)重計(jì)算的區(qū)別

看了博主的觀點(diǎn)，有點(diǎn)疑問(wèn)，對(duì)于一篇待分類文本，如果不用tfidf，那么應(yīng)該如何進(jìn)行特征提取？

路過(guò) 評(píng)論于 2012-10-19 17:50 回復(fù) 更多評(píng)論

# re: 文本分類入門（番外篇）特征選擇與特征權(quán)重計(jì)算的區(qū)別

具體用SVM如何做，樓主能不能給個(gè)文章或者鏈接？

劉康評(píng)論于 2012-10-27 16:47 回復(fù) 更多評(píng)論

# re: 文本分類入門（番外篇）特征選擇與特征權(quán)重計(jì)算的區(qū)別

@Jasper
"即認(rèn)為單純使用TFIDF值來(lái)判斷一個(gè)特征是否有區(qū)分度不夠，而應(yīng)該考慮該值在類間的分布，這個(gè)分布情況，不管您給它起什么名字，它一定不叫TFIDF，它只是以TFIDF值為基礎(chǔ)"

“該值在類間的分布”即是說(shuō)該選擇的特征應(yīng)該在某類出現(xiàn)多，而其它類出現(xiàn)少。對(duì)吧？也即該特征的IDF（反文檔頻率）在不同類的方差越大越好。
那么，在選特征時(shí)需滿足兩個(gè)條件：
1.特征的TFIDF夠高，保證文檔區(qū)分度
2.特征的IDF在不同類的方差夠大，保證分類的區(qū)分度

不知這樣如何，請(qǐng)指教

YCloud 評(píng)論于 2012-11-06 15:22 回復(fù) 更多評(píng)論

# re: 文本分類入門（番外篇）特征選擇與特征權(quán)重計(jì)算的區(qū)別

同意，博主文章對(duì)看不懂那些所謂論文的人幫助很大~我也是其中之一~~

阿D 評(píng)論于 2012-11-23 17:40 回復(fù) 更多評(píng)論

# re: 文本分類入門（番外篇）特征選擇與特征權(quán)重計(jì)算的區(qū)別

能對(duì)但一個(gè)文件進(jìn)行每個(gè)特征的權(quán)重計(jì)算嗎~？

阿D 評(píng)論于 2012-12-21 15:57 回復(fù) 更多評(píng)論

# re: 文本分類入門（番外篇）特征選擇與特征權(quán)重計(jì)算的區(qū)別

只對(duì)一篇文檔進(jìn)行特征權(quán)重量化的話怎么能用ＴＦＩＤＦ　文本總數(shù)是１　某個(gè)詞的文件頻率就會(huì)是１　這樣ＩＤＦ值就為０　那么提取出來(lái)的特征向量就是個(gè)零向量了！

ｚｗｂｊａｙ評(píng)論于 2012-12-23 11:32 回復(fù) 更多評(píng)論

# re: 文本分類入門（番外篇）特征選擇與特征權(quán)重計(jì)算的區(qū)別[未登錄](méi)

那如果經(jīng)過(guò)量化之后的數(shù)值是相同的，比如你舉例的男生和女生的五維數(shù)值相同，則說(shuō)明以下兩點(diǎn)中一個(gè)嗎？1，倆人是一個(gè)人；2，權(quán)重計(jì)算存在的漏洞，或者特征選擇的不夠好。

Angie 評(píng)論于 2013-08-10 15:23 回復(fù) 更多評(píng)論

# re: 文本分類入門（番外篇）特征選擇與特征權(quán)重計(jì)算的區(qū)別

同意，tf-idf能有效評(píng)估詞對(duì)單一一個(gè)文檔的重要性，但是無(wú)法評(píng)估詞對(duì)某個(gè)類別的重要程度@l0he1g

te_amo_cuba 評(píng)論于 2013-08-27 17:05 回復(fù) 更多評(píng)論

# re: 文本分類入門（番外篇）特征選擇與特征權(quán)重計(jì)算的區(qū)別

狠好，收藏~

talisa 評(píng)論于 2014-03-24 16:02 回復(fù) 更多評(píng)論

# re: 文本分類入門（番外篇）特征選擇與特征權(quán)重計(jì)算的區(qū)別[未登錄](méi)

深入淺出啊，可惜作者沒(méi)有更新了！

天馬行空評(píng)論于 2014-04-06 09:29 回復(fù) 更多評(píng)論

# re: 文本分類入門（番外篇）特征選擇與特征權(quán)重計(jì)算的區(qū)別

贊同樓主！
很多人沒(méi)有搞清楚特征選選擇和特征量化的區(qū)別。
idf用來(lái)做特征選擇是可以的，因?yàn)樗碓撛~（特征）在文檔集上的分布；tfidf則不能用于特征選擇，因?yàn)樘卣鬟x擇的目的是在所有詞中選擇一部分重要的詞作為文本特征，判斷標(biāo)準(zhǔn)是跟具體某一篇文檔無(wú)關(guān)的，而tfidf的tf因子與文檔有關(guān)。在不同文檔中tf不同，因此tfidf只能區(qū)分該詞對(duì)不同文檔的重要程度，但不能代表分類問(wèn)題的區(qū)分度。

tfidf作為特征量化方法是可以，實(shí)際上在選擇了特征后用tf也可以，因?yàn)橥粋€(gè)詞idf對(duì)不同文檔來(lái)說(shuō)是常量，“特征量化”本身一定要能差別話該特征在不同文檔上的分布。

karl 評(píng)論于 2014-06-04 13:14 回復(fù) 更多評(píng)論

# re: 文本分類入門（番外篇）特征選擇與特征權(quán)重計(jì)算的區(qū)別[未登錄](méi)

能不能加我QQ?524857559，我叫LQ

LQ 評(píng)論于 2014-10-15 18:25 回復(fù) 更多評(píng)論

# re: 文本分類入門（番外篇）特征選擇與特征權(quán)重計(jì)算的區(qū)別

樓主分不清權(quán)重和權(quán)值

patience_tt 評(píng)論于 2015-04-04 22:39 回復(fù) 更多評(píng)論

# re: 文本分類入門（番外篇）特征選擇與特征權(quán)重計(jì)算的區(qū)別

看了樓主的文章，立馬將這兩個(gè)概念區(qū)分開(kāi)來(lái)了。之前一直搞混呢~~謝謝樓主哦^__^ 贊一個(gè)！

windysai 評(píng)論于 2015-04-29 09:36 回復(fù) 更多評(píng)論

# re: 文本分類入門（番外篇）特征選擇與特征權(quán)重計(jì)算的區(qū)別

不太明白為什么tfidf不能代表特征的重要性. 竊以為既能用來(lái)做特征選擇, 又能當(dāng)做weight. 這跟LR的weights既能用來(lái)特征選擇也能用來(lái)分類是一個(gè)意思

ffl 評(píng)論于 2015-05-22 17:31 回復(fù) 更多評(píng)論

# re: 文本分類入門（番外篇）特征選擇與特征權(quán)重計(jì)算的區(qū)別

我覺(jué)得博主說(shuō)得還不是特別準(zhǔn)確，關(guān)于某一個(gè)詞的TF-IDF值，TF針對(duì)該詞在某一篇文檔中的度量，IDF針對(duì)該詞在所有文檔中的度量，合起來(lái)就是該個(gè)詞在某一篇特定文檔中的度量（當(dāng)然這也是有包含所有文檔的信息，TF-IDF具體的定義相信大家都清楚）。同一個(gè)詞在不同的文檔中，TF-IDF值大小差別也許不能區(qū)分出重要性的差別。但是在同一篇文檔中，不同詞的在同一篇文檔中TF-IDF值得大小還是能夠體現(xiàn)出權(quán)重大小的。比如說(shuō)博主舉得例子：
文檔A:（2，5）
文檔B:（3，4）
不同文檔A和B的同一個(gè)位置：說(shuō)2的權(quán)重小于3，5的權(quán)重大于4，這都不準(zhǔn)確！但是，在同一篇文檔中，A:2的權(quán)重小于5，B:3的權(quán)重小于4，這都是沒(méi)有問(wèn)題的！
這也是為什么能根據(jù)TF-IDF的大小，從一篇文章中提取關(guān)鍵詞的原因。

kzy 評(píng)論于 2015-07-23 14:11 回復(fù) 更多評(píng)論

# re: 文本分類入門（番外篇）特征選擇與特征權(quán)重計(jì)算的區(qū)別

看過(guò)《數(shù)學(xué)之美》的人，再結(jié)合這篇文章，你就會(huì)發(fā)現(xiàn)，在文本分類中，td-idf是不能用于特征選擇的（具體見(jiàn)上面的分析），正如博主所說(shuō)，應(yīng)該是后面的分類時(shí)，為某一文檔做特征量化；但是在信息檢索里面，網(wǎng)頁(yè)與查詢的相關(guān)性度量，td-idf又有點(diǎn)“特征選擇”的意思。
拙見(jiàn)，見(jiàn)陋了~

ocean 評(píng)論于 2015-12-11 13:09 回復(fù) 更多評(píng)論

# re: 文本分類入門（番外篇）特征選擇與特征權(quán)重計(jì)算的區(qū)別

@Jasper
感覺(jué)越講越亂了

豐富評(píng)論于 2016-01-06 18:07 回復(fù) 更多評(píng)論

# re: 文本分類入門（番外篇）特征選擇與特征權(quán)重計(jì)算的區(qū)別

還可以呦，點(diǎn)個(gè)贊

fn 評(píng)論于 2016-03-20 21:07 回復(fù) 更多評(píng)論

文本分類入門（番外篇）特征選擇與特征權(quán)重計(jì)算的區(qū)別

公告

常用鏈接

留言簿(64)

隨筆分類

隨筆檔案

文章分類

搜索

最新評(píng)論

閱讀排行榜

評(píng)論排行榜

Jasper's Java Jacal 嘉士伯的Java小屋
BlogJava \| 首頁(yè) \| 發(fā)新隨筆 \| 發(fā)新文章 \| 聯(lián)系 \| 聚合 \| 管理	隨筆：51 文章：2 評(píng)論：717 引用：0