国产亚洲欧美日韩亚洲中文色,国产成人高清亚洲一区91,亚洲永久在线观看

前文提到過，除了開方檢驗（CHI）以外，信息增益（IG，Information Gain）也是很有效的特征選擇方法。但凡是特征選擇，總是在將特征的重要程度量化之后再進行選擇，而如何量化特征的重要性，就成了各種方法間最大的不同。開方檢驗中使用特征與類別間的關聯性來進行這個量化，關聯性越強，特征得分越高，該特征越應該被保留。

在信息增益中，重要性的衡量標準就是看特征能夠為分類系統帶來多少信息，帶來的信息越多，該特征越重要。

因此先回憶一下信息論中有關信息量（就是“熵”）的定義。說有這么一個變量X，它可能的取值有n多種，分別是x₁，x₂，……，x_n，每一種取到的概率分別是P₁，P₂，……，P_n，那么X的熵就定義為：

意思就是一個變量可能的變化越多（反而跟變量具體的取值沒有任何關系，只和值的種類多少以及發生概率有關），它攜帶的信息量就越大（因此我一直覺得我們的政策法規信息量非常大，因為它變化很多，基本朝令夕改，笑）。

對分類系統來說，類別C是變量，它可能的取值是C₁，C₂，……，C_n，而每一個類別出現的概率是P(C₁)，P(C₂)，……，P(C_n)，因此n就是類別的總數。此時分類系統的熵就可以表示為：

有同學說不好理解呀，這樣想就好了，文本分類系統的作用就是輸出一個表示文本屬于哪個類別的值，而這個值可能是C₁，C₂，……，C_n，因此這個值所攜帶的信息量就是上式中的這么多。

信息增益是針對一個一個的特征而言的，就是看一個特征t，系統有它和沒它的時候信息量各是多少，兩者的差值就是這個特征給系統帶來的信息量，即增益。系統含有特征t的時候信息量很好計算，就是剛才的式子，它表示的是包含所有特征時系統的信息量。

問題是當系統不包含t時，信息量如何計算？我們換個角度想問題，把系統要做的事情想象成這樣：說教室里有很多座位，學生們每次上課進來的時候可以隨便坐，因而變化是很大的（無數種可能的座次情況）；但是現在有一個座位，看黑板很清楚，聽老師講也很清楚，于是校長的小舅子的姐姐的女兒托關系（真輾轉啊），把這個座位定下來了，每次只能給她坐，別人不行，此時情況怎樣？對于座次的可能情況來說，我們很容易看出以下兩種情況是等價的：（1）教室里沒有這個座位；（2）教室里雖然有這個座位，但其他人不能坐（因為反正它也不能參與到變化中來，它是不變的）。

對應到我們的系統中，就是下面的等價：（1）系統不包含特征t；（2）系統雖然包含特征t，但是t已經固定了，不能變化。

我們計算分類系統不包含特征t的時候，就使用情況（2）來代替，就是計算當一個特征t不能變化時，系統的信息量是多少。這個信息量其實也有專門的名稱，就叫做“條件熵”，條件嘛，自然就是指“t已經固定“這個條件。

但是問題接踵而至，例如一個特征X，它可能的取值有n多種（x₁，x₂，……，x_n），當計算條件熵而需要把它固定的時候，要把它固定在哪一個值上呢？答案是每一種可能都要固定一下，計算n個值，然后取均值才是條件熵。而取均值也不是簡單的加一加然后除以n，而是要用每個值出現的概率來算平均（簡單理解，就是一個值出現的可能性比較大，固定在它上面時算出來的信息量占的比重就要多一些）。

因此有這樣兩個條件熵的表達式：

這是指特征X被固定為值x_i時的條件熵，

這是指特征X被固定時的條件熵，注意與上式在意義上的區別。從剛才計算均值的討論可以看出來，第二個式子與第一個式子的關系就是：

具體到我們文本分類系統中的特征t，t有幾個可能的值呢？注意t是指一個固定的特征，比如他就是指關鍵詞“經濟”或者“體育”，當我們說特征“經濟”可能的取值時，實際上只有兩個，“經濟”要么出現，要么不出現。一般的，t的取值只有t（代表t出現）和（代表t不出現），注意系統包含t但t 不出現與系統根本不包含t可是兩回事。

因此固定t時系統的條件熵就有了，為了區別t出現時的符號與特征t本身的符號，我們用T代表特征，而用t代表T出現，那么：

與剛才的式子對照一下，含義很清楚對吧，P(t)就是T出現的概率，就是T不出現的概率。這個式子可以進一步展開，其中的

另一半就可以展開為：

因此特征T給系統帶來的信息增益就可以寫成系統原本的熵與固定特征T后的條件熵之差：

公式中的東西看上去很多，其實也都很好計算。比如P(C_i)，表示類別C_i出現的概率，其實只要用1除以類別總數就得到了（這是說你平等的看待每個類別而忽略它們的大小時這樣算，如果考慮了大小就要把大小的影響加進去）。再比如P(t)，就是特征T出現的概率，只要用出現過T的文檔數除以總文檔數就可以了，再比如P(C_i|t)表示出現T的時候，類別C_i出現的概率，只要用出現了T并且屬于類別C_i的文檔數除以出現了T的文檔數就可以了。

從以上討論中可以看出，信息增益也是考慮了特征出現和不出現兩種情況，與開方檢驗一樣，是比較全面的，因而效果不錯。但信息增益最大的問題還在于它只能考察特征對整個系統的貢獻，而不能具體到某個類別上，這就使得它只適合用來做所謂“全局”的特征選擇（指所有的類都使用相同的特征集合），而無法做“本地”的特征選擇（每個類別有自己的特征集合，因為有的詞，對這個類別很有區分度，對另一個類別則無足輕重）。

看看，導出的過程其實很簡單，沒有什么神秘的對不對。可有的學術論文里就喜歡把這種本來很直白的東西寫得很晦澀，仿佛只有讀者看不懂才是作者的真正成功。

咱們是新一代的學者，咱們沒有知識不怕被別人看出來，咱們有知識也不怕教給別人。所以咱都把事情說簡單點，說明白點，大家好，才是真的好。

發表于 2009-03-24 14:54 Jasper 閱讀(55940) 評論(65) 編輯收藏所屬分類: 文本分類技術

評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

看了博主文本分類技術系列的文章，獲益良多，對博主能夠如次深入淺出的講解很是佩服。

游客評論于 2009-03-25 10:16 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

簡單易懂啊。太感謝了。

我的自省09年評論于 2009-03-25 13:07 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

把教室位置想成文本，把詞想成學生，出現與不出現、不存在等這些意義，一下子就很清晰了呢。。。嘻嘻，好高興。

我的自省09年評論于 2009-03-25 13:28 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

博主，關注者留名個，呵呵

kidreamer 評論于 2009-03-26 10:38 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

強烈感謝中！！！！

tonyfox 評論于 2009-04-10 09:27 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

樓主，文中說P(Ci)只要用1除以類別總數就得到了，對此有點疑義，我認為是類別Ci出現的文檔數除以文檔總數。

志大才疏評論于 2009-04-11 10:05 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

@志大才疏
注意我說過，當你忽略類別的大小時用1除以類別總數。您的做法是考慮了類別大小的方法。

Jasper 評論于 2009-04-11 10:37 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

@Jasper
明白了。還有一個問題麻煩您幫忙，您列出了不少關于文本分類的參考文獻，其中哪幾篇文獻，特征選擇講的比較詳細？

志大才疏評論于 2009-04-13 16:25 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

@志大才疏
遺憾的是基本沒有什么文獻會仔細的說，這可能是學術論文的通病吧，總希望讀者看不懂才好。

Jasper 評論于 2009-04-13 16:27 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

@Jasper
同感。看了不少學術論文，沒一個講明白的。弄的我在寫程序的時候犯了不少錯誤，例如計算信息增益的P(Ci|t)時，用出現了T并且屬于類別Ci的“詞條數”除以出現了T的“詞條數”，其實應該是“文檔數”，要不是看樓主的文章，現在還是這么想的，在這里，謝謝樓主了。

志大才疏評論于 2009-04-14 09:53 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

@志大才疏
我也在研究特征選擇，中文學術論文對這方面寫得感覺不大好，英文學術論文就很多比較詳細的，比如：
Y.Yang and J.Pedersen. A comparative study on feature selection in text categorization
Feature Selection for Text Categorization on Imbalanced Data

還有很多新的feature selection，我看到頭都暈了......有興趣可以發E-MAIL給我一起研究 lebee_leon@163.com

Lebee_leon 評論于 2009-04-18 23:46 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

，類別C是變量，它可能的取值是C1，C2，……，Cn

11 評論于 2009-04-24 21:58 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

真的，看那些晦澀的論文，我也沒怎么產生過佩服的心情，但是，博主真是太強了，這才是真正的學者呢。

妞妞評論于 2009-05-09 11:54 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益[未登錄]

博主你好，看了你的文本特征選擇的文章，學到很多東西。我嘗試做了一些實驗。
在用開方檢驗的方法進行特征選擇，用LIBSVM進行分類，訓練數據和測試數據的accuracy是達到90%以上。但用信息增益的方法，得到模型時，訓練數據最好的結果都是90%上，但測試數據的結果卻是60%左右。我所用的數據是北大分類語料和SOGOU的語料。

博主，我想問問，會有這么大差距，還是我的IG算錯了？

BEE 評論于 2009-06-02 18:28 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益[未登錄]

恩，是我程序有問題。抱歉。

BEE 評論于 2009-06-02 18:43 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

想問一下博主，H(C)才應該是不考慮特征t時候的系統的熵吧？

zhiyuan 評論于 2009-07-20 11:50 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益[未登錄]

呵呵,您再好好想想.@zhiyuan

Jasper 評論于 2009-07-20 22:03 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

再一次膜拜~~svm入門系列的最后一章嗎？期待您對核函數更深入的講解

xiaoxin4 評論于 2009-08-03 16:20 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

博主在文中提到信息增益無法做本地的特征選擇，那么請教如果要做本地特征選擇（即針對每個類別挑選出最適合這個類別的特征）有什么好點的方法呢。

非常期待您的回復。謝謝！

妞妞評論于 2009-08-08 15:39 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

@妞妞
可以試試卡方檢驗（CHI Test）。

Jasper 評論于 2009-08-08 15:47 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

樓主真的是真知灼見令人佩服

知青評論于 2009-11-25 20:35 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

非常感謝博主這樣深入淺出的講解SVM，讓我真正了解了SVM，真的感謝博主這樣的熱心人。

Jackiee 評論于 2009-11-29 22:38 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

特征t如何體現在分類系統的熵中的？分類系統的熵不是由類別數和對應的概率決定么？和用什么特征表示有什么關系？有點沒想明白

Jackiee 評論于 2009-12-03 15:17 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

我想明白了，是不是說分類系統的信息熵是包括所有特征在內的，那么固定其中一個特征就成了條件熵了？貌似這樣的理解可以講得通。

Jackiee 評論于 2009-12-03 15:28 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

博主對于連續變量的選擇有啥好的建議呢？

Jackiee 評論于 2009-12-03 16:07 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

博主，會不會有可能IG<0的？

Jackiee 評論于 2009-12-16 15:43 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益[未登錄]

作者的講解很容易理解，謝謝了

rain 評論于 2010-02-24 15:32 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益[未登錄]

可有的學術論文里就喜歡把這種本來很直白的東西寫得很晦澀，仿佛只有讀者看不懂才是作者的真正成功。
對啊！！！
一氣看了博主的文本分類的文章，寫的好呀

jane 評論于 2010-04-09 16:11 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

看完之后，只有佩服和感謝！！

FZGY 評論于 2010-05-14 03:08 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

講得棒極了，謝謝博主，最后一句話受益匪淺！

李德勝評論于 2010-05-16 21:14 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

樓主太有才了，強烈支持！！

清風徐來評論于 2010-06-28 11:19 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益[未登錄]

精彩的文章.....................

多類劃分方法的最后方案類似決策樹啊。

alex 評論于 2010-07-21 07:00 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

樓主寫的真好
膜拜

夏冬評論于 2010-09-02 23:42 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

博主說的簡直是太太太合我意了。最討厭明明很簡單的道理硬是講得又難又無聊。寫太好啦，收藏之~

IrisRR 評論于 2010-11-02 15:53 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

“咱們是新一代的學者，咱們沒有知識不怕被別人看出來，咱們有知識也不怕教給別人。所以咱都把事情說簡單點，說明白點，大家好，才是真的好。”

看到樓主的最后一句，感覺仿佛說出了自己的心聲。說的好！

Andyseren 評論于 2010-12-27 14:51 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

謝謝博主，講的簡單易懂謝謝

小桂子評論于 2011-05-11 11:04 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益[未登錄]

在計算IG之前，是不是要對特征進行處理？
我算出IG較大的詞都是在文本集合中僅出現過一次的詞（即出現該特征的文檔數為1）

jsj 評論于 2011-05-11 16:32 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

太感謝了
贊！！

zj 評論于 2011-08-01 19:37 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

受益匪淺，感謝中。。。

張同學評論于 2011-11-10 10:56 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益[未登錄]

謝謝博主，我聞香而來

Kevin 評論于 2012-04-08 21:58 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

言簡意賅，受教了！

研究人員評論于 2012-04-10 10:54 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

每個人對于知識都有輸入和輸出的技能，前者是理解知識，后者是表達知識。
有的學術論文作者可能是1號技能強2號技能弱，從而導致別人看不懂自己的文章，但并不一定是故意讓別人看不懂。。。
而博主就是兩個技能都很強，不僅理解深刻，而且表述得通俗易懂平易近人~充滿了逆襲的潛質^_^

nisemono 評論于 2012-05-22 12:26 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益[未登錄]

博主太牛叉了

xiaoqiang 評論于 2012-06-13 20:45 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

簡單而清晰，博主厲害！

oceans 評論于 2012-07-27 17:41 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

@Jasper
“@妞妞
可以試試卡方檢驗（CHI Test）。”就是上一篇的“開方檢驗”么？

G 評論于 2013-03-27 22:12 回復更多評論

# 感謝！

為了感謝博主，特意注冊。所有的留言都看了，里面的話也正是自己想說的。接受感激也許沒有那么快樂，心存感激的人才是最開心的，因為博主，我心存感激！

馬爾科夫評論于 2013-05-07 17:30 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

真的很好啊。

hui 評論于 2013-05-10 15:17 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益[未登錄]

真的講得很好，受益匪淺啊

cc 評論于 2013-07-17 22:21 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

說的太好了！希望博主多多更博啊！支持支持！

實習醫生楊評論于 2013-11-14 10:09 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

我們用T代表特征，而用t代表T出現，那么：
這句下面的那個公式發覺特別難理解

kevinew 評論于 2014-01-13 15:07 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

之前看這個公式，一下之就嚇住了，是直接不敢看啊，作者類似庖丁解牛方式，看的很透徹。

ches_liu 評論于 2014-04-18 19:59 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

"它只適合用來做所謂“全局”的特征選擇（指所有的類都使用相同的特征集合），而無法做“本地”的特征選擇（每個類別有自己的特征集合，因為有的詞，對這個類別很有區分度，對另一個類別則無足輕重）。"

怎么還有本地特征選擇？每個類都有自己的特征集合，還怎么classification？

karl 評論于 2014-06-04 14:10 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

xiexielouzhu

youke 評論于 2014-07-02 20:33 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

咱們是新一代的學者，咱們沒有知識不怕被別人看出來，咱們有知識也不怕教給別人。所以咱都把事情說簡單點，說明白點，大家好，才是真的好。
這句話說得太棒了！

and1 評論于 2014-07-07 19:58 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

你好厲害~

kate寶唄評論于 2014-08-11 18:04 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

實在是太棒了！感謝博主

calmnea 評論于 2014-11-25 11:25 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

從熵、條件熵和互信息的角度理解信息增益會更容易明白，信息增益就是互信息

金良山莊評論于 2014-12-05 17:06 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

大神，請教一個問題。
P(t)是指用用出現過T的是訓練集文檔除以訓練集的總文檔數目，還是用出現過T的測試集文檔除以測試集的總文檔數目？
同理，P(Ci|t)表示的是指用什么文檔除數目以什么文檔數目？
困惑了好久，忘耐心解答。謝謝~

軟件的學生評論于 2014-12-11 22:06 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

給樓主贊一個，樓主學術好，人也好，講解的也夠清楚，最后一句話說的更好

暖暖評論于 2015-03-20 22:13 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

真心佩服博主，講的好通俗，可見博主理解的深入~

scutych 評論于 2015-03-21 16:08 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

感覺利用信息增益選擇特征其實就是決策樹的第一步

karry 評論于 2015-05-24 09:34 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

感謝~

呵呵噠評論于 2015-10-21 10:14 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益

佩服的五體投地啊世界上總有那么些人，無私，樂于分享。而且重要的是技術理論很牛，能把那些刻板的教科書中的乏味東西講得通俗易懂又生動有趣，跪求樓主多發一些關于這樣普及科學的文章，讓我這模式識別小白多學一些！！！！100000000個贊！！！！O(∩_∩)O。但是樓主，加了你的qq，但是一直沒反應。

somnus 評論于 2015-11-11 17:03 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益[未登錄]

說的太好了您理解的太透徹了之前做化學現在用到這方面的知識讓我想起了嘿被鬧了費曼先生

可可評論于 2016-06-19 20:52 回復更多評論

# re: 文本分類入門（十一）特征選擇方法之信息增益[未登錄]

只適用于二元特征屬性的情況，也就說特征只能取值0或者1

wonderful 評論于 2016-08-11 20:54 回復更多評論

文本分類入門（十一）特征選擇方法之信息增益

公告

常用鏈接

留言簿(64)

隨筆分類

隨筆檔案

文章分類

搜索

最新評論

閱讀排行榜

評論排行榜

Jasper's Java Jacal 嘉士伯的Java小屋
BlogJava \| 首頁 \| 發新隨筆 \| 發新文章 \| 聯系 \| 聚合 \| 管理	隨筆：51 文章：2 評論：717 引用：0