經過詞頻統計,看到復旦大學中文語料庫的總詞數為116558個(而且還是去掉了停止詞及代詞,介詞,數詞和時間短語等無關內容之后的結果),數量十分巨大.
而各個類別的詞匯數量分別為:
    類別名稱:Agriculture 總文檔數:1949 總詞數:29163
    類別名稱:Art 總文檔數:1237 總詞數:40816
    類別名稱:Communication 總文檔數:52 總詞數:2283
    類別名稱:Computer 總文檔數:2591 總詞數:19340
    類別名稱:Economy 總文檔數:2912 總詞數:37021
    類別名稱:Education 總文檔數:111 總詞數:5719
    類別名稱:Electronics 總文檔數:51 總詞數:2693
    類別名稱:Energy 總文檔數:63 總詞數:2848
    類別名稱:Environment 總文檔數:2347 總詞數:25155
    類別名稱:History 總文檔數:708 總詞數:47205
    類別名稱:Law 總文檔數:103 總詞數:3834
    類別名稱:Literature 總文檔數:65 總詞數:5844
    類別名稱:Medical 總文檔數:98 總詞數:3877
    類別名稱:Military 總文檔數:147 總詞數:4615
    類別名稱:Mine 總文檔數:63 總詞數:3708
    類別名稱:Philosophy 總文檔數:86 總詞數:5190
    類別名稱:Politics 總文檔數:1920 總詞數:35292
    類別名稱:Space 總文檔數:1226 總詞數:14557
    類別名稱:Sports 總文檔數:2344 總詞數:42665
    類別名稱:Transport 總文檔數:112 總詞數:4644

很容易看出詞匯的數量基本與類別包含的文檔數成正比,但也有一些極其特殊的類別,比如藝術(Art)和歷史(History),其文檔數量僅有計算機文章數量的一半,但包含的詞匯量卻是計算機類別的兩倍以上(分別是40816:19340和47205:19340,尤以歷史類文章為甚,其文檔數量僅有計算機類的三分之一還不到)。直觀上的想法是,歷史和藝術類文章包含了大量的人名,地名或者事件名等專有名詞,因而詞匯數量上表現得很巨大。計算機類文章包含詞匯較少,一是因為其為新興學科,包含的內容本就較少,另一個更重要的原因則在于前期對文章的處理忽略了所有的英文單詞及縮寫,而這些內容在計算機相關的文章中所占比重很大。
如果我們看整個語料庫出現次數最多的十個詞,會發現他們大致也是我們的國計民生所關注的幾個方面(巧合?未必!)它們是:

    詞內容:經濟 詞性:名詞 詞頻:233906 文檔頻率:8975
    詞內容:發展 詞性:動詞 詞頻:189181 文檔頻率:11847
    詞內容:農業 詞性:名詞 詞頻:126603 文檔頻率:4105
    詞內容:社會 詞性:名詞 詞頻:108988 文檔頻率:8686
    詞內容:政治 詞性:名詞 詞頻:106847 文檔頻率:4971
    詞內容:大 詞性:形容詞 詞頻:106111 文檔頻率:14729
    詞內容:中國 詞性:名詞 詞頻:105269 文檔頻率:10885
    詞內容:人   詞性:名詞 詞頻:98034 文檔頻率:11037
    詞內容:問題 詞性:名詞 詞頻:94458 文檔頻率:12538
    詞內容:個   詞性:量詞 詞頻:91717 文檔頻率:14428

通過與某些類別中排名前十位的詞對比,我們可以看出很多問題,例如計算機類別:
        詞內容:系統 詞性:形容詞 詞頻:45496 文檔頻率:2244
        詞內容:控制 詞性:動詞 詞頻:21937 文檔頻率:1734
        詞內容:圖 詞性:名詞 詞頻:20396 文檔頻率:1914
        詞內容:方法 詞性:名詞 詞頻:20073 文檔頻率:2141
        詞內容:個 詞性:量詞 詞頻:19661 文檔頻率:2207
        詞內容:算法 詞性:名詞 詞頻:18879 文檔頻率:1336
        詞內容:數據 詞性:名詞 詞頻:17691 文檔頻率:1357
        詞內容:模型 詞性:名詞 詞頻:17182 文檔頻率:1423
        詞內容:網絡 詞性:名詞 詞頻:16980 文檔頻率:1159
        詞內容:進行 詞性:動詞 詞頻:16406 文檔頻率:2094
        詞內容:問題 詞性:名詞 詞頻:14617 文檔頻率:1965

再比如交通類別:
        詞內容:鐵路 詞性:名詞 詞頻:280 文檔頻率:51
        詞內容:運輸 詞性:動詞 詞頻:205 文檔頻率:74
        詞內容:交通 詞性:名詞 詞頻:158 文檔頻率:54
        詞內容:大 詞性:形容詞 詞頻:147 文檔頻率:59
        詞內容:工程 詞性:名詞 詞頻:136 文檔頻率:31
        詞內容:個 詞性:量詞 詞頻:117 文檔頻率:51
        詞內容:年 詞性:量詞 詞頻:114 文檔頻率:52
        詞內容:建設 詞性:動詞 詞頻:108 文檔頻率:40
        詞內容:公路 詞性:名詞 詞頻:106 文檔頻率:34
        詞內容:條 詞性:量詞 詞頻:105 文檔頻率:38

我們會發現,
第一:整個語料庫出現最多的詞未必在各個類別中也最多,實際上通過計算機和交通類別可以看出,幾乎完全不同!這意味著在進行文本分類的訓練階段,針對各個類取不同的特征集合(即所謂local的特征選擇)很有必要,如果所有的類別都使用相同的特征集合(而且毫無懸念的,這個特征集合就是語料庫的特征集合),那么分類效果會因為沒有為各個類找到最佳的特征而大打折扣;
第二,注意到“個”這個詞出現在所有類別排名靠前的詞匯中間,但直覺告訴我們,這個詞很難對分類產生什么貢獻(行話叫區分度很差)。此結論與信息論中所說的“一個詞分布越廣越均勻,則區分度越差”是一個意思。當然,在這里“個”會如明星般的出現在所有類別靠前的位置上,完全是因為我們的排名是根據詞頻來統計的(根據文檔頻率排序也會產生相似的結果),而使用像開方檢驗,信息增益這樣的特征選擇算法,就是為了避免這種區分度差的詞出現在最終的特征集合中,從而影響分類效果。
在后續的文章里,我還會給出使用了開方檢驗計算特征得分以后的排名情況,“個”這個詞會不會從前十名中消失呢?又有哪些詞會沖上頭排呢?我們拭目以待。(音樂響,幕布緩慢拉上,燈光漸暗)