詞的文檔頻率(DF,即一個詞在多少篇文檔中出現)雖然并不用于真正的特征選擇,但是作為特征選擇前的預處理手段還是經常被使用,因為出現次數太少的詞(低頻詞,或者叫生僻詞)往往是表意能力很差的詞,更極端的情況下,那種在幾萬篇文檔中卻只出現幾次的詞更有可能是作者的筆誤(即創造了一個不存在的詞),使用它的更大好處還在于可以大大消減文檔集中需要處理的詞匯數量.請看以下的數據,在上一篇文章中對復旦語料庫進行分詞,去停止詞,去無用詞性的詞的基礎上,再進行一次根據DF的處理,去除所有文檔頻率小于等于3的詞,得到的對比結果如下.

文檔頻率篩選前

文檔頻率篩選后

總詞數116558


類別名稱:Agriculture

總詞數:29163


類別名稱:Art

總詞數:40816


類別名稱:Communication

總詞數:2283


類別名稱:Computer

總詞數:19340


類別名稱:Economy

總詞數:37021


類別名稱:Education

總詞數:5719


類別名稱:Electronics

總詞數:2693


類別名稱:Energy

總詞數:2848


類別名稱:Environment

總詞數:25155


類別名稱:History

總詞數:47205


類別名稱:Law

總詞數:3834


類別名稱:Literature

總詞數:5844


類別名稱:Medical

總詞數:3877


類別名稱:Military

總詞數:4615


類別名稱:Mine

總詞數:3708


類別名稱:Philosophy

總詞數:5190


類別名稱:Politics

總詞數:35292


類別名稱:Space

總詞數:14557


類別名稱:Sports

總詞數:42665


類別名稱:Transport

總詞數:4644

總詞數50283


類別名稱:Agriculture

總詞數:23258


類別名稱:Art

總詞數:30899


類別名稱:Communication

總詞數:2207


類別名稱:Computer

總詞數:15545


類別名稱:Economy

總詞數:28363


類別名稱:Education

總詞數:5437


類別名稱:Electronics

總詞數:2604


類別名稱:Energy

總詞數:2702


類別名稱:Environment

總詞數:19781


類別名稱:History

總詞數:31436


類別名稱:Law

總詞數:3656


類別名稱:Literature

總詞數:5500


類別名稱:Medical

總詞數:3566


類別名稱:Military

總詞數:4256


類別名稱:Mine

總詞數:3507


類別名稱:Philosophy

總詞數:4968


類別名稱:Politics

總詞數:26046


類別名稱:Space

總詞數:12136


類別名稱:Sports

總詞數:30803


類別名稱:Transport

總詞數:4276

怎么樣?總詞數從116558下降到50283,減少了一多半.可見生僻詞還是廣泛存在的.而具體到各個類別上也各不相同.減少的比較少的典型類別例如法律類,僅僅消減掉了4.6%的詞匯,而歷史類整整去除了33.4%!這倒也不難想象,因為法律概念一般有標準的名稱和說法,文章也都有通用的格式或成文的套路遵循,作者本身發揮的余地不大.而歷史類文章包含大量的人名地名和事件名稱,這些名稱出現數量多但每一個出現的次數相對較少,而同時人名地名也很難作為區分文章主題的依據(出現諸葛就一定是說三國時期的事情么?我們計算所有位老師就姓諸葛,還恰好是搞自然語言處理方面的,呵呵),篩掉它們我們也不心疼.

有了這一步處理,又可以為開方檢驗的計算增添不少方便.

(音樂再次響起,幕布再次緩慢拉上,燈光漸暗)