詞的文檔頻率(DF,
即一個詞在多少篇文檔中出現)
雖然并不用于真正的特征選擇,
但是作為特征選擇前的預處理手段還是經常被使用,
因為出現次數太少的詞(
低頻詞,
或者叫生僻詞)
往往是表意能力很差的詞,
更極端的情況下,
那種在幾萬篇文檔中卻只出現幾次的詞更有可能是作者的筆誤(
即創造了一個不存在的詞),
使用它的更大好處還在于可以大大消減文檔集中需要處理的詞匯數量.
請看以下的數據,
在上一篇文章中對復旦語料庫進行分詞,
去停止詞,
去無用詞性的詞的基礎上,
再進行一次根據DF
的處理,
去除所有文檔頻率小于等于3
的詞,
得到的對比結果如下.
文檔頻率篩選前
|
文檔頻率篩選后
|
總詞數116558
類別名稱:Agriculture
總詞數:29163
類別名稱:Art
總詞數:40816
類別名稱:Communication
總詞數:2283
類別名稱:Computer
總詞數:19340
類別名稱:Economy
總詞數:37021
類別名稱:Education
總詞數:5719
類別名稱:Electronics
總詞數:2693
類別名稱:Energy
總詞數:2848
類別名稱:Environment
總詞數:25155
類別名稱:History
總詞數:47205
類別名稱:Law
總詞數:3834
類別名稱:Literature
總詞數:5844
類別名稱:Medical
總詞數:3877
類別名稱:Military
總詞數:4615
類別名稱:Mine
總詞數:3708
類別名稱:Philosophy
總詞數:5190
類別名稱:Politics
總詞數:35292
類別名稱:Space
總詞數:14557
類別名稱:Sports
總詞數:42665
類別名稱:Transport
總詞數:4644
|
總詞數50283
類別名稱:Agriculture
總詞數:23258
類別名稱:Art
總詞數:30899
類別名稱:Communication
總詞數:2207
類別名稱:Computer
總詞數:15545
類別名稱:Economy
總詞數:28363
類別名稱:Education
總詞數:5437
類別名稱:Electronics
總詞數:2604
類別名稱:Energy
總詞數:2702
類別名稱:Environment
總詞數:19781
類別名稱:History
總詞數:31436
類別名稱:Law
總詞數:3656
類別名稱:Literature
總詞數:5500
類別名稱:Medical
總詞數:3566
類別名稱:Military
總詞數:4256
類別名稱:Mine
總詞數:3507
類別名稱:Philosophy
總詞數:4968
類別名稱:Politics
總詞數:26046
類別名稱:Space
總詞數:12136
類別名稱:Sports
總詞數:30803
類別名稱:Transport
總詞數:4276
|
怎么樣?總詞數從116558下降到50283,減少了一多半.可見生僻詞還是廣泛存在的.而具體到各個類別上也各不相同.減少的比較少的典型類別例如法律類,僅僅消減掉了4.6%的詞匯,而歷史類整整去除了33.4%!這倒也不難想象,因為法律概念一般有標準的名稱和說法,文章也都有通用的格式或成文的套路遵循,作者本身發揮的余地不大.而歷史類文章包含大量的人名地名和事件名稱,這些名稱出現數量多但每一個出現的次數相對較少,而同時人名地名也很難作為區分文章主題的依據(出現”諸葛”就一定是說三國時期的事情么?我們計算所有位老師就姓諸葛,還恰好是搞自然語言處理方面的,呵呵),篩掉它們我們也不心疼.
有了這一步處理,又可以為開方檢驗的計算增添不少方便.
(音樂再次響起,幕布再次緩慢拉上,燈光漸暗)