使用開方檢驗能夠修正文檔頻率作為特征選擇手段的一些不足,在對復旦大學語料庫作過一系列處理之后,20個類別分別計算各自特征的開方值并排序(開方值越大則說明越應該作為特征被選中)之后,可以看出很多有意思的東西.記得在這一系列文章的part2中提到過僅僅使用詞頻來排序的時候,”這個詞如明星般的在很多類別中都頻繁出現在排名前十的位置上,但這個詞實際上沒有表意功能,對分類貢獻不大,是理應被特征選擇程序篩選掉的.使用開方檢驗方法后,我們驚喜的發現(讀者:!前人早都發現無數次了……):“個”消失了!

我稍微摘選結果中的幾個類別在詞頻排序和開方值排序之間的比較,大家一起來瞅瞅。(前面也說過了,使用詞頻排序和使用文檔頻率情況大體相同,因此不再單獨列出)

歷史類別(History

詞頻排序

開方值排序

歷史 詞頻:24303

中國 詞頻:15146

    詞頻:11707

社會 詞頻:8655

發展 詞頻:8540

研究 詞頻:8007

文化 詞頻:7607

    詞頻:6748

    詞頻:6706

    詞頻:6537

    詞頻:6462

    詞頻:5694

問題 詞頻:5304

政治 詞頻:5178

文學 詞頻:5176

    詞頻:4830

經濟 詞頻:4810

思想 詞頻:4550

這種 詞頻:4476

    詞頻:4276

近代史詞頻:350

史學   詞頻:2566

現代史詞頻:164

史料   詞頻:529

歷史學詞頻:771

世界史詞頻:169

史實   詞頻:294

戰爭   詞頻:2095

封建   詞頻:1156

歷史學詞頻:386

人物   詞頻:2399

統治   詞頻:1056

侵略   詞頻:501

記載   詞頻:625

歷史   詞頻:24303

斗爭   詞頻:1731

帝國主義詞頻:655

清政府詞頻:289

王朝   詞頻:370

民族   詞頻:4168

我列出了歷史類文章中兩種方法排名前二十的詞匯,可以發現使用詞頻(或者文檔頻率)統計的結果純粹無聊(簡直無聊,特別無聊),除了“歷史”,“社會”,“發展”聽著還像那么回事以外,什么“說”,“種”,“年”這樣的詞真該統統殺光光。

用了開方檢驗就果然不一樣,看看“史料”啊,“記載”呀,“王朝”呀,多正兒八經的歷史詞匯!我真是太喜歡開方檢驗啦!(笑)

當然結果也未必就十全十美了,我舉個計算機的例子給你看。

計算機類別(Computer

詞頻排序

開方值排序

系統詞頻:45496

控制詞頻:21937

   詞頻:20396

方法詞頻:20073

   詞頻:19661

算法詞頻:18879

數據詞頻:17691

模型詞頻:17182

網絡詞頻:16980

進行詞頻:16406

問題詞頻:14617

應用詞頻:13883

對象詞頻:13656

信息詞頻:13468

結構詞頻:12658

研究詞頻:12308

實現詞頻:11331

過程詞頻:11293

設計詞頻:10713

   詞頻:10506

算法   詞頻:18879

自動化詞頻:2674

計算機詞頻:7569

函數   詞頻:9932

定義   詞頻:9817

關鍵詞詞頻:1956

軟件   詞頻:6189

引言   詞頻:937

集合   詞頻:3717

輸入   詞頻:6385

     詞頻:1540

定理   詞頻:4487

模型   詞頻:17182

用戶   詞頻:10053

參數   詞頻:8491

導師   詞頻:969

向量   詞頻:2658

     詞頻:213

輸出   詞頻:6149

矩陣   詞頻:5431

看見這個詞了么?居然出現在第11,現在我還要告訴你,如果不是在去停止詞的階段把字給去掉了,”字也會出現在附近的位置上,聰明的讀者應該能大致猜出幾分原因了吧.沒錯,到復旦語料庫的計算機類文檔中稍稍察看就會發現,大量的文檔都有類似這樣的格式:

計算機應用

COMPUTER APPLICATIONS

1999196 Vol.19 No.6 1999

一種基于智能Agent的協同工作模型

朱曉蕓 何欽銘 王申康

  摘 要 計算機支持的協同工作(CSCW)需要研究出適應各種協同工作方式的靈活、開放、可擴充的模型結構。本文以分布式人工智能研究中的智能Agent為系統基本單元,提出一種基于智能Agent的協同工作模型,給出了它的具體實現。

  關鍵詞 計算機支持的協同工作,智能Agent,分布式人工智能

AN INTELLIGENT AGENT BASED COLLABORATIVE WORK MODEL

Zhu XiaoyunHe QinmingWang Shenkang

看到摘要的位置了么?一來復旦語料庫計算機類的文檔大都是這類期刊文獻的形式,因此摘要這個詞頻繁出現;二來其他類別的語料雖然也都有大量以文獻作為來源的文檔,但甚少用到摘要這個詞;最后一點,注意到原文中摘要兩個字是被空格分開的,只有我們這些地球的主宰者,全能的人類才能看出他們是一個詞,而我們使用的分詞程序會毫不留情的將其判斷為兩個詞.這三點綜合作用的結果,就使得我們的程序認為這個詞對計算機類文檔有很強的代表性(當然,我們自己心里知道,這純屬無稽之談),從而入選了特征的TOP20

以上分析給我們的啟示是:作為訓練集的文檔來源一定要廣泛,如果計算機類的文章還包括教科書,網頁,個人博客的內容,顯然就不會出現“摘”字這種笑話;另一方面,再一次重申,文本分類就應該是只依據文本的內容,而不應該包含文件的編碼,文章格式,發表時間等外部信息,“摘”字的笑話多少也是因為文章的格式(在“摘”和“要”之間總有空格)影響了分詞程序的判斷而致。

關于復旦語料庫所說的這些東西有點雜,有機會的話我會重新整理,再結合特征選擇的具體方法,把特征選擇的過程說說清楚。

以上。