使用開方檢驗?zāi)軌蛐拚臋n頻率作為特征選擇手段的一些不足,在對復(fù)旦大學(xué)語料庫作過一系列處理之后,20個類別分別計算各自特征的開方值并排序(開方值越大則說明越應(yīng)該作為特征被選中)之后,可以看出很多有意思的東西.記得在這一系列文章的part2中提到過僅僅使用詞頻來排序的時候,”這個詞如明星般的在很多類別中都頻繁出現(xiàn)在排名前十的位置上,但這個詞實際上沒有表意功能,對分類貢獻(xiàn)不大,是理應(yīng)被特征選擇程序篩選掉的.使用開方檢驗方法后,我們驚喜的發(fā)現(xiàn)(讀者:!前人早都發(fā)現(xiàn)無數(shù)次了……):“個”消失了!

我稍微摘選結(jié)果中的幾個類別在詞頻排序和開方值排序之間的比較,大家一起來瞅瞅。(前面也說過了,使用詞頻排序和使用文檔頻率情況大體相同,因此不再單獨(dú)列出)

歷史類別(History

詞頻排序

開方值排序

歷史 詞頻:24303

中國 詞頻:15146

    詞頻:11707

社會 詞頻:8655

發(fā)展 詞頻:8540

研究 詞頻:8007

文化 詞頻:7607

    詞頻:6748

    詞頻:6706

    詞頻:6537

    詞頻:6462

    詞頻:5694

問題 詞頻:5304

政治 詞頻:5178

文學(xué) 詞頻:5176

    詞頻:4830

經(jīng)濟(jì) 詞頻:4810

思想 詞頻:4550

這種 詞頻:4476

    詞頻:4276

近代史詞頻:350

史學(xué)   詞頻:2566

現(xiàn)代史詞頻:164

史料   詞頻:529

歷史學(xué)詞頻:771

世界史詞頻:169

史實   詞頻:294

戰(zhàn)爭   詞頻:2095

封建   詞頻:1156

歷史學(xué)詞頻:386

人物   詞頻:2399

統(tǒng)治   詞頻:1056

侵略   詞頻:501

記載   詞頻:625

歷史   詞頻:24303

斗爭   詞頻:1731

帝國主義詞頻:655

清政府詞頻:289

王朝   詞頻:370

民族   詞頻:4168

我列出了歷史類文章中兩種方法排名前二十的詞匯,可以發(fā)現(xiàn)使用詞頻(或者文檔頻率)統(tǒng)計的結(jié)果純粹無聊(簡直無聊,特別無聊),除了“歷史”,“社會”,“發(fā)展”聽著還像那么回事以外,什么“說”,“種”,“年”這樣的詞真該統(tǒng)統(tǒng)殺光光。

用了開方檢驗就果然不一樣,看看“史料”啊,“記載”呀,“王朝”呀,多正兒八經(jīng)的歷史詞匯!我真是太喜歡開方檢驗啦!(笑)

當(dāng)然結(jié)果也未必就十全十美了,我舉個計算機(jī)的例子給你看。

計算機(jī)類別(Computer

詞頻排序

開方值排序

系統(tǒng)詞頻:45496

控制詞頻:21937

   詞頻:20396

方法詞頻:20073

   詞頻:19661

算法詞頻:18879

數(shù)據(jù)詞頻:17691

模型詞頻:17182

網(wǎng)絡(luò)詞頻:16980

進(jìn)行詞頻:16406

問題詞頻:14617

應(yīng)用詞頻:13883

對象詞頻:13656

信息詞頻:13468

結(jié)構(gòu)詞頻:12658

研究詞頻:12308

實現(xiàn)詞頻:11331

過程詞頻:11293

設(shè)計詞頻:10713

   詞頻:10506

算法   詞頻:18879

自動化詞頻:2674

計算機(jī)詞頻:7569

函數(shù)   詞頻:9932

定義   詞頻:9817

關(guān)鍵詞詞頻:1956

軟件   詞頻:6189

引言   詞頻:937

集合   詞頻:3717

輸入   詞頻:6385

     詞頻:1540

定理   詞頻:4487

模型   詞頻:17182

用戶   詞頻:10053

參數(shù)   詞頻:8491

導(dǎo)師   詞頻:969

向量   詞頻:2658

     詞頻:213

輸出   詞頻:6149

矩陣   詞頻:5431

看見這個詞了么?居然出現(xiàn)在第11,現(xiàn)在我還要告訴你,如果不是在去停止詞的階段把字給去掉了,”字也會出現(xiàn)在附近的位置上,聰明的讀者應(yīng)該能大致猜出幾分原因了吧.沒錯,到復(fù)旦語料庫的計算機(jī)類文檔中稍稍察看就會發(fā)現(xiàn),大量的文檔都有類似這樣的格式:

計算機(jī)應(yīng)用

COMPUTER APPLICATIONS

1999196 Vol.19 No.6 1999

一種基于智能Agent的協(xié)同工作模型

朱曉蕓 何欽銘 王申康

  摘 要 計算機(jī)支持的協(xié)同工作(CSCW)需要研究出適應(yīng)各種協(xié)同工作方式的靈活、開放、可擴(kuò)充的模型結(jié)構(gòu)。本文以分布式人工智能研究中的智能Agent為系統(tǒng)基本單元,提出一種基于智能Agent的協(xié)同工作模型,給出了它的具體實現(xiàn)。

  關(guān)鍵詞 計算機(jī)支持的協(xié)同工作,智能Agent,分布式人工智能

AN INTELLIGENT AGENT BASED COLLABORATIVE WORK MODEL

Zhu XiaoyunHe QinmingWang Shenkang

看到摘要的位置了么?一來復(fù)旦語料庫計算機(jī)類的文檔大都是這類期刊文獻(xiàn)的形式,因此摘要這個詞頻繁出現(xiàn);二來其他類別的語料雖然也都有大量以文獻(xiàn)作為來源的文檔,但甚少用到摘要這個詞;最后一點,注意到原文中摘要兩個字是被空格分開的,只有我們這些地球的主宰者,全能的人類才能看出他們是一個詞,而我們使用的分詞程序會毫不留情的將其判斷為兩個詞.這三點綜合作用的結(jié)果,就使得我們的程序認(rèn)為這個詞對計算機(jī)類文檔有很強(qiáng)的代表性(當(dāng)然,我們自己心里知道,這純屬無稽之談),從而入選了特征的TOP20

以上分析給我們的啟示是:作為訓(xùn)練集的文檔來源一定要廣泛,如果計算機(jī)類的文章還包括教科書,網(wǎng)頁,個人博客的內(nèi)容,顯然就不會出現(xiàn)“摘”字這種笑話;另一方面,再一次重申,文本分類就應(yīng)該是只依據(jù)文本的內(nèi)容,而不應(yīng)該包含文件的編碼,文章格式,發(fā)表時間等外部信息,“摘”字的笑話多少也是因為文章的格式(在“摘”和“要”之間總有空格)影響了分詞程序的判斷而致。

關(guān)于復(fù)旦語料庫所說的這些東西有點雜,有機(jī)會的話我會重新整理,再結(jié)合特征選擇的具體方法,把特征選擇的過程說說清楚。

以上。