使用開方檢驗?zāi)軌蛐拚臋n頻率作為特征選擇手段的一些不足,在對復(fù)旦大學(xué)語料庫作過一系列處理之后,為20個類別分別計算各自特征的開方值并排序(開方值越大則說明越應(yīng)該作為特征被選中)之后,可以看出很多有意思的東西.記得在這一系列文章的part2中提到過僅僅使用詞頻來排序的時候,”個”這個詞如明星般的在很多類別中都頻繁出現(xiàn)在排名前十的位置上,但這個詞實際上沒有表意功能,對分類貢獻(xiàn)不大,是理應(yīng)被特征選擇程序篩選掉的.使用開方檢驗方法后,我們驚喜的發(fā)現(xiàn)(讀者:切!前人早都發(fā)現(xiàn)無數(shù)次了……):“個”消失了!
我稍微摘選結(jié)果中的幾個類別在詞頻排序和開方值排序之間的比較,大家一起來瞅瞅。(前面也說過了,使用詞頻排序和使用文檔頻率情況大體相同,因此不再單獨(dú)列出)
歷史類別(History)
詞頻排序
|
開方值排序
|
歷史 詞頻:24303
中國 詞頻:15146
人
詞頻:11707
社會 詞頻:8655
發(fā)展 詞頻:8540
研究 詞頻:8007
文化 詞頻:7607
大
詞頻:6748
新
詞頻:6706
到
詞頻:6537
說
詞頻:6462
種
詞頻:5694
問題 詞頻:5304
政治 詞頻:5178
文學(xué) 詞頻:5176
年
詞頻:4830
經(jīng)濟(jì) 詞頻:4810
思想 詞頻:4550
這種 詞頻:4476
個
詞頻:4276
|
近代史詞頻:350
史學(xué)
詞頻:2566
現(xiàn)代史詞頻:164
史料
詞頻:529
歷史學(xué)詞頻:771
世界史詞頻:169
史實
詞頻:294
戰(zhàn)爭
詞頻:2095
封建
詞頻:1156
歷史學(xué)詞頻:386
人物
詞頻:2399
統(tǒng)治
詞頻:1056
侵略
詞頻:501
記載
詞頻:625
歷史
詞頻:24303
斗爭
詞頻:1731
帝國主義詞頻:655
清政府詞頻:289
王朝
詞頻:370
民族
詞頻:4168
|
我列出了歷史類文章中兩種方法排名前二十的詞匯,可以發(fā)現(xiàn)使用詞頻(或者文檔頻率)統(tǒng)計的結(jié)果純粹無聊(簡直無聊,特別無聊),除了“歷史”,“社會”,“發(fā)展”聽著還像那么回事以外,什么“說”,“種”,“年”這樣的詞真該統(tǒng)統(tǒng)殺光光。
用了開方檢驗就果然不一樣,看看“史料”啊,“記載”呀,“王朝”呀,多正兒八經(jīng)的歷史詞匯!我真是太喜歡開方檢驗啦!(笑)
當(dāng)然結(jié)果也未必就十全十美了,我舉個計算機(jī)的例子給你看。
計算機(jī)類別(Computer)
詞頻排序
|
開方值排序
|
系統(tǒng)詞頻:45496
控制詞頻:21937
圖
詞頻:20396
方法詞頻:20073
個
詞頻:19661
算法詞頻:18879
數(shù)據(jù)詞頻:17691
模型詞頻:17182
網(wǎng)絡(luò)詞頻:16980
進(jìn)行詞頻:16406
問題詞頻:14617
應(yīng)用詞頻:13883
對象詞頻:13656
信息詞頻:13468
結(jié)構(gòu)詞頻:12658
研究詞頻:12308
實現(xiàn)詞頻:11331
過程詞頻:11293
設(shè)計詞頻:10713
種
詞頻:10506
|
算法
詞頻:18879
自動化詞頻:2674
計算機(jī)詞頻:7569
函數(shù)
詞頻:9932
定義
詞頻:9817
關(guān)鍵詞詞頻:1956
軟件
詞頻:6189
引言
詞頻:937
集合
詞頻:3717
輸入
詞頻:6385
摘
詞頻:1540
定理
詞頻:4487
模型
詞頻:17182
用戶
詞頻:10053
參數(shù)
詞頻:8491
導(dǎo)師
詞頻:969
向量
詞頻:2658
期
詞頻:213
輸出
詞頻:6149
矩陣
詞頻:5431
|
看見”摘”這個詞了么?居然出現(xiàn)在第11位,現(xiàn)在我還要告訴你,如果不是在去停止詞的階段把”要”字給去掉了,”要”字也會出現(xiàn)在”摘”附近的位置上,聰明的讀者應(yīng)該能大致猜出幾分原因了吧.沒錯,到復(fù)旦語料庫的計算機(jī)類文檔中稍稍察看就會發(fā)現(xiàn),大量的文檔都有類似這樣的格式:
計算機(jī)應(yīng)用
COMPUTER APPLICATIONS
1999年第19卷第6期 Vol.19 No.6 1999
一種基于智能Agent的協(xié)同工作模型
朱曉蕓 何欽銘 王申康
摘 要 計算機(jī)支持的協(xié)同工作(CSCW)需要研究出適應(yīng)各種協(xié)同工作方式的靈活、開放、可擴(kuò)充的模型結(jié)構(gòu)。本文以分布式人工智能研究中的智能Agent為系統(tǒng)基本單元,提出一種基于智能Agent的協(xié)同工作模型,給出了它的具體實現(xiàn)。
關(guān)鍵詞 計算機(jī)支持的協(xié)同工作,智能Agent,分布式人工智能
AN INTELLIGENT AGENT
BASED COLLABORATIVE WORK MODEL
Zhu XiaoyunHe QinmingWang Shenkang
看到”摘要”的位置了么?一來復(fù)旦語料庫計算機(jī)類的文檔大都是這類期刊文獻(xiàn)的形式,因此”摘要”這個詞頻繁出現(xiàn);二來其他類別的語料雖然也都有大量以文獻(xiàn)作為來源的文檔,但甚少用到”摘要”這個詞;最后一點,注意到原文中”摘要”兩個字是被空格分開的,只有我們這些地球的主宰者,全能的人類才能看出他們是一個詞,而我們使用的分詞程序會毫不留情的將其判斷為”摘”和”要”兩個詞.這三點綜合作用的結(jié)果,就使得我們的程序認(rèn)為”摘”這個詞對計算機(jī)類文檔有很強(qiáng)的代表性(當(dāng)然,我們自己心里知道,這純屬無稽之談),從而入選了特征的TOP20。
以上分析給我們的啟示是:作為訓(xùn)練集的文檔來源一定要廣泛,如果計算機(jī)類的文章還包括教科書,網(wǎng)頁,個人博客的內(nèi)容,顯然就不會出現(xiàn)“摘”字這種笑話;另一方面,再一次重申,文本分類就應(yīng)該是只依據(jù)文本的內(nèi)容,而不應(yīng)該包含文件的編碼,文章格式,發(fā)表時間等外部信息,“摘”字的笑話多少也是因為文章的格式(在“摘”和“要”之間總有空格)影響了分詞程序的判斷而致。
關(guān)于復(fù)旦語料庫所說的這些東西有點雜,有機(jī)會的話我會重新整理,再結(jié)合特征選擇的具體方法,把特征選擇的過程說說清楚。
以上。