使用開方檢驗能夠修正文檔頻率作為特征選擇手段的一些不足,在對復旦大學語料庫作過一系列處理之后,為20個類別分別計算各自特征的開方值并排序(開方值越大則說明越應該作為特征被選中)之后,可以看出很多有意思的東西.記得在這一系列文章的part2中提到過僅僅使用詞頻來排序的時候,”個”這個詞如明星般的在很多類別中都頻繁出現在排名前十的位置上,但這個詞實際上沒有表意功能,對分類貢獻不大,是理應被特征選擇程序篩選掉的.使用開方檢驗方法后,我們驚喜的發現(讀者:切!前人早都發現無數次了……):“個”消失了!
我稍微摘選結果中的幾個類別在詞頻排序和開方值排序之間的比較,大家一起來瞅瞅。(前面也說過了,使用詞頻排序和使用文檔頻率情況大體相同,因此不再單獨列出)
歷史類別(History)
詞頻排序
|
開方值排序
|
歷史 詞頻:24303
中國 詞頻:15146
人
詞頻:11707
社會 詞頻:8655
發展 詞頻:8540
研究 詞頻:8007
文化 詞頻:7607
大
詞頻:6748
新
詞頻:6706
到
詞頻:6537
說
詞頻:6462
種
詞頻:5694
問題 詞頻:5304
政治 詞頻:5178
文學 詞頻:5176
年
詞頻:4830
經濟 詞頻:4810
思想 詞頻:4550
這種 詞頻:4476
個
詞頻:4276
|
近代史詞頻:350
史學
詞頻:2566
現代史詞頻:164
史料
詞頻:529
歷史學詞頻:771
世界史詞頻:169
史實
詞頻:294
戰爭
詞頻:2095
封建
詞頻:1156
歷史學詞頻:386
人物
詞頻:2399
統治
詞頻:1056
侵略
詞頻:501
記載
詞頻:625
歷史
詞頻:24303
斗爭
詞頻:1731
帝國主義詞頻:655
清政府詞頻:289
王朝
詞頻:370
民族
詞頻:4168
|
我列出了歷史類文章中兩種方法排名前二十的詞匯,可以發現使用詞頻(或者文檔頻率)統計的結果純粹無聊(簡直無聊,特別無聊),除了“歷史”,“社會”,“發展”聽著還像那么回事以外,什么“說”,“種”,“年”這樣的詞真該統統殺光光。
用了開方檢驗就果然不一樣,看看“史料”啊,“記載”呀,“王朝”呀,多正兒八經的歷史詞匯!我真是太喜歡開方檢驗啦!(笑)
當然結果也未必就十全十美了,我舉個計算機的例子給你看。
計算機類別(Computer)
詞頻排序
|
開方值排序
|
系統詞頻:45496
控制詞頻:21937
圖
詞頻:20396
方法詞頻:20073
個
詞頻:19661
算法詞頻:18879
數據詞頻:17691
模型詞頻:17182
網絡詞頻:16980
進行詞頻:16406
問題詞頻:14617
應用詞頻:13883
對象詞頻:13656
信息詞頻:13468
結構詞頻:12658
研究詞頻:12308
實現詞頻:11331
過程詞頻:11293
設計詞頻:10713
種
詞頻:10506
|
算法
詞頻:18879
自動化詞頻:2674
計算機詞頻:7569
函數
詞頻:9932
定義
詞頻:9817
關鍵詞詞頻:1956
軟件
詞頻:6189
引言
詞頻:937
集合
詞頻:3717
輸入
詞頻:6385
摘
詞頻:1540
定理
詞頻:4487
模型
詞頻:17182
用戶
詞頻:10053
參數
詞頻:8491
導師
詞頻:969
向量
詞頻:2658
期
詞頻:213
輸出
詞頻:6149
矩陣
詞頻:5431
|
看見”摘”這個詞了么?居然出現在第11位,現在我還要告訴你,如果不是在去停止詞的階段把”要”字給去掉了,”要”字也會出現在”摘”附近的位置上,聰明的讀者應該能大致猜出幾分原因了吧.沒錯,到復旦語料庫的計算機類文檔中稍稍察看就會發現,大量的文檔都有類似這樣的格式:
計算機應用
COMPUTER APPLICATIONS
1999年第19卷第6期 Vol.19 No.6 1999
一種基于智能Agent的協同工作模型
朱曉蕓 何欽銘 王申康
摘 要 計算機支持的協同工作(CSCW)需要研究出適應各種協同工作方式的靈活、開放、可擴充的模型結構。本文以分布式人工智能研究中的智能Agent為系統基本單元,提出一種基于智能Agent的協同工作模型,給出了它的具體實現。
關鍵詞 計算機支持的協同工作,智能Agent,分布式人工智能
AN INTELLIGENT AGENT
BASED COLLABORATIVE WORK MODEL
Zhu XiaoyunHe QinmingWang Shenkang
看到”摘要”的位置了么?一來復旦語料庫計算機類的文檔大都是這類期刊文獻的形式,因此”摘要”這個詞頻繁出現;二來其他類別的語料雖然也都有大量以文獻作為來源的文檔,但甚少用到”摘要”這個詞;最后一點,注意到原文中”摘要”兩個字是被空格分開的,只有我們這些地球的主宰者,全能的人類才能看出他們是一個詞,而我們使用的分詞程序會毫不留情的將其判斷為”摘”和”要”兩個詞.這三點綜合作用的結果,就使得我們的程序認為”摘”這個詞對計算機類文檔有很強的代表性(當然,我們自己心里知道,這純屬無稽之談),從而入選了特征的TOP20。
以上分析給我們的啟示是:作為訓練集的文檔來源一定要廣泛,如果計算機類的文章還包括教科書,網頁,個人博客的內容,顯然就不會出現“摘”字這種笑話;另一方面,再一次重申,文本分類就應該是只依據文本的內容,而不應該包含文件的編碼,文章格式,發表時間等外部信息,“摘”字的笑話多少也是因為文章的格式(在“摘”和“要”之間總有空格)影響了分詞程序的判斷而致。
關于復旦語料庫所說的這些東西有點雜,有機會的話我會重新整理,再結合特征選擇的具體方法,把特征選擇的過程說說清楚。
以上。