亚洲欧洲日产国码无码久久99,中文字幕亚洲日本岛国片,亚洲国产高清在线精品一区

使用開方檢驗?zāi)軌蛐拚臋n頻率作為特征選擇手段的一些不足,在對復(fù)旦大學(xué)語料庫作過一系列處理之后,為20個類別分別計算各自特征的開方值并排序(開方值越大則說明越應(yīng)該作為特征被選中)之后,可以看出很多有意思的東西.記得在這一系列文章的part2中提到過僅僅使用詞頻來排序的時候,”個”這個詞如明星般的在很多類別中都頻繁出現(xiàn)在排名前十的位置上,但這個詞實際上沒有表意功能,對分類貢獻(xiàn)不大,是理應(yīng)被特征選擇程序篩選掉的.使用開方檢驗方法后,我們驚喜的發(fā)現(xiàn)（讀者:切!前人早都發(fā)現(xiàn)無數(shù)次了……)：“個”消失了！

我稍微摘選結(jié)果中的幾個類別在詞頻排序和開方值排序之間的比較，大家一起來瞅瞅。（前面也說過了，使用詞頻排序和使用文檔頻率情況大體相同，因此不再單獨(dú)列出）

歷史類別（History）

詞頻排序

開方值排序

歷史詞頻：24303

中國詞頻：15146

人詞頻：11707

社會詞頻：8655

發(fā)展詞頻：8540

研究詞頻：8007

文化詞頻：7607

大詞頻：6748

新詞頻：6706

到詞頻：6537

說詞頻：6462

種詞頻：5694

問題詞頻：5304

政治詞頻：5178

文學(xué) 詞頻：5176

年詞頻：4830

經(jīng)濟(jì) 詞頻：4810

思想詞頻：4550

這種詞頻：4476

個詞頻：4276

近代史詞頻：350

史學(xué) 詞頻：2566

現(xiàn)代史詞頻：164

史料詞頻：529

歷史學(xué)詞頻：771

世界史詞頻：169

史實詞頻：294

戰(zhàn)爭詞頻：2095

封建詞頻：1156

歷史學(xué)詞頻：386

人物詞頻：2399

統(tǒng)治詞頻：1056

侵略詞頻：501

記載詞頻：625

歷史詞頻：24303

斗爭詞頻：1731

帝國主義詞頻：655

清政府詞頻：289

王朝詞頻：370

民族詞頻：4168

我列出了歷史類文章中兩種方法排名前二十的詞匯，可以發(fā)現(xiàn)使用詞頻（或者文檔頻率）統(tǒng)計的結(jié)果純粹無聊（簡直無聊，特別無聊），除了“歷史”，“社會”，“發(fā)展”聽著還像那么回事以外，什么“說”，“種”，“年”這樣的詞真該統(tǒng)統(tǒng)殺光光。

用了開方檢驗就果然不一樣，看看“史料”啊，“記載”呀，“王朝”呀，多正兒八經(jīng)的歷史詞匯！我真是太喜歡開方檢驗啦！（笑）

當(dāng)然結(jié)果也未必就十全十美了，我舉個計算機(jī)的例子給你看。

計算機(jī)類別（Computer）

詞頻排序

開方值排序

系統(tǒng)詞頻：45496

控制詞頻：21937

圖詞頻：20396

方法詞頻：20073

個詞頻：19661

算法詞頻：18879

數(shù)據(jù)詞頻：17691

模型詞頻：17182

網(wǎng)絡(luò)詞頻：16980

進(jìn)行詞頻：16406

問題詞頻：14617

應(yīng)用詞頻：13883

對象詞頻：13656

信息詞頻：13468

結(jié)構(gòu)詞頻：12658

研究詞頻：12308

實現(xiàn)詞頻：11331

過程詞頻：11293

設(shè)計詞頻：10713

種詞頻：10506

算法詞頻：18879

自動化詞頻：2674

計算機(jī)詞頻：7569

函數(shù) 詞頻：9932

定義詞頻：9817

關(guān)鍵詞詞頻：1956

軟件詞頻：6189

引言詞頻：937

集合詞頻：3717

輸入詞頻：6385

摘詞頻：1540

定理詞頻：4487

模型詞頻：17182

用戶詞頻：10053

參數(shù) 詞頻：8491

導(dǎo)師詞頻：969

向量詞頻：2658

期詞頻：213

輸出詞頻：6149

矩陣詞頻：5431

看見”摘”這個詞了么?居然出現(xiàn)在第11位,現(xiàn)在我還要告訴你,如果不是在去停止詞的階段把”要”字給去掉了,”要”字也會出現(xiàn)在”摘”附近的位置上,聰明的讀者應(yīng)該能大致猜出幾分原因了吧.沒錯,到復(fù)旦語料庫的計算機(jī)類文檔中稍稍察看就會發(fā)現(xiàn),大量的文檔都有類似這樣的格式:

計算機(jī)應(yīng)用

COMPUTER APPLICATIONS

1999年第19卷第6期 Vol.19 No.6 1999

一種基于智能Agent的協(xié)同工作模型

朱曉蕓　何欽銘　王申康

　　摘　要　計算機(jī)支持的協(xié)同工作（CSCW）需要研究出適應(yīng)各種協(xié)同工作方式的靈活、開放、可擴(kuò)充的模型結(jié)構(gòu)。本文以分布式人工智能研究中的智能Agent為系統(tǒng)基本單元，提出一種基于智能Agent的協(xié)同工作模型，給出了它的具體實現(xiàn)。

　　關(guān)鍵詞　計算機(jī)支持的協(xié)同工作，智能Agent，分布式人工智能

AN INTELLIGENT AGENT BASED COLLABORATIVE WORK MODEL

Zhu XiaoyunHe QinmingWang Shenkang

看到”摘要”的位置了么?一來復(fù)旦語料庫計算機(jī)類的文檔大都是這類期刊文獻(xiàn)的形式,因此”摘要”這個詞頻繁出現(xiàn);二來其他類別的語料雖然也都有大量以文獻(xiàn)作為來源的文檔,但甚少用到”摘要”這個詞;最后一點,注意到原文中”摘要”兩個字是被空格分開的,只有我們這些地球的主宰者,全能的人類才能看出他們是一個詞,而我們使用的分詞程序會毫不留情的將其判斷為”摘”和”要”兩個詞.這三點綜合作用的結(jié)果,就使得我們的程序認(rèn)為”摘”這個詞對計算機(jī)類文檔有很強(qiáng)的代表性（當(dāng)然，我們自己心里知道，這純屬無稽之談）,從而入選了特征的TOP20。

以上分析給我們的啟示是：作為訓(xùn)練集的文檔來源一定要廣泛，如果計算機(jī)類的文章還包括教科書，網(wǎng)頁，個人博客的內(nèi)容，顯然就不會出現(xiàn)“摘”字這種笑話；另一方面，再一次重申，文本分類就應(yīng)該是只依據(jù)文本的內(nèi)容，而不應(yīng)該包含文件的編碼，文章格式，發(fā)表時間等外部信息，“摘”字的笑話多少也是因為文章的格式（在“摘”和“要”之間總有空格）影響了分詞程序的判斷而致。

關(guān)于復(fù)旦語料庫所說的這些東西有點雜，有機(jī)會的話我會重新整理，再結(jié)合特征選擇的具體方法，把特征選擇的過程說說清楚。

以上。

發(fā)表于 2008-12-20 12:45 Jasper 閱讀(2912) 評論(2) 編輯收藏所屬分類: 文本分類技術(shù)

復(fù)旦大學(xué)語料庫的一些統(tǒng)計信息Part4 開方檢驗

公告

常用鏈接

留言簿(64)

隨筆分類

隨筆檔案

文章分類

搜索

最新評論

閱讀排行榜

評論排行榜

Jasper's Java Jacal 嘉士伯的Java小屋
BlogJava \| 首頁 \| 發(fā)新隨筆 \| 發(fā)新文章 \| 聯(lián)系 \| 聚合 \| 管理	隨筆：51 文章：2 評論：717 引用：0