日本亚洲欧洲免费天堂午夜看片女人员 ,亚洲国产婷婷综合在线精品,亚洲AV成人噜噜无码网站

復旦大學語料庫的一些統計信息Part 3 文檔頻率預處理

詞的文檔頻率(DF,即一個詞在多少篇文檔中出現)雖然并不用于真正的特征選擇,但是作為特征選擇前的預處理手段還是經常被使用,因為出現次數太少的詞(低頻詞,或者叫生僻詞)往往是表意能力很差的詞,更極端的情況下,那種在幾萬篇文檔中卻只出現幾次的詞更有可能是作者的筆誤(即創造了一個不存在的詞),使用它的更大好處還在于可以大大消減文檔集中需要處理的詞匯數量.請看以下的數據,在上一篇文章中對復旦語料庫進行分詞,去停止詞,去無用詞性的詞的基礎上,再進行一次根據DF的處理,去除所有文檔頻率小于等于3的詞,得到的對比結果如下.

文檔頻率篩選前

文檔頻率篩選后

總詞數116558

類別名稱：Agriculture

總詞數：29163

類別名稱：Art

總詞數：40816

類別名稱：Communication

總詞數：2283

類別名稱：Computer

總詞數：19340

類別名稱：Economy

總詞數：37021

類別名稱：Education

總詞數：5719

類別名稱：Electronics

總詞數：2693

類別名稱：Energy

總詞數：2848

類別名稱：Environment

總詞數：25155

類別名稱：History

總詞數：47205

類別名稱：Law

總詞數：3834

類別名稱：Literature

總詞數：5844

類別名稱：Medical

總詞數：3877

類別名稱：Military

總詞數：4615

類別名稱：Mine

總詞數：3708

類別名稱：Philosophy

總詞數：5190

類別名稱：Politics

總詞數：35292

類別名稱：Space

總詞數：14557

類別名稱：Sports

總詞數：42665

類別名稱：Transport

總詞數：4644

總詞數50283

類別名稱：Agriculture

總詞數：23258

類別名稱：Art

總詞數：30899

類別名稱：Communication

總詞數：2207

類別名稱：Computer

總詞數：15545

類別名稱：Economy

總詞數：28363

類別名稱：Education

總詞數：5437

類別名稱：Electronics

總詞數：2604

類別名稱：Energy

總詞數：2702

類別名稱：Environment

總詞數：19781

類別名稱：History

總詞數：31436

類別名稱：Law

總詞數：3656

類別名稱：Literature

總詞數：5500

類別名稱：Medical

總詞數：3566

類別名稱：Military

總詞數：4256

類別名稱：Mine

總詞數：3507

類別名稱：Philosophy

總詞數：4968

類別名稱：Politics

總詞數：26046

類別名稱：Space

總詞數：12136

類別名稱：Sports

總詞數：30803

類別名稱：Transport

總詞數：4276

怎么樣?總詞數從116558下降到50283,減少了一多半.可見生僻詞還是廣泛存在的.而具體到各個類別上也各不相同.減少的比較少的典型類別例如法律類,僅僅消減掉了4.6%的詞匯,而歷史類整整去除了33.4%!這倒也不難想象,因為法律概念一般有標準的名稱和說法,文章也都有通用的格式或成文的套路遵循,作者本身發揮的余地不大.而歷史類文章包含大量的人名地名和事件名稱,這些名稱出現數量多但每一個出現的次數相對較少,而同時人名地名也很難作為區分文章主題的依據(出現”諸葛”就一定是說三國時期的事情么?我們計算所有位老師就姓諸葛,還恰好是搞自然語言處理方面的,呵呵),篩掉它們我們也不心疼.

有了這一步處理,又可以為開方檢驗的計算增添不少方便.

（音樂再次響起，幕布再次緩慢拉上，燈光漸暗）

發表于 2008-11-20 11:00 Jasper 閱讀(3098) 評論(3) 編輯收藏所屬分類: 文本分類技術

文章分類

搜索

最新評論

1.?re: Java中NaN和-0.0f的比較問題
@lele685
答案是1，而不是-1，博主寫錯了
--小稀稀和她的小摩的
2.?re: 文本分類入門（十一）特征選擇方法之信息增益[未登錄]
只適用于二元特征屬性的情況，也就說特征只能取值0或者1
--wonderful
3.?re: SVM入門（十）將SVM用于多類分類
6年前的文章 ?！，F在看依舊不過時。。。能把高深的問題講得通俗易懂。。
實力可見一斑。收下我的膝蓋
--固執的蝸牛
4.?re: SVM入門（十）將SVM用于多類分類
不知為何博主的博客不更新了，好可惜。
謝謝博主的文章，你的SVM系列讓我真正理解了SVM。
--cal
5.?re: 文本分類入門(五)訓練Part 2
請問對于測試集的特征提取方法和訓練集相同么？
我有個疑問，如果用開方的方法提取的話，不是需要知道某一個特征是否出現在某個類別里么？
但是測試集并不知道這個信息呀。
--prejudice

閱讀排行榜

評論排行榜

復旦大學語料庫的一些統計信息Part 3 文檔頻率預處理

公告

常用鏈接

留言簿(64)

隨筆分類

隨筆檔案

文章分類

搜索

最新評論

閱讀排行榜

評論排行榜

Jasper's Java Jacal 嘉士伯的Java小屋
BlogJava \| 首頁 \| 發新隨筆 \| 發新文章 \| 聯系 \| 聚合 \| 管理	隨筆：51 文章：2 評論：717 引用：0