復旦大學的中文語料庫分為訓練集和驗證集兩部分,兩部分的文檔數量基本相等,但現在做測評一般都不采用這種預先劃分的方法,而多用交叉驗證,因此在將訓練集與驗證集合并之后,得到該語料庫的一些基本信息如下:

類別總數量:20

文檔總數量:19637

       類別名稱(類別代碼):文檔數量

       Agriculture(C32):2043

       Art(C3):1482

       Communication(C17):52

       Computer(C19):2715

       Economy(C34):3201

       Education(C5):120

       Electronics(C16):55

       Energy(C15):65

       Enviornment(C31):2435

       History(C7):934

       Law(C35):103

       Literature(C4):67

       Medical(C36):104

       Military(C37):150

       Mine(C23):67

       Philosophy(C6):89

       Politics(C38):2050

       Space(C11):1282

       Sports(C39):2507

Transport(C29):116

同時,在使用ictclas4j分詞包對其進行分詞的過程中,發現復旦語料庫中存在一些文章會使得ictclas4j報錯,其中因為分詞包本身字庫缺少某些文字,以及一些神秘的字符組合(確實很神秘)會導致分詞過程出錯,因此能夠被成功分詞而供后續使用的文檔數并不如上面所列這么多,在分詞之后,情況如下:

類別總數量:20

文檔總數量:18185

    類別名稱(類別代碼):文檔數量

    Agriculture(C32):1949

    Art(C3):1237

    Communication(C17):52

    Computer(C19):2591

    Economy(C34):2912

    Education(C5):111

    Electronics(C16):51

    Energy(C15):63

    Environment(C31):2347

    History(C7):708

    Law(C35):103

    Literature(C4):65

    Medical(C36):98

    Military(C37):147

    Mine(C23):63

    Philosophy(C6):86

    Politics(C38):1920

    Space(C11):1226

Sports(C39):2344

Transport(C29):112

在已分詞后的語料庫里,可以看出這樣幾個特點,,文檔總數比未分詞的版本少了1448(可見ictclas4j的錯誤還是滿普遍的);第二,文檔數量分布仍不均衡,最多的經濟類文章有2912篇,而最少的電子類與通信類文章僅有51篇與52篇,往好的方向說可以考察你所開發的系統如何應對數據集偏斜的問題,往壞的方向說給要上線的系統作訓練集恐怕不太合適。

在下一篇文章中,我將進一步總結詞頻統計的結果.