復旦大學的中文語料庫分為訓練集和驗證集兩部分,兩部分的文檔數量基本相等,但現在做測評一般都不采用這種預先劃分的方法,而多用交叉驗證,因此在將訓練集與驗證集合并之后,得到該語料庫的一些基本信息如下:
類別總數量:20
文檔總數量:19637
類別名稱(類別代碼):文檔數量
Agriculture(C32):2043篇
Art(C3):1482篇
Communication(C17):52篇
Computer(C19):2715篇
Economy(C34):3201篇
Education(C5):120篇
Electronics(C16):55篇
Energy(C15):65篇
Enviornment(C31):2435篇
History(C7):934篇
Law(C35):103篇
Literature(C4):67篇
Medical(C36):104篇
Military(C37):150篇
Mine(C23):67篇
Philosophy(C6):89篇
Politics(C38):2050篇
Space(C11):1282篇
Sports(C39):2507篇
Transport(C29):116篇
同時,在使用ictclas4j分詞包對其進行分詞的過程中,發現復旦語料庫中存在一些文章會使得ictclas4j報錯,其中因為分詞包本身字庫缺少某些文字,以及一些神秘的字符組合(確實很神秘)會導致分詞過程出錯,因此能夠被成功分詞而供后續使用的文檔數并不如上面所列這么多,在分詞之后,情況如下:
類別總數量:20
文檔總數量:18185
類別名稱(類別代碼):文檔數量
Agriculture(C32):1949篇
Art(C3):1237篇
Communication(C17):52篇
Computer(C19):2591篇
Economy(C34):2912篇
Education(C5):111篇
Electronics(C16):51篇
Energy(C15):63篇
Environment(C31):2347篇
History(C7):708篇
Law(C35):103篇
Literature(C4):65篇
Medical(C36):98篇
Military(C37):147篇
Mine(C23):63篇
Philosophy(C6):86篇
Politics(C38):1920篇
Space(C11):1226篇
Sports(C39):2344篇
Transport(C29):112篇
在已分詞后的語料庫里,可以看出這樣幾個特點,一,文檔總數比未分詞的版本少了1448篇(可見ictclas4j的錯誤還是滿普遍的);第二,文檔數量分布仍不均衡,最多的經濟類文章有2912篇,而最少的電子類與通信類文章僅有51篇與52篇,往好的方向說可以考察你所開發的系統如何應對數據集偏斜的問題,往壞的方向說給要上線的系統作訓練集恐怕不太合適。
在下一篇文章中,我將進一步總結詞頻統計的結果.