使用復旦大學基準語料庫所做的對比實驗并非我本人進行的,我只是引用了文獻“周文霞:現代文本分類技術研究,武警學院學報,2007.12”的實驗結果。因此我手頭沒有該文作者所使用的預處理程序。但復旦大學的語料庫在中科院中文自然語言處理開放平臺上有提供下載,頁面地址是http://www.nlp.org.cn/docs/doclist.php?cat_id=16&type=15,可能需要注冊用戶,待管理員審批完成之后方可下載。我已經下載了一份,訓練集與測試集共100MB的樣子,大家有需要的話也可以想辦法分發給大家。
另外,搜狗實驗室提供的文本分類語料庫也有在線下載版本,地址是http://www.sogou.com/labs/dl/c.html,共有10個類別,8萬篇左右的文本.
在此只是提醒大家,文本分類語料庫的建立是需要很多人力成本的,無論復旦大學還是搜狗實驗室,既然免費與大家共享,就希望大家在使用的時候至少注明出處,也不枉別人對我們的信任。
謝謝。

P.S.實在沒有辦法下載到的朋友也可以加我的QQ49900829,在消息中注明需要復旦語料庫,我可以在線傳送給大家。