復旦大學語料庫的一些統計信息Part 3 文檔頻率預處理
摘要: 在上一篇文章中對復旦語料庫進行分詞,去停止詞,去無用詞性的詞的基礎上,再進行一次根據DF的處理,去除所有文檔頻率小于等于3的詞,得到的對比結果如下
閱讀全文
10分鐘開始使用ICTCLAS Java版
摘要: ICTCLAS是中科院計算所出品的中文分詞程序包,在國內一直有著良好的口碑和很高的使用率。之前一直只有 C++的版本提供,而現在C#,Delphi和Java版本已經紛紛出爐。下面用一個極小的例子,讓大家10分鐘之內就能用上ICTCLAS ,從此也開始自己的文本分類和搜索引擎開發之路。
閱讀全文