從現在開始,開始我真正的研究計劃:聚類獲取有價值的信息。
今天開始詳細了解了已有的資源和項目代碼,包含中文分詞,文檔向量化,現有的KA+K-MEANS聚類算法。但是據觀察,聚類效果上不是很滿意,主要是類簇的關鍵字抽取不夠準確,特征選擇尚未考慮,聚類精度需要提高。
以下是現有系統的流程圖:明天開始到下周末,研究
1.ka+k-means,其他k-means方法,找出系統不足點
2.研究特征選擇方法,提高聚類前數據的質量
posted on 2008-05-09 22:22
fullfocus 閱讀(639)
評論(2) 編輯 收藏 所屬分類:
聚類算法研究