最近的工作重點是Web Data Mining, 經過近一周的Paper學習后,對于Web日志的挖掘有了一些想法。下面就應該是盡快進行實踐。
于是,今天利用晚上的時間,成功安裝了Weka(version 3.4.12),對于Weka的安裝,由于Weka是一個數據挖掘軟件,當然需要和數據庫進行連接,因此需要下載驅動,常用的及其支持的有:MySQL, HSQL Database, Mckoi SQL Database, RmiJdbc, 需要注意以下幾點:
一.正常情況下,要在CLASSPATH添加上面下載的數據驅動jar包,但目前的問題是即使正確添加,也會提示“Trying to add JDBC driver: ***Driver - Error, not in CLASSPATH?”等類似的語句(我用的是Windows系統,Linux有待于做實驗確認),所以建議直接在命令行輸入路徑信息,如:java –Xmx128m –classpath "hsqldb.jar;mysql-connector-java-5.15.bin.jar;RmiJdbc.jar;mkjdbc.jar;weka.jar" weka.gui.GUIChooser (注:我將這些數據驅動jia包放在了Weka安裝目錄下)
二.Weka(Version3.4.12)對于RmiJdbc,一定選擇版本2.5(版本3.3,3.2,3.05我下載后添加依然提示Trying to add JDBC driver:RmiJdbc.RJDriver - Error, not in CLASSPATH?錯誤,1.0版本同樣也不行);對于Weka(version 3.5.5) 對于RmiJdbc,一定選擇版本3.05或2.5。
下面是對于Weka學習的一個日程安排,以做備忘:
1.下載和安裝Weka (4.16-4.21)
2.按照參考ppt提供的例子跑通clustering算法,并且了解它的各項意義(4.21-4.30)
3.找個復雜的例子(下載數據集http://www.cs.waikato.ac.nz/ml/weka/index_datasets.html)跑通并解釋其數據意義(5.1-5.6)
4.把一個Clustering算法改寫成Hadoop代碼運行在服務器上(5.6-5.20)