摘要: 聚類可以見我以前寫過的聚類分析的文章。
回歸是一個統計中非常重要的概念了。在Commons Math庫中有一個regression的子包轉么實現了線性回歸的一些基本類型。在regression包中,有個基本接口就是MultipleLinearRegression,這個接口表達y=X*b+u這樣的基本線性回歸式。線性回歸是利用稱為線性回歸方程的最小二乘函數對一個或多個自變量和因變量之間關系進行建模的一種回歸分析。簡單看這個公式,y代表了一個n維的列向量(回歸子),X代表了[n,k]大小的觀測值矩陣(回歸量),b是k維的回歸參數,u是一個n維的剩余誤差。回歸分析干什么用的?具體講就是預測。我們在數據挖掘中定義,定性的分析叫做分類,而定量的分析叫做回歸。回歸就是根據已有的觀察值去預測未來的一個定量的指標。記得前一段阿里云到學院來做技術交流,講到阿里和淘寶通過數據分析對中國商品交易(還是具體什么貿易,忘記了,尷尬)的預測就是工程師做的一個簡單的線性回歸分析,模型雖然簡單,但是后來與實際數據一比較,預測值與實際值的曲線基本吻合。
閱讀全文
摘要: 概率統計最基本的前提就是有數據,而我們做模擬或者測試時總會用到大量的隨機數據。我們知道絕對的隨機是做不到的,但是可以利用算法來實現偽隨機數的生成。Commons Math庫提供了一個random的包,其中定義實現了很多可以用來生成隨機數的類和接口。random包中定義了5個接口,分別是EmpiricalDistribution、NormalizedRandomGenerator、RandomData、RandomGenerator和RandomVectorGenerator。
閱讀全文