機(jī)器學(xué)習(xí)最常見用途:預(yù)測和分類
機(jī)器學(xué)習(xí)常見分為兩種:
1:有監(jiān)督學(xué)習(xí) --> 根據(jù)已經(jīng)分類好的原始數(shù)據(jù),訓(xùn)練生成模型,通過模型再去預(yù)測未知的數(shù)據(jù)進(jìn)行分類, 數(shù)學(xué)含義通俗解釋就是:我知道Y軸是什么,通過原始數(shù)據(jù)集(y=f(x)函數(shù)也可以是其它函數(shù)) 進(jìn)行訓(xùn)練生成模型后,代入X來求得Y軸數(shù)據(jù)。
2:無監(jiān)督學(xué)習(xí) --> 并無分類好的原始數(shù)據(jù),需要學(xué)習(xí)并提取分類,再進(jìn)行訓(xùn)練生成模型
入門只看有監(jiān)督學(xué)習(xí)
流程:
1:獲取原始數(shù)據(jù)集
2:對每行數(shù)據(jù)的標(biāo)簽即分類進(jìn)行離散化或者數(shù)值化,也就是轉(zhuǎn)換成連續(xù)型數(shù)字或者0/1、true/false等離散化值,這里可能存在多類別問題即0,1,2,3,4,5.....多個類別
3:提取特征值并離散化或者數(shù)值化
4:根據(jù)類別對數(shù)據(jù)集進(jìn)行有效劃分,這個劃分又有多種方式,按照信息熵變化來劃分(就是數(shù)據(jù)集變化前后的百分比,值越大表示混淆度越高)、按照比例進(jìn)行有效劃分(這里是針對多類別劃分)即按照每種類別提取數(shù)據(jù)集再進(jìn)行劃分訓(xùn)練集和測試集,最終合并起來,
這個時候數(shù)據(jù)分類劃分的比例就和原始數(shù)據(jù)比例是一樣的了。后面附上代碼
5:根據(jù)業(yè)務(wù)(即是預(yù)測數(shù)值型還是預(yù)測離散型即類別),選取合適算法模型線性回歸、邏輯回歸、KNN(k-鄰近算法)、隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)等等。 線性回歸算法適合數(shù)值型預(yù)測、KNN、隨機(jī)森林、ID3、C4.5等算法適合分類也即離散型
6:通過第4步的數(shù)據(jù)劃分和第3步的特征提取,調(diào)用模型來進(jìn)行訓(xùn)練、測試、預(yù)測,正確率越高,該模型越優(yōu)
7:對模型進(jìn)行性能評估,提取模型參數(shù)
8:調(diào)用matplotlib等圖庫,對模型參數(shù)進(jìn)行可視化處理,以及特征值的權(quán)重大小展示
9:調(diào)用模型,對新的數(shù)據(jù)集進(jìn)行預(yù)測分類,即可完成實(shí)際業(yè)務(wù)問題
整個流程結(jié)束
posted on 2017-08-01 11:47
朔望魔刃 閱讀(298)
評論(0) 編輯 收藏 所屬分類:
python