許多根據數據開發模型的方法都是從生物系統的學習能力,特別是從人的學習能力中得到的:是以數據驅動的方式來處理環境未知的統計屬性,人并不具有天生的學習能力,而是通過與環境之間的數據驅動相互作用學到的。
?? 從數據樣本中學習的問題可以描述為古典哲學的普通推理概念,每個預測學習過程都包括兩個主要階段:
1、
?
從已知樣本集中學習或估計系統中的未知的相關性(歸納)
2、
?
用估計出的相關性來預測系統對于將來的輸入值的新的輸出(演繹)
?
歸納學習和模型估計的過程可用不同的學習方法來描述,學習方法是一種估計系統在可用數據集中的輸入和輸出之間的未知映射的算法,即從已知樣本中進行估計,一旦精確地估計出它們的相關性,就可以用于預測已知輸入值的情況下系統將做的輸出。
?
一、機器學習
機器學習作為人工智能和統計學的結合物,已被證明是一個富有成效的研究領域,產生了許多不同問題和這些問題解決方案的算法,所有算法都是搜索n維空間數據集,以找出一個合適的概括結果。機器學習的一個基本任務是歸納機器學習,它從樣本集中獲得概括結果,用不同的技術和模型來定型。
普通學習方案組成部分:
(1)
??????
輸出發生器:隨機輸入向量X發生器
(2)
??????
系統:對一個輸入向量X返回輸出Y
(3)
??????
學習機器:根據觀測到的樣本,估計未知的系統映射
歸納學習機試圖從特定的、真正的事實,即我們所說的訓練數據集中形成一般化的東西,這種歸納被定型為與系統行為相接近的函數集的形式,它的解決方法除了需要數據外,還需要先驗知識。所有的歸納學習方法都使用關于所選的那類學習機的近似函數的先驗知識。
?
二、統計學習
統計學習原理(SLT)是目前最好的用于有限樣本歸納學習的形式化理論。也被稱為Vapnik-Chervonenkis(VC)理論,嚴格地定義了所有歸納學習的相關概念,并為大多數歸納學習結果提供數據依據。其他學習方法如人工神經網絡、貝葉斯推理、決策規則等更多地面向工程,重點在于實踐實現,不需要強大的理論依據。
歸納學習的目標是在一類使用可用數據的近似函數中估計未知的相關性。最佳估計與最小期望風險函數相對應,包括數據的一般分布。分布未知,僅有的可用信息是有限的訓練樣本。因此,唯一可行的是用一個近似函數來替換未知的真實風險函數,這個近似函數叫經驗風險,可用根據可用數據集將其計算出來,這種方法叫經驗風險最小化(ERM)
ERM歸納原則是針對相對大型的數據集,當數據集較小時,必須修正ERM原則,結構風險最小化(SRM)的歸納原則提出了正式的機制來從有限的和小型的數據集中選擇具有最優復雜度的模型。
已知數據集最優模型評估步驟:
(1)
??????
選擇結構的一個元素,使之有最佳復雜度
(2)
??????
根據所選的結構元素中定義的近似函數集來估計模型
?? SRM優化策略:
(1)
??????
梯度下降法
(2)
??????
迭代法
(3)
??????
貪心優化
?優化策略存在的問題:
(1)
??????
初始條件靈敏度
(2)
??????
停止規則的靈敏度(局部最小)
(3)
??????
多局部最小靈敏度
?
三、學習方法類型
1、有指導學習
有指導學習用于從已知的輸入輸出樣本中估計未知的相關性,分類和回歸是這類歸納學習方法的共同任務,有指導學習存在一位老師-匹配函數或其他的一些模型估計的外部方法。
2、無指導學習
?? 只將有輸入值的樣本提供給學習系統,學習過程中沒有輸出的概念,無指導學習去掉了老師,并要求學習者自己建立并估計模型。
?
四、學習任務
2、分類
3、
?
回歸
4、
?
聚類
5、
?
概括
6、
?
相關性建模
7、
?
異常檢測
凡是有該標志的文章,都是該blog博主Caoer(草兒)原創,凡是索引、收藏
、轉載請注明來處和原文作者。非常感謝。