前言
也許您用過cognos等數據挖掘工具,但我很遺憾的告訴您那只是一個功能強大的自定義報表展現工具。
數據挖掘(DM,Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的,但又是潛在的有用信息和知識的過程。還有很多和這一術語相近的術語,如從數據庫中發現知識(KDD)、數據分析、知識抽取、商業智能、決策分析等。 這里最重要的不僅是面向特定數據庫的簡單檢索查詢調用,而且要對這些數據進行微觀或宏觀的統計、分析、綜合和推理,企圖發現事件間的相互關聯,甚至利用已有的數據對未來的活動進行預測。
數據挖掘的數據來源
1、關系數據庫:日常運行的業務系統擁有大量的數據庫
2、數據倉庫
3、事務數據庫:把一個或幾個事務數據庫集中到一個只讀的數據挖掘庫
4、高級數據庫及高級數據庫的應用:CAD空間數據庫、文本數據庫、空間數據庫、多媒體數據庫等
數據挖掘的體系結構與運行過程
代
|
特征
|
數據挖掘算法
|
集成
|
分布計算模型
|
數據模型
|
第一代
|
數據挖掘作為一個獨立的應用
|
支持一個或者多個算法
|
獨立的系統
|
單個機器
|
向量數據
|
第二代
|
和數據庫以及數據倉庫集成
|
多個算法,能夠挖掘一次不能放進內存的數據
|
數據管理系統,包括數據庫和數據倉庫
|
局部區域的計算機集群
|
有些系統支持對象、文本和連續的媒體數據
|
第三代
|
和預言模型系統集成
|
多個算法
|
數據管理和預言模型系統
|
Internet/Extranet網絡計算
|
支持半結構化數據和Web數據
|
第四代
|
和移動數據/各種計算數據聯合
|
多個算法
|
數據管理、預言模型、移動系統
|
移動和各種計算設備
|
普遍存在的計算模型
|
數據挖掘的分類
1、分類分析:主要用于預測模型,通過數據庫中的某些數據得到另外的數據為目標。分類算法通過判斷數據記錄的屬性與已知訓練數據中風險程度的關系給出預言結果
2、聚類分析:聚類用于從數據集中找出相似的數據并組成不同的組。與前面的預測模型不同,聚類中沒有明顯的目標變量作為數據的屬性存在。聚類算法通過檢測數據判斷“隱藏屬性”
3、關聯規則:目的在于生成部分數據的概要,尋找數據子集間的關聯關系或者一些數據與其數據之間的派生關系
4、人工神經網絡
5、遺傳算法
6、模糊集和模糊邏輯
7、可視化方法
數據挖掘的步驟
1、問題定義:明確實際工作對數據挖掘的需求、通過對各種學習算法的對比而確定可用的學習算法
2、數據收集和預處理:數據準備、數據集成、數據清洗、數據變換、數據簡化
3、數據挖掘算法執行:確定挖掘任務后,就要決定使用什么樣的算法。選擇實現算法有兩個考慮因素:一是不同的數據有不同的特點,因此需要與之相關的算法來挖掘;二是用戶或實際運行系統的要求
4、結果的解釋和評估:數據挖掘階段發現出來的模式,經過評估,可能存在冗余和無關的模式,需要將其剔除。也有可能模式不滿足用戶要求,這時需要整個過程回退到前一階段
數據挖掘與OLAP
數據挖掘與OLAP都屬于分析型工具,數據挖掘是一種挖掘型工具,它能自動地發現隱藏在數據中的模式,作出預測性分析的分析工具,它的分析過程是自動的。用戶不必提出確切的問題。數據挖掘所處的位置較深
OLAP是自上而下、不斷深入的分析工具,并以可視化的方式呈現給用戶。OLAP更多依靠用戶輸入問題和假設,但用戶先入為主的局限性可能會限制問題和假設的范圍,從而影響最終的結論。OLAP位于較淺的層次
盡管數據挖掘與OLAP存在著上面的差異,但二者相輔相成
Open View 決策分析平臺會在2010-2011年推出
posted on 2009-09-02 16:26
彭明華 閱讀(257)
評論(1) 編輯 收藏 所屬分類:
OpenHandX產品