一、數據挖掘工具分類
數據挖掘工具根據其適用的范圍分為兩類:專用挖掘工具和通用挖掘工具。
專用數據挖掘工具是針對某個特定領域的問題提供解決方案,在涉及算法的時候充分考慮了數據、需求的特殊性,并作了優化。對任何領域,都可以開發特定的數據挖掘工具。例如,IBM公司的AdvancedScout系統針對NBA的數據,幫助教練優化戰術組合。特定領域的數據挖掘工具針對性比較強,只能用于一種應用;也正因為針對性強,往往采用特殊的算法,可以處理特殊的數據,實現特殊的目的,發現的知識可靠度也比較高。
通用數據挖掘工具不區分具體數據的含義,采用通用的挖掘算法,處理常見的數據類型。通用的數據挖掘工具不區分具體數據的含義,采用通用的挖掘算法,處理常見的數據類型。例如,IBM公司Almaden研究中心開發的QUEST系統,SGI公司開發的MineSet系統,加拿大SimonFraser大學開發的DBMiner系統。通用的數據挖掘工具可以做多種模式的挖掘,挖掘什么、用什么來挖掘都由用戶根據自己的應用來選擇。
二、數據挖掘工具選擇需要考慮的問題
數據挖掘是一個過程,只有將數據挖掘工具提供的技術和實施經驗與企業的業務邏輯和需求緊密結合,并在實施的過程中不斷的磨合,才能取得成功,因此我們在選擇數據挖掘工具的時候,要全面考慮多方面的因素,主要包括以下幾點:
(1)?可產生的模式種類的數量:分類,聚類,關聯等
(2)?解決復雜問題的能力
(3)?操作性能
(4)?數據存取能力
(5)?和其他產品的接口
三、數據挖掘工具介紹:
1.QUEST
QUEST是IBM公司Almaden研究中心開發的一個多任務數據挖掘系統,目的是為新一代決策支持系統的應用開發提供高效的數據開采基本構件。系統具有如下特點:
提供了專門在大型數據庫上進行各種開采的功能:關聯規則發現、序列模式發現、時間序列聚類、決策樹分類、遞增式主動開采等。
各種開采算法具有近似線性計算復雜度,可適用于任意大小的數據庫。
算法具有找全性,即能將所有滿足指定類型的模式全部尋找出來。
為各種發現功能設計了相應的并行算法。
2.MineSet
MineSet是由SGI公司和美國Standford大學聯合開發的多任務數據挖掘系統。MineSet集成多種數據挖掘算法和可視化工具,幫助用戶直觀地、實時地發掘、理解大量數據背后的知識。MineSet有如下特點:
MineSet以先進的可視化顯示方法聞名于世。
支持多種關系數據庫。可以直接從Oracle、Informix、Sybase的表讀取數據,也可以通過SQL命令執行查詢。
多種數據轉換功能。在進行挖掘前,MineSet可以去除不必要的數據項,統計、集合、分組數據,轉換數據類型,構造表達式由已有數據項生成新的數據項,對數據采樣等。
操作簡單、支持國際字符、可以直接發布到Web。
3.DBMiner
DBMiner是加拿大SimonFraser大學開發的一個多任務數據挖掘系統,它的前身是DBLearn。該系統設計的目的是把關系數據庫和數據開采集成在一起,以面向屬性的多級概念為基礎發現各種知識。DBMiner系統具有如下特色:
能完成多種知識的發現:泛化規則、特性規則、關聯規則、分類規則、演化知識、偏離知識等。
綜合了多種數據開采技術:面向屬性的歸納、統計分析、逐級深化發現多級規則、元規則引導發現等方法。
提出了一種交互式的類SQL語言——數據開采查詢語言DMQL。
能與關系數據庫平滑集成。
實現了基于客戶/服務器體系結構的Unix和PC(Windows/NT)版本的系統。
4.Intelligent Miner
由美國IBM公司開發的數據挖掘軟件Intelligent Miner是一種分別面向數據庫和文本信息進行數據挖掘的軟件系列,它包括Intelligent Miner for Data和Intelligent Miner for Text。Intelligent Miner for Data可以挖掘包含在數據庫、數據倉庫和數據中心中的隱含信息,幫助用戶利用傳統數據庫或普通文件中的結構化數據進行數據挖掘。它已經成功應用于市場分析、詐騙行為監測及客戶聯系管理等;Intelligent Miner for Text允許企業從文本信息進行數據挖掘,文本數據源可以是文本文件、Web頁面、電子郵件、Lotus Notes數據庫等等。
5.SAS Enterprise Miner
這是一種在我國的企業中得到采用的數據挖掘工具,比較典型的包括上海寶鋼配礦系統應用和鐵路部門在春運客運研究中的應用。SAS Enterprise Miner是一種通用的數據挖掘工具,按照"抽樣--探索--轉換--建模--評估"的方法進行數據挖掘。可以與SAS數據倉庫和OLAP集成,實現從提出數據、抓住數據到得到解答的"端到端"知識發現。
6.SPSS Clementine
SPSS Clementine是一個開放式數據挖掘工具,曾兩次獲得英國政府SMART 創新獎,它不但支持整個數據挖掘流程,從數據獲取、轉化、建模、評估到最終部署的全部過程,還支持數據挖掘的行業標準--CRISP-DM。Clementine的可視化數據挖掘使得"思路"分析成為可能,即將集中精力在要解決的問題本身,而不是局限于完成一些技術性工作(比如編寫代碼)。提供了多種圖形化技術,有助理解數據間的關鍵性聯系,指導用戶以最便捷的途徑找到問題的最終解決辦法。
7.數據庫廠商集成的挖掘工具
SQL Server 2000包含由Microsoft研究院開發的兩種數據挖掘算法:Microsoft決策樹和Microsoft聚集。此外,SQL Server 2000中的數據挖掘支持由第三方開發的算法。 Microsoft決策樹算法:該算法基于分類。算法建立一個決策樹,用于按照事實數據表中的一些列來預測其他列的值。該算法可以用于判斷最傾向于單擊特定標題(banner)或從某電子商務網站購買特定商品的個人。 Microsoft聚集算法:該算法將記錄組合到可以表示類似的、可預測的特征的聚集中。通常這些特征可能是隱含或非直觀的。例如,聚集算法可以用于將潛在汽車買主分組,并創建對應于每個汽車購買群體的營銷活動。,SQL Server 2005在數據挖掘方面提供了更為豐富的模型、工具以及擴展空間。包括:可視化的數據挖掘工具與導航、8種數據挖掘算法集成、DMX 、XML/A、第三方算法嵌入支持等等。
Oracle Data Mining (ODM) 是 Oracle 數據庫 10g 企業版的一個選件,它使公司能夠從最大的數據庫中高效地提取信息并創建集成的商務智能應用程序。數據分析人員能夠發現那些隱藏在數據中的模式和內涵。應用程序開發人員能夠在整個機構范圍內快速自動提取和分發新的商務智能 — 預測、模式和發現。ODM 針對以下數據挖掘問題為 Oracle 數據庫 10g 提供支持:分類、預測、回歸、聚類、關聯、屬性重要性、特性提取以及序列相似性搜索與分析 (BLAST)。所有的建模、評分和元數據管理操作都是通過 Oracle Data Mining 客戶端以及 PL/SQL 或基于 Java 的 API 來訪問的,并且完全在關系數據庫內部進行。
??? IBM Intelligent Miner 通過其世界領先的獨有技術,例如典型數據集自動生成、關聯發現、序列規律發現、概念性分類和可視化呈現,它可以自動實現數據選擇、數據轉換、數據發掘和結果呈現這一整套數據發掘操作。若有必要,對結果數據集還可以重復這一過程,直至得到滿意結果為止。現在,IBM的 Intelligent Miner已形成系列,它幫助用戶從企業數據資產中識別和提煉有價值的信息。它包括分析軟件工具 ----Intelligent Miner for Data和IBM Intelligent Miner forText ,幫助企業選取以前未知的、有效的、可行的業務知識---- 如客戶購買行為,隱藏的關系和新的趨勢,數據來源可以是大型數據庫和企業內部或Internet 上的文本數據源。然后公司可以應用這些信息進行更好、更準確的決策,獲得競爭優勢。
凡是有該標志的文章,都是該blog博主Caoer(草兒)原創,凡是索引、收藏
、轉載請注明來處和原文作者。非常感謝。