<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    無為

    無為則可為,無為則至深!

      BlogJava :: 首頁 :: 聯(lián)系 :: 聚合  :: 管理
      190 Posts :: 291 Stories :: 258 Comments :: 0 Trackbacks
    一、數(shù)據(jù)挖掘工具分類

      數(shù)據(jù)挖掘工具根據(jù)其適用的范圍分為兩類:專用挖掘工具和通用挖掘工具。

    專用數(shù)據(jù)挖掘工具是針對某個特定領域的問題提供解決方案,在涉及算法的時候充分考慮了數(shù)據(jù)、需求的特殊性,并作了優(yōu)化。對任何領域,都可以開發(fā)特定的數(shù)據(jù)挖掘工具。例如,IBM公司的AdvancedScout系統(tǒng)針對NBA的數(shù)據(jù),幫助教練優(yōu)化戰(zhàn)術組合。特定領域的數(shù)據(jù)挖掘工具針對性比較強,只能用于一種應用;也正因為針對性強,往往采用特殊的算法,可以處理特殊的數(shù)據(jù),實現(xiàn)特殊的目的,發(fā)現(xiàn)的知識可靠度也比較高。
    通用數(shù)據(jù)挖掘工具不區(qū)分具體數(shù)據(jù)的含義,采用通用的挖掘算法,處理常見的數(shù)據(jù)類型。通用的數(shù)據(jù)挖掘工具不區(qū)分具體數(shù)據(jù)的含義,采用通用的挖掘算法,處理常見的數(shù)據(jù)類型。例如,IBM公司Almaden研究中心開發(fā)的QUEST系統(tǒng),SGI公司開發(fā)的MineSet系統(tǒng),加拿大SimonFraser大學開發(fā)的DBMiner系統(tǒng)。通用的數(shù)據(jù)挖掘工具可以做多種模式的挖掘,挖掘什么、用什么來挖掘都由用戶根據(jù)自己的應用來選擇。

     

    二、數(shù)據(jù)挖掘工具選擇需要考慮的問題

      數(shù)據(jù)挖掘是一個過程,只有將數(shù)據(jù)挖掘工具提供的技術和實施經(jīng)驗與企業(yè)的業(yè)務邏輯和需求緊密結合,并在實施的過程中不斷的磨合,才能取得成功,因此我們在選擇數(shù)據(jù)挖掘工具的時候,要全面考慮多方面的因素,主要包括以下幾點:
    (1)?可產(chǎn)生的模式種類的數(shù)量:分類,聚類,關聯(lián)等
    (2)?解決復雜問題的能力
    (3)?操作性能
    (4)?數(shù)據(jù)存取能力
    (5)?和其他產(chǎn)品的接口


    三、數(shù)據(jù)挖掘工具介紹:

    1.QUEST

      QUEST是IBM公司Almaden研究中心開發(fā)的一個多任務數(shù)據(jù)挖掘系統(tǒng),目的是為新一代決策支持系統(tǒng)的應用開發(fā)提供高效的數(shù)據(jù)開采基本構件。系統(tǒng)具有如下特點:
      提供了專門在大型數(shù)據(jù)庫上進行各種開采的功能:關聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、時間序列聚類、決策樹分類、遞增式主動開采等。
      各種開采算法具有近似線性計算復雜度,可適用于任意大小的數(shù)據(jù)庫。
      算法具有找全性,即能將所有滿足指定類型的模式全部尋找出來。
    為各種發(fā)現(xiàn)功能設計了相應的并行算法。

    2.MineSet

      MineSet是由SGI公司和美國Standford大學聯(lián)合開發(fā)的多任務數(shù)據(jù)挖掘系統(tǒng)。MineSet集成多種數(shù)據(jù)挖掘算法和可視化工具,幫助用戶直觀地、實時地發(fā)掘、理解大量數(shù)據(jù)背后的知識。MineSet有如下特點:
      MineSet以先進的可視化顯示方法聞名于世。
      支持多種關系數(shù)據(jù)庫。可以直接從Oracle、Informix、Sybase的表讀取數(shù)據(jù),也可以通過SQL命令執(zhí)行查詢。
      多種數(shù)據(jù)轉換功能。在進行挖掘前,MineSet可以去除不必要的數(shù)據(jù)項,統(tǒng)計、集合、分組數(shù)據(jù),轉換數(shù)據(jù)類型,構造表達式由已有數(shù)據(jù)項生成新的數(shù)據(jù)項,對數(shù)據(jù)采樣等。
      操作簡單、支持國際字符、可以直接發(fā)布到Web。

    3.DBMiner

      DBMiner是加拿大SimonFraser大學開發(fā)的一個多任務數(shù)據(jù)挖掘系統(tǒng),它的前身是DBLearn。該系統(tǒng)設計的目的是把關系數(shù)據(jù)庫和數(shù)據(jù)開采集成在一起,以面向屬性的多級概念為基礎發(fā)現(xiàn)各種知識。DBMiner系統(tǒng)具有如下特色:
      能完成多種知識的發(fā)現(xiàn):泛化規(guī)則、特性規(guī)則、關聯(lián)規(guī)則、分類規(guī)則、演化知識、偏離知識等。
      綜合了多種數(shù)據(jù)開采技術:面向屬性的歸納、統(tǒng)計分析、逐級深化發(fā)現(xiàn)多級規(guī)則、元規(guī)則引導發(fā)現(xiàn)等方法。
      提出了一種交互式的類SQL語言——數(shù)據(jù)開采查詢語言DMQL。
      能與關系數(shù)據(jù)庫平滑集成。
      實現(xiàn)了基于客戶/服務器體系結構的Unix和PC(Windows/NT)版本的系統(tǒng)。

    4.Intelligent Miner

      由美國IBM公司開發(fā)的數(shù)據(jù)挖掘軟件Intelligent Miner是一種分別面向數(shù)據(jù)庫和文本信息進行數(shù)據(jù)挖掘的軟件系列,它包括Intelligent Miner for Data和Intelligent Miner for Text。Intelligent Miner for Data可以挖掘包含在數(shù)據(jù)庫、數(shù)據(jù)倉庫和數(shù)據(jù)中心中的隱含信息,幫助用戶利用傳統(tǒng)數(shù)據(jù)庫或普通文件中的結構化數(shù)據(jù)進行數(shù)據(jù)挖掘。它已經(jīng)成功應用于市場分析、詐騙行為監(jiān)測及客戶聯(lián)系管理等;Intelligent Miner for Text允許企業(yè)從文本信息進行數(shù)據(jù)挖掘,文本數(shù)據(jù)源可以是文本文件、Web頁面、電子郵件、Lotus Notes數(shù)據(jù)庫等等。

    5.SAS Enterprise Miner

      這是一種在我國的企業(yè)中得到采用的數(shù)據(jù)挖掘工具,比較典型的包括上海寶鋼配礦系統(tǒng)應用和鐵路部門在春運客運研究中的應用。SAS Enterprise Miner是一種通用的數(shù)據(jù)挖掘工具,按照"抽樣--探索--轉換--建模--評估"的方法進行數(shù)據(jù)挖掘。可以與SAS數(shù)據(jù)倉庫和OLAP集成,實現(xiàn)從提出數(shù)據(jù)、抓住數(shù)據(jù)到得到解答的"端到端"知識發(fā)現(xiàn)。

    6.SPSS Clementine

    SPSS Clementine是一個開放式數(shù)據(jù)挖掘工具,曾兩次獲得英國政府SMART 創(chuàng)新獎,它不但支持整個數(shù)據(jù)挖掘流程,從數(shù)據(jù)獲取、轉化、建模、評估到最終部署的全部過程,還支持數(shù)據(jù)挖掘的行業(yè)標準--CRISP-DM。Clementine的可視化數(shù)據(jù)挖掘使得"思路"分析成為可能,即將集中精力在要解決的問題本身,而不是局限于完成一些技術性工作(比如編寫代碼)。提供了多種圖形化技術,有助理解數(shù)據(jù)間的關鍵性聯(lián)系,指導用戶以最便捷的途徑找到問題的最終解決辦法。


    7.數(shù)據(jù)庫廠商集成的挖掘工具

    SQL Server 2000包含由Microsoft研究院開發(fā)的兩種數(shù)據(jù)挖掘算法:Microsoft決策樹和Microsoft聚集。此外,SQL Server 2000中的數(shù)據(jù)挖掘支持由第三方開發(fā)的算法。 Microsoft決策樹算法:該算法基于分類。算法建立一個決策樹,用于按照事實數(shù)據(jù)表中的一些列來預測其他列的值。該算法可以用于判斷最傾向于單擊特定標題(banner)或從某電子商務網(wǎng)站購買特定商品的個人。 Microsoft聚集算法:該算法將記錄組合到可以表示類似的、可預測的特征的聚集中。通常這些特征可能是隱含或非直觀的。例如,聚集算法可以用于將潛在汽車買主分組,并創(chuàng)建對應于每個汽車購買群體的營銷活動。,SQL Server 2005在數(shù)據(jù)挖掘方面提供了更為豐富的模型、工具以及擴展空間。包括:可視化的數(shù)據(jù)挖掘工具與導航、8種數(shù)據(jù)挖掘算法集成、DMX 、XML/A、第三方算法嵌入支持等等。
    Oracle Data Mining (ODM) 是 Oracle 數(shù)據(jù)庫 10g 企業(yè)版的一個選件,它使公司能夠從最大的數(shù)據(jù)庫中高效地提取信息并創(chuàng)建集成的商務智能應用程序。數(shù)據(jù)分析人員能夠發(fā)現(xiàn)那些隱藏在數(shù)據(jù)中的模式和內涵。應用程序開發(fā)人員能夠在整個機構范圍內快速自動提取和分發(fā)新的商務智能 — 預測、模式和發(fā)現(xiàn)。ODM 針對以下數(shù)據(jù)挖掘問題為 Oracle 數(shù)據(jù)庫 10g 提供支持:分類、預測、回歸、聚類、關聯(lián)、屬性重要性、特性提取以及序列相似性搜索與分析 (BLAST)。所有的建模、評分和元數(shù)據(jù)管理操作都是通過 Oracle Data Mining 客戶端以及 PL/SQL 或基于 Java 的 API 來訪問的,并且完全在關系數(shù)據(jù)庫內部進行。
    ??? IBM Intelligent Miner 通過其世界領先的獨有技術,例如典型數(shù)據(jù)集自動生成、關聯(lián)發(fā)現(xiàn)、序列規(guī)律發(fā)現(xiàn)、概念性分類和可視化呈現(xiàn),它可以自動實現(xiàn)數(shù)據(jù)選擇、數(shù)據(jù)轉換、數(shù)據(jù)發(fā)掘和結果呈現(xiàn)這一整套數(shù)據(jù)發(fā)掘操作。若有必要,對結果數(shù)據(jù)集還可以重復這一過程,直至得到滿意結果為止。現(xiàn)在,IBM的 Intelligent Miner已形成系列,它幫助用戶從企業(yè)數(shù)據(jù)資產(chǎn)中識別和提煉有價值的信息。它包括分析軟件工具 ----Intelligent Miner for Data和IBM Intelligent Miner forText ,幫助企業(yè)選取以前未知的、有效的、可行的業(yè)務知識---- 如客戶購買行為,隱藏的關系和新的趨勢,數(shù)據(jù)來源可以是大型數(shù)據(jù)庫和企業(yè)內部或Internet 上的文本數(shù)據(jù)源。然后公司可以應用這些信息進行更好、更準確的決策,獲得競爭優(yōu)勢。



    凡是有該標志的文章,都是該blog博主Caoer(草兒)原創(chuàng),凡是索引、收藏
    、轉載請注明來處和原文作者。非常感謝。

    posted on 2006-05-25 21:48 草兒 閱讀(215) 評論(0)  編輯  收藏 所屬分類: BI and DM
    主站蜘蛛池模板: 久久久久久久久久久免费精品| 成人爱做日本视频免费| 国产亚洲视频在线| 亚洲精品乱码久久久久久下载 | 亚洲精品久久无码av片俺去也| 亚洲AV第一页国产精品| 亚洲黄片毛片在线观看| 色视频色露露永久免费观看| 亚洲精品国产免费| 久久免费观看国产99精品| 一级毛片在线免费视频| 亚洲AV无码片一区二区三区 | 暖暖在线视频免费视频| eeuss影院ss奇兵免费com| 黄色免费网站在线看| 在线观看亚洲网站| 亚洲砖码砖专无区2023| 亚洲成在人线电影天堂色| 亚洲色偷偷偷网站色偷一区| 亚洲综合一区二区国产精品| 亚洲精品线在线观看| 亚洲日本中文字幕| 亚洲国产国产综合一区首页| 久久亚洲精品国产精品黑人| 久久国产亚洲观看| 亚洲成人动漫在线| 亚洲高清视频免费| 亚洲综合男人的天堂色婷婷| 亚洲视频一区二区三区| 亚洲男女性高爱潮网站| 亚洲国产日产无码精品| 麻豆狠色伊人亚洲综合网站| 亚洲日日做天天做日日谢| 在线观看日本亚洲一区| 亚洲狠狠婷婷综合久久| 美女视频黄频a免费观看| 少妇亚洲免费精品| 成人片黄网站色大片免费观看cn| 91免费在线视频| 91高清免费国产自产拍2021| 国产又大又粗又长免费视频|