<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    Decode360's Blog

    業(yè)精于勤而荒于嬉 QQ:150355677 MSN:decode360@hotmail.com

      BlogJava :: 首頁 :: 新隨筆 :: 聯(lián)系 ::  :: 管理 ::
      302 隨筆 :: 26 文章 :: 82 評論 :: 0 Trackbacks
    http://www.eygle.com/archives/2005/01/eiuoiaeoaeiuoeo.html
    ?
    ??? 最近開始學(xué)習(xí)DataMining,摘錄一些文章在這里,學(xué)習(xí)并供參考。
    ?
      摘要:數(shù)據(jù)挖掘是目前一種新的重要的研究領(lǐng)域。本文介紹了數(shù)據(jù)挖掘的概念、目的、常用方法、數(shù)據(jù)挖掘過程、數(shù)據(jù)挖掘軟件的評價方法。對數(shù)據(jù)挖掘領(lǐng)域面臨的問題做了介紹和展望。
    ?
      關(guān)鍵詞:數(shù)據(jù)挖掘 數(shù)據(jù)集合
    ?
      1. 引言
    ?
      數(shù)據(jù)挖掘(Data Mining)是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。隨著信息技術(shù)的高速發(fā)展,人們積累的數(shù)據(jù)量急劇增長,動輒以TB計,如何從海量的數(shù)據(jù)中提取有用的知識成為當(dāng)務(wù)之急。數(shù)據(jù)挖掘就是為順應(yīng)這種需要應(yīng)運而生發(fā)展起來的數(shù)據(jù)處理技術(shù)。是知識發(fā)現(xiàn)(Knowledge Discovery in Database)的關(guān)鍵步驟。
    ?
      2. 數(shù)據(jù)挖掘的任務(wù)
    ?
      數(shù)據(jù)挖掘的任務(wù)主要是關(guān)聯(lián)分析、聚類分析、分類、預(yù)測、時序模式和偏差分析等。
    ?
      ⑴關(guān)聯(lián)分析(association analysis)
    ?
      關(guān)聯(lián)規(guī)則挖掘是由Rakesh Apwal等人首先提出的。兩個或兩個以上變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的、可被發(fā)現(xiàn)的知識。關(guān)聯(lián)分為簡單關(guān)聯(lián)、時序關(guān)聯(lián)和因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)。一般用支持度和可信度兩個閥值來度量關(guān)聯(lián)規(guī)則的相關(guān)性,還不斷引入興趣度、相關(guān)性等參數(shù),使得所挖掘的規(guī)則更符合需求。
    ?
      ⑵聚類分析(clustering)
    ?
      聚類是把數(shù)據(jù)按照相似性歸納成若干類別,同一類中的數(shù)據(jù)彼此相似,不同類中的數(shù)據(jù)相異。聚類分析可以建立宏觀的概念,發(fā)現(xiàn)數(shù)據(jù)的分布模式,以及可能的數(shù)據(jù)屬性之間的相互關(guān)系。
    ?
      ⑶分類(classification)
    ?
      分類就是找出一個類別的概念描述,它代表了這類數(shù)據(jù)的整體信息,即該類的內(nèi)涵描述,并用這種描述來構(gòu)造模型,一般用規(guī)則或決策樹模式表示。分類是利用訓(xùn)練數(shù)據(jù)集通過一定的算法而求得分類規(guī)則。分類可被用于規(guī)則描述和預(yù)測。
    ?
      ⑷預(yù)測(predication)
    ?
      預(yù)測是利用歷史數(shù)據(jù)找出變化規(guī)律,建立模型,并由此模型對未來數(shù)據(jù)的種類及特征進行預(yù)測。預(yù)測關(guān)心的是精度和不確定性,通常用預(yù)測方差來度量。
    ?
      ⑸時序模式(time-series pattern)
    ?
      時序模式是指通過時間序列搜索出的重復(fù)發(fā)生概率較高的模式。與回歸一樣,它也是用己知的數(shù)據(jù)預(yù)測未來的值,但這些數(shù)據(jù)的區(qū)別是變量所處時間的不同。
    ?
      ⑹偏差分析(deviation)
    ?
      在偏差中包括很多有用的知識,數(shù)據(jù)庫中的數(shù)據(jù)存在很多異常情況,發(fā)現(xiàn)數(shù)據(jù)庫中數(shù)據(jù)存在的異常情況是非常重要的。偏差檢驗的基本方法就是尋找觀察結(jié)果與參照之間的差別。
    ?
      3.?dāng)?shù)據(jù)挖掘?qū)ο?/strong>
    ?
      根據(jù)信息存儲格式,用于挖掘的對象有關(guān)系數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫、數(shù)據(jù)倉庫、文本數(shù)據(jù)源、多媒體數(shù)據(jù)庫、空間數(shù)據(jù)庫、時態(tài)數(shù)據(jù)庫、異質(zhì)數(shù)據(jù)庫以及Internet等。
    ?
      4.?dāng)?shù)據(jù)挖掘流程
    ?
      ⑴定義問題:清晰地定義出業(yè)務(wù)問題,確定數(shù)據(jù)挖掘的目的。
    ?
      ⑵數(shù)據(jù)準備:數(shù)據(jù)準備包括:選擇數(shù)據(jù)--在大型數(shù)據(jù)庫和數(shù)據(jù)倉庫目標中提取數(shù)據(jù)挖掘的目標數(shù)據(jù)集;數(shù)據(jù)預(yù)處理--進行數(shù)據(jù)再加工,包括檢查數(shù)據(jù)的完整性及數(shù)據(jù)的一致性、去噪聲,填補丟失的域,刪除無效數(shù)據(jù)等。
    ?
      ⑶數(shù)據(jù)挖掘:根據(jù)數(shù)據(jù)功能的類型和和數(shù)據(jù)的特點選擇相應(yīng)的算法,在凈化和轉(zhuǎn)換過的數(shù)據(jù)集上進行數(shù)據(jù)挖掘。
    ?
      ⑷結(jié)果分析:對數(shù)據(jù)挖掘的結(jié)果進行解釋和評價,轉(zhuǎn)換成為能夠最終被用戶理解的知識。
    ?
      ⑸知識的運用:將分析所得到的知識集成到業(yè)務(wù)信息系統(tǒng)的組織結(jié)構(gòu)中去。
    ?
      5.?dāng)?shù)據(jù)挖掘的方法
    ?
      ⑴神經(jīng)網(wǎng)絡(luò)方法
    ?
      神經(jīng)網(wǎng)絡(luò)由于本身良好的魯棒性、自組織自適應(yīng)性、并行處理、分布存儲和高度容錯等特性非常適合解決數(shù)據(jù)挖掘的問題,因此近年來越來越受到人們的關(guān)注。典型的神經(jīng)網(wǎng)絡(luò)模型主要分3大類:以感知機、BP反向傳播模型、函數(shù)型網(wǎng)絡(luò)為代表的,用于分類、預(yù)測和模式識別的前饋式神經(jīng)網(wǎng)絡(luò)模型;以Hopfield的離散模型和連續(xù)模型為代表的,分別用于聯(lián)想記憶和優(yōu)化計算的反饋式神經(jīng)網(wǎng)絡(luò)模型;以ART模型、Koholon模型為代表的,用于聚類的自組織映射方法。神經(jīng)網(wǎng)絡(luò)方法的缺點是"黑箱"性,人們難以理解網(wǎng)絡(luò)的學(xué)習(xí)和決策過程。
    ?
      ⑵遺傳算法
    ?
      遺傳算法是一種基于生物自然選擇與遺傳機理的隨機搜索算法,是一種仿生全局優(yōu)化方法。遺傳算法具有的隱含并行性、易于和其它模型結(jié)合等性質(zhì)使得它在數(shù)據(jù)挖掘中被加以應(yīng)用。
    ?
      Sunil已成功地開發(fā)了一個基于遺傳算法的數(shù)據(jù)挖掘工具,利用該工具對兩個飛機失事的真實數(shù)據(jù)庫進行了數(shù)據(jù)挖掘?qū)嶒灒Y(jié)果表明遺傳算法是進行數(shù)據(jù)挖掘的有效方法之一。遺傳算法的應(yīng)用還體現(xiàn)在與神經(jīng)網(wǎng)絡(luò)、粗集等技術(shù)的結(jié)合上。如利用遺傳算法優(yōu)化神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),在不增加錯誤率的前提下,刪除多余的連接和隱層單元;用遺傳算法和BP算法結(jié)合訓(xùn)練神經(jīng)網(wǎng)絡(luò),然后從網(wǎng)絡(luò)提取規(guī)則等。但遺傳算法的算法較復(fù)雜,收斂于局部極小的較早收斂問題尚未解決。
    ?
      ⑶決策樹方法
    ?
      決策樹是一種常用于預(yù)測模型的算法,它通過將大量數(shù)據(jù)有目的分類,從中找到一些有價值的,潛在的信息。它的主要優(yōu)點是描述簡單,分類速度快,特別適合大規(guī)模的數(shù)據(jù)處理。最有影響和最早的決策樹方法是由Quinlan提出的著名的基于信息熵的ID3算法。它的主要問題是:ID3是非遞增學(xué)習(xí)算法;ID3決策樹是單變量決策樹,復(fù)雜概念的表達困難;同性間的相互關(guān)系強調(diào)不夠;抗噪性差。針對上述問題,出現(xiàn)了許多較好的改進算法,如 Schlimmer和Fisher設(shè)計了ID4遞增式學(xué)習(xí)算法;鐘鳴,陳文偉等提出了IBLE算法等。
    ?
      ⑷粗集方法
    ?
      粗集理論是一種研究不精確、不確定知識的數(shù)學(xué)工具。粗集方法有幾個優(yōu)點:不需要給出額外信息;簡化輸入信息的表達空間;算法簡單,易于操作。粗集處理的對象是類似二維關(guān)系表的信息表。目前成熟的關(guān)系數(shù)據(jù)庫管理系統(tǒng)和新發(fā)展起來的數(shù)據(jù)倉庫管理系統(tǒng),為粗集的數(shù)據(jù)挖掘奠定了堅實的基礎(chǔ)。但粗集的數(shù)學(xué)基礎(chǔ)是集合論,難以直接處理連續(xù)的屬性。而現(xiàn)實信息表中連續(xù)屬性是普遍存在的。因此連續(xù)屬性的離散化是制約粗集理論實用化的難點。現(xiàn)在國際上已經(jīng)研制出來了一些基于粗集的工具應(yīng)用軟件,如加拿大Regina大學(xué)開發(fā)的KDD-R;美國Kansas大學(xué)開發(fā)的LERS等。
    ?
      ⑸覆蓋正例排斥反例方法
    ?
      它是利用覆蓋所有正例、排斥所有反例的思想來尋找規(guī)則。首先在正例集合中任選一個種子,到反例集合中逐個比較。與字段取值構(gòu)成的選擇子相容則舍去,相反則保留。按此思想循環(huán)所有正例種子,將得到正例的規(guī)則(選擇子的合取式)。比較典型的算法有Michalski的AQ11方法、洪家榮改進的AQ15方法以及他的AE5方法。
    ?
      ⑹統(tǒng)計分析方法
    ?
      在數(shù)據(jù)庫字段項之間存在兩種關(guān)系:函數(shù)關(guān)系(能用函數(shù)公式表示的確定性關(guān)系)和相關(guān)關(guān)系(不能用函數(shù)公式表示,但仍是相關(guān)確定性關(guān)系),對它們的分析可采用統(tǒng)計學(xué)方法,即利用統(tǒng)計學(xué)原理對數(shù)據(jù)庫中的信息進行分析。可進行常用統(tǒng)計(求大量數(shù)據(jù)中的最大值、最小值、總和、平均值等)、回歸分析(用回歸方程來表示變量間的數(shù)量關(guān)系)、相關(guān)分析(用相關(guān)系數(shù)來度量變量間的相關(guān)程度)、差異分析(從樣本統(tǒng)計量的值得出差異來確定總體參數(shù)之間是否存在差異)等。
    ?
      ⑺模糊集方法
    ?
      即利用模糊集合理論對實際問題進行模糊評判、模糊決策、模糊模式識別和模糊聚類分析。系統(tǒng)的復(fù)雜性越高,模糊性越強,一般模糊集合理論是用隸屬度來刻畫模糊事物的亦此亦彼性的。李德毅等人在傳統(tǒng)模糊理論和概率統(tǒng)計的基礎(chǔ)上,提出了定性定量不確定性轉(zhuǎn)換模型--云模型,并形成了云理論。
    ?
      6.評價數(shù)據(jù)挖掘軟件需要考慮的問題
    ?
      越來越多的軟件供應(yīng)商加入了數(shù)據(jù)挖掘這一領(lǐng)域的競爭。用戶如何正確評價一個商業(yè)軟件,選擇合適的軟件成為數(shù)據(jù)挖掘成功應(yīng)用的關(guān)鍵。
    ?
      評價一個數(shù)據(jù)挖掘軟件主要應(yīng)從以下四個主要方面:
    ?
      ⑴計算性能:如該軟件能否在不同的商業(yè)平臺運行;軟件的架構(gòu);能否連接不同的數(shù)據(jù)源;操作大數(shù)據(jù)集時,性能變化是線性的還是指數(shù)的;算的效率;是否基于組件結(jié)構(gòu)易于擴展;運行的穩(wěn)定性等;
    ?
      ⑵功能性:如軟件是否提供足夠多樣的算法;能否避免挖掘過程黑箱化;軟件提供的算法能否應(yīng)用于多種類型的數(shù)據(jù);用戶能否調(diào)整算法和算法的參數(shù);軟件能否從數(shù)據(jù)集隨機抽取數(shù)據(jù)建立預(yù)挖掘模型;能否以不同的形式表現(xiàn)挖掘結(jié)果等;
    ?
      ⑶可用性:如用戶界面是否友好;軟件是否易學(xué)易用;軟件面對的用戶:初學(xué)者,高級用戶還是專家?錯誤報告對用戶調(diào)試是否有很大幫助;軟件應(yīng)用的領(lǐng)域:是專攻某一專業(yè)領(lǐng)域還是適用多個領(lǐng)域等;
    ?
      ⑷輔助功能:如是否允許用戶更改數(shù)據(jù)集中的錯誤值或進行數(shù)據(jù)清洗;是否允許值的全局替代;能否將連續(xù)數(shù)據(jù)離散化;能否根據(jù)用戶制定的規(guī)則從數(shù)據(jù)集中提取子集;能否將數(shù)據(jù)中的空值用某一適當(dāng)均值或用戶指定的值代替;能否將一次分析的結(jié)果反饋到另一次分析中,等等。
    ?
      7.結(jié)束語
    ?
      數(shù)據(jù)挖掘技術(shù)是一個年輕且充滿希望的研究領(lǐng)域,商業(yè)利益的強大驅(qū)動力將會不停地促進它的發(fā)展.每年都有新的數(shù)據(jù)挖掘方法和模型問世,人們對它的研究正日益廣泛和深入。盡管如此,數(shù)據(jù)挖掘技術(shù)仍然面臨著許多問題和挑戰(zhàn):如數(shù)據(jù)挖掘方法的效率亟待提高,尤其是超大規(guī)模數(shù)據(jù)集中數(shù)據(jù)挖掘的效率;開發(fā)適應(yīng)多數(shù)據(jù)類型、容噪的挖掘方法,以解決異質(zhì)數(shù)據(jù)集的數(shù)據(jù)挖掘問題;動態(tài)數(shù)據(jù)和知識的數(shù)據(jù)挖掘;網(wǎng)絡(luò)與分布式環(huán)境下的數(shù)據(jù)挖掘等;另外,近年來多媒體數(shù)據(jù)庫發(fā)展很快,面向多媒體數(shù)據(jù)庫的挖掘技術(shù)和軟件今后將成為研究開發(fā)的熱點。
    ?




    -The End-

    posted on 2009-01-31 18:23 decode360-3 閱讀(362) 評論(0)  編輯  收藏 所屬分類: DW
    主站蜘蛛池模板: 亚洲综合无码一区二区三区| 亚洲人成色77777| 91嫩草亚洲精品| 免费无遮挡无码永久视频| 亚洲AV成人片色在线观看| 四虎国产成人永久精品免费| 亚洲国产精品18久久久久久| 91情侣在线精品国产免费| 亚洲人成影院午夜网站| 一二三四在线观看免费高清中文在线观看| 亚洲色图视频在线观看| 免费无码精品黄AV电影| 亚洲丰满熟女一区二区哦| 免费国内精品久久久久影院| 免费福利资源站在线视频| 亚洲综合色在线观看亚洲| a级毛片视频免费观看| 亚洲一卡2卡三卡4卡有限公司| 国产91色综合久久免费分享| 亚洲人成www在线播放| 四虎永久免费网站免费观看| 日本免费精品一区二区三区| 国产成人精品日本亚洲网站| 亚洲一区在线免费观看| 老子影院午夜伦不卡亚洲| 国产亚洲精品影视在线产品 | 欧洲亚洲国产清在高| 99免费观看视频| 亚洲色大成网站www永久男同| 免费午夜爽爽爽WWW视频十八禁 | 美女视频黄频a免费| 亚洲成av人在线视| 好吊妞在线新免费视频| 一区二区三区在线免费观看视频| 妞干网手机免费视频| 免费国产黄网站在线看| 亚洲视频免费在线看| 国产嫩草影院精品免费网址| 久久国产精品2020免费m3u8| 亚洲日韩看片无码电影| 亚洲人成网77777亚洲色|