<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    無為

    無為則可為,無為則至深!

      BlogJava :: 首頁 :: 聯系 :: 聚合  :: 管理
      190 Posts :: 291 Stories :: 258 Comments :: 0 Trackbacks

    一、 時代的挑戰 檛犫虎鏈?d ?
      近十幾年來 , 人們利用信息技術生產和搜集數據的能力大幅度提高 , 千萬萬個數據庫被用于商業管理、政府辦公、科學研究和工程開發等等 , 這一勢頭仍將持續發展下去。于是 , 一個新的挑戰被提了出來 : 在這被稱之為信息爆炸的時代 , 信息過量幾乎成為人人需要面對的問題。如何才能不被信息的汪洋大海所淹沒 , 從中及時發現有用的知識 , 提高信息利用率呢 ? 要想使數據真正成為一個公司的資源 , 只有充分利用它為公司自身的業務決策和戰略發展服務才行 , 否則大量的數據可能成為包袱 , 甚至成為垃圾。因此 , 面對 " 人們被數據淹沒 , 人們卻饑餓于知識 " 的挑戰 , 數據挖掘和知識發現 (DMKD) 技術應運而生 , 并得以蓬勃發展 , 越來越顯示出其強大的生命力。 學畑??y??
    [[潚;w:??
      數據挖掘 (Data Mining) 就是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中 , 提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。還有很多和這一術語相近似的術語 , 如從數據庫中發現知識 (KDD) 、數據分析、數據融合 (Data Fusion) 以及決策支持等。人們把原始數據看作是形成知識的源泉 , 就像從礦石中采礦一樣。原始數據可以是結構化的 , 如關系數據庫中的數據 , 也可以是半結構化的 , 如文本、圖形、圖像數據 , 甚至是分布在網絡上的異構型數據。發現知識的方法可以是數學的 , 也可以是非數學的 ; 可以是演繹的 , 也可以是歸納的。發現了的知識可以被用于信息管理、查詢優化、決策支持、過程控制等 , 還可以用于數據自身的維護。因此 , 數據挖掘是一門很廣義的交叉學科 , 它匯聚了不同領域的研究者 , 尤其是數據庫、人工智能、數理統計、可視化、并行計算等方面的學者和工程技術人員。 癅7景鞬L??
    墐販!U;徫l ?
      特別要指出的是 , 數據挖掘技術從一開始就是面向應用的。它不僅是面向特定數據庫的簡單檢索查詢調用 , 而且要對這些數據進行微觀、中觀乃至宏觀的統計、分析、綜合和推理 , 以指導實際問題的求解 , 企圖發現事件間的相互關聯 , 甚至利用已有的數據對未來的活動進行預測。 4i}y櫂w? ?
    )蕊V吱膣I ?
    二、 研究現狀 峻6&?琟 ?
    + P%閼???
       KDD 一詞首次出現在 1989 8 月舉行的第 11 屆國際聯合人工智能學術會議上。迄今為止 , 由美國人工智能協會主辦的 KDD 國際研討會已經召開了 7 , 規模由原來的專題討論會發展到國際學術大會 , 人數由二三十人到七八百人 , 論文收錄比例從 2X1 6X1, 研究重點也逐漸從發現方法轉向系統應用 , 并且注重多種發現策略和技術的集成 , 以及多種學科之間的相互滲透。其他內容的專題會議也把數據挖掘和知識發現列為議題之一 , 成為當前計算機科學界的一大熱點。

      此外 , 數據庫、人工智能、信息處理、知識工程等領域的國際學術刊物也紛紛開辟了 KDD 專題或???。 IEEE Knowledge and Data Engineering 會刊領先在 1993 年出版了 KD D 技術???/span> , 所發表的 5 篇論文代表了當時 KDD 研究的最新成果和動態 , 較全面地論述了 KDD 系統方法論、發現結果的評價、 KDD 系統設計的邏輯方法 , 集中討論了鑒于數據庫的動態性冗余、高噪聲和不確定性、空值等問題 ,KDD 系統與其它傳統的機器學習、專家系統、人工神經網絡、數理統計分析系統的聯系和區別 , 以及相應的基本對策。 6 篇論文摘要展示了 KDD 在從建立分子模型到設計制造業的具體應用。 ? 瑞奔身?靬 ?
    ?烪?餌[5 ?
      不僅如此 , Internet 上還有不少 KDD 電子出版物 , 其中以半月刊 Knowledge Discove ryNuggets 最為權威 , 另一份在線周刊為 DS*(DS 代表決策支持 ),1997 10 7 日開始出版。在網上 , 還有一個自由論壇 DM Email Club, 人們通過電子郵件相互討論 DMKD 的熱點問題。而領導整個潮流的 DMKD 開發和研究中心 , 當數設在美國 EMDEN IBM 公司開發部。 至于 DMKD 書籍 , 可以在任何計算機書店找到十多本 , 但大多帶有商業色彩。 S*@%蠻0$2 ?
    ?V橛牶# ?
    三、內容和本質 ?RCKO葺 ?
    橣鐲?墊p??
      隨著 DMKD 研究逐步走向深入 , 人們越來越清楚地認識到 ,DMKD 的研究主要有 3 個技術支柱 , 即數據庫、人工智能和數理統計。 ? {鮣珧 ?樗 ?
    胥?L ? ?
      數據庫技術在經過了 80 年代的輝煌之后 , 已經在各行各業成為一種數據庫文化或時尚 , 數據庫界目前除了關注萬維網數據庫、分布式數據庫、面向對象數據庫、多媒體數據庫、查詢優化和并行計算等技術外 , 已經在開始反思。數據庫最實質的應用僅僅是查詢嗎 ? 理論根基最深的關系數據庫最本質的技術進步點 , 就是數據存放和數據使用之間的相互分離。查詢是數據庫的奴隸 , 發現才是數據庫的主人 ; 數據只為職員服務 , 不為老板服務 ! 這是很多單位的領導在熱心數據庫建設后發出的感嘆。 ? F(?滽鑻 ?
    篛}uX卐 ?
      由于數據庫文化的迅速普及 , 用數據庫作為知識源具有堅實的基礎 ; 另一方面 , 對于一個感興趣的特定領域——客觀世界 , 先用數據庫技術將其形式化并組織起來 , 就會大大提高知識獲取起點 , 以后從中發掘或發現的所有知識都是針對該數據庫而言的。因此 , 在需求的驅動下 , 很多數據庫學者轉向對數據倉庫和數據挖掘的研究 , 從對演繹數據庫的研究轉向對歸納數據庫的研究。 ? Q8 嗶> ?
    牽餖bh熟?= ?
      專家系統曾經是人工智能研究工作者的驕傲。專家系統實質上是一個問題求解系統 , 目前的主要理論工具是基于謂詞演算的機器定理證明技術——二階演繹系統。領域專家長期以來面向一個特定領域的經驗世界 , 通過人腦的思維活動積累了大量有用信息。

      在研制一個專家系統時 , 知識工程師首先要從領域專家那里獲取知識 , 這一過程實質上是歸納過程 , 是非常復雜的個人到個人之間的交互過程 , 有很強的個性和隨機性。因此 , 知識獲取成為專家系統研究中公認的瓶頸問題。 字z:棅畝 ?
    u藖?lt;奩q? ?
      其次 , 知識工程師在整理表達從領域專家那里獲得的知識時 , if-then 等類的規則表達 , 約束性太大 , 用常規數理邏輯來表達社會現象和人的思維活動局限性太大 , 也太困難 , 勉強抽象出來的規則有很強的工藝色彩 , 差異性極大 , 知識表示又成為一大難題。 ?躷,菚h ?
    j?l譓t. ?
      此外 , 即使某個領域的知識通過一定手段獲取并表達了 , 但這樣做成的專家系統對常識和百科知識出奇地貧乏 , 而人類專家的知識是以擁有大量常識為基礎的。人工智能學家 Feigenbaum 估計 , 一般人擁有的常識存入計算機大約有 100 萬條事實和抽象經驗法則 , 離開常識的專家系統有時會比傻子還傻。例如戰場指揮員會根據 " 在某地發現一只剛死的波斯貓 " 的情報很快斷定敵高級指揮所的位置 , 而再好的軍事專家系統也難以顧全到如此的信息。 m?-喒j#??
    撀緳葎 ?
      以上這 3 大難題大大限制了專家系統的應用 , 使得專家系統目前還停留在構造諸如發動機故障論斷一類的水平上。人工智能學者開始著手基于案例的推理 , 尤其是從事機器學習的科學家們 , 不再滿足自己構造的小樣本學習模式的象牙塔 , 開始正視現實生活中大量的、不完全的、有噪聲的、模糊的、隨機的大數據樣本 , 也走上了數據挖掘的道路。 倀"殮0 ?
    5+?"銎??
      數理統計是應用數學中最重要、最活躍的學科之一 , 它在計算機發明之前就誕生了 , 迄今已有幾百年的發展歷史。如今相當強大有效的數理統計方法和工具 , 已成為信息咨詢業的基礎。信息時代 , 咨詢業更為發達。然而 , 數理統計和數據庫技術結合得并不算快 , 數據庫查詢語言 SQL 中的聚合函數功能極其簡單 , 就是一個證明。咨詢業用數據庫查詢數據還遠遠不夠。一旦人們有了從數據查詢到知識發現、從數據演繹到數據歸納的要求 , 概率論和數理統計就獲得了新的生命力 , 所以才會在 DMKD 這個結合點上 , 立即呈現出 " 忽如一夜春風來 , 千樹萬樹梨花開 " 的繁榮景象。一向以數理統計工具和可視化計算聞名的美國 SA S 公司 , 領先宣布進入 DMKD 行列。 郋僤救搹1} ?
    ?緐yv?%- ?
      數據挖掘所能發現的知識有如下幾種 : 廣義型知識 , 反映同類事物共同性質的知識 ; 特征型知識 , 反映事物各方面的特征知識 ; 差異型知識 , 反映不同事物之間屬性差別的知識 ; 關聯型知識 , 反映事物之間依賴或關聯的知識 ; 預測型知識 , 根據歷史的和當前的數據推測未來數據 ; 偏離型知識 , 揭示事物偏離常規的異?,F象。所有這些知識都可以在不同的概念層次上被發現 , 隨著概念樹的提升 , 從微觀到中觀再到宏觀 , 以滿足不同用戶、不同層次決策的需要。 擄?儈巸 O ?
    n鳩?q??
    四、發展方向 #t罉\ ?
    橕€?/騳 ?
      當前 ,DMKD 研究正方興未艾 , 預計在 21 世紀還會形成更大的高潮 , 研究焦點可能會集中到以下幾個方面 : 研究專門用于知識發現的數據挖掘語言 , 也許會像 SQL 語言一樣走向形式化和標準化 ; 尋求數據挖掘過程中的可視化方法 , 使得知識發現的過程能夠被用戶理解 , 也便于在知識發現過程中的人機交互 ; 研究在網絡環境下的數據挖掘技術 , 特別是在 Int ernet 上建立 DMKD 服務器 , 與數據庫服務器配合 , 實現數據挖掘 ; 加強對各種非結構化數據的挖掘 , 如文本數據、圖形圖像數據、多媒體數據。但是 , 無論怎樣 , 需求牽引 , 市場驅動是永恒的 ,DMKD 將首先滿足信息時代用戶的急需 , 大量基于 DMKD 的決策支持軟件工具產品將會問世



    凡是有該標志的文章,都是該blog博主Caoer(草兒)原創,凡是索引、收藏
    、轉載請注明來處和原文作者。非常感謝。

    posted on 2006-06-24 14:59 草兒 閱讀(156) 評論(0)  編輯  收藏 所屬分類: BI and DM
    主站蜘蛛池模板: 亚洲色图国产精品| 午夜国产精品免费观看| 亚洲AV永久无码精品放毛片| 久久亚洲精品专区蓝色区| 亚洲一卡2卡3卡4卡乱码 在线| 久艹视频在线免费观看| 免费人成在线视频| 亚洲精品高清一二区久久| 精品国产_亚洲人成在线高清| 亚洲视频在线观看网站| 老司机午夜在线视频免费观| 国产免费AV片在线观看| 女性无套免费网站在线看| 亚洲精品高清无码视频| 国内永久免费crm系统z在线| 久久不见久久见免费影院| 亚洲高清一区二区三区| 全免费a级毛片免费看| 亚洲综合自拍成人| 国产一级a毛一级a看免费视频| 中文字幕天天躁日日躁狠狠躁免费| 国产婷婷高清在线观看免费| 亚洲成a人片77777老司机| 在线亚洲v日韩v| 男女免费观看在线爽爽爽视频| 中文字幕亚洲码在线| va亚洲va日韩不卡在线观看| 亚洲国产成人va在线观看网址| 可以免费观看的国产视频| 亚洲人成网站日本片| 免费人成视频在线观看不卡| 亚洲欧美日韩国产精品一区| 亚洲国产精品一区二区第一页| 国产黄色片在线免费观看| a级片免费观看视频| 亚洲国产午夜中文字幕精品黄网站| 老司机精品免费视频| 亚洲午夜精品国产电影在线观看| 日本高清免费不卡视频| 最好免费观看高清在线| 亚洲砖码砖专无区2023|