一、
時代的挑戰
檛犫虎鏈?d ?
近十幾年來
,
人們利用信息技術生產和搜集數據的能力大幅度提高
,
千萬萬個數據庫被用于商業管理、政府辦公、科學研究和工程開發等等
,
這一勢頭仍將持續發展下去。于是
,
一個新的挑戰被提了出來
:
在這被稱之為信息爆炸的時代
,
信息過量幾乎成為人人需要面對的問題。如何才能不被信息的汪洋大海所淹沒
,
從中及時發現有用的知識
,
提高信息利用率呢
?
要想使數據真正成為一個公司的資源
,
只有充分利用它為公司自身的業務決策和戰略發展服務才行
,
否則大量的數據可能成為包袱
,
甚至成為垃圾。因此
,
面對
"
人們被數據淹沒
,
人們卻饑餓于知識
"
的挑戰
,
數據挖掘和知識發現
(DMKD)
技術應運而生
,
并得以蓬勃發展
,
越來越顯示出其強大的生命力。
學畑??y??
[[潚;w:??
數據挖掘
(Data Mining)
就是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中
,
提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。還有很多和這一術語相近似的術語
,
如從數據庫中發現知識
(KDD)
、數據分析、數據融合
(Data Fusion)
以及決策支持等。人們把原始數據看作是形成知識的源泉
,
就像從礦石中采礦一樣。原始數據可以是結構化的
,
如關系數據庫中的數據
,
也可以是半結構化的
,
如文本、圖形、圖像數據
,
甚至是分布在網絡上的異構型數據。發現知識的方法可以是數學的
,
也可以是非數學的
;
可以是演繹的
,
也可以是歸納的。發現了的知識可以被用于信息管理、查詢優化、決策支持、過程控制等
,
還可以用于數據自身的維護。因此
,
數據挖掘是一門很廣義的交叉學科
,
它匯聚了不同領域的研究者
,
尤其是數據庫、人工智能、數理統計、可視化、并行計算等方面的學者和工程技術人員。
癅7景鞬L??
墐販!U;徫l ?
特別要指出的是
,
數據挖掘技術從一開始就是面向應用的。它不僅是面向特定數據庫的簡單檢索查詢調用
,
而且要對這些數據進行微觀、中觀乃至宏觀的統計、分析、綜合和推理
,
以指導實際問題的求解
,
企圖發現事件間的相互關聯
,
甚至利用已有的數據對未來的活動進行預測。
4i}y櫂w? ?
)蕊V吱膣I ?
二、
研究現狀
峻6&?琟 ?
+ P%閼???
KDD
一詞首次出現在
1989
年
8
月舉行的第
11
屆國際聯合人工智能學術會議上。迄今為止
,
由美國人工智能協會主辦的
KDD
國際研討會已經召開了
7
次
,
規模由原來的專題討論會發展到國際學術大會
,
人數由二三十人到七八百人
,
論文收錄比例從
2X1
到
6X1,
研究重點也逐漸從發現方法轉向系統應用
,
并且注重多種發現策略和技術的集成
,
以及多種學科之間的相互滲透。其他內容的專題會議也把數據挖掘和知識發現列為議題之一
,
成為當前計算機科學界的一大熱點。
此外
,
數據庫、人工智能、信息處理、知識工程等領域的國際學術刊物也紛紛開辟了
KDD
專題或???。
IEEE
的
Knowledge and Data Engineering
會刊領先在
1993
年出版了
KD D
技術???/span>
,
所發表的
5
篇論文代表了當時
KDD
研究的最新成果和動態
,
較全面地論述了
KDD
系統方法論、發現結果的評價、
KDD
系統設計的邏輯方法
,
集中討論了鑒于數據庫的動態性冗余、高噪聲和不確定性、空值等問題
,KDD
系統與其它傳統的機器學習、專家系統、人工神經網絡、數理統計分析系統的聯系和區別
,
以及相應的基本對策。
6
篇論文摘要展示了
KDD
在從建立分子模型到設計制造業的具體應用。
? 瑞奔身?靬 ?
?烪?餌[5 ?
不僅如此
,
在
Internet
上還有不少
KDD
電子出版物
,
其中以半月刊
Knowledge Discove ryNuggets
最為權威
,
另一份在線周刊為
DS*(DS
代表決策支持
),1997
年
10
月
7
日開始出版。在網上
,
還有一個自由論壇
DM Email Club,
人們通過電子郵件相互討論
DMKD
的熱點問題。而領導整個潮流的
DMKD
開發和研究中心
,
當數設在美國
EMDEN
的
IBM
公司開發部。
至于
DMKD
書籍
,
可以在任何計算機書店找到十多本
,
但大多帶有商業色彩。
S*@%蠻0$2 ?
?V橛牶# ?
三、內容和本質
?RCKO葺 ?
橣鐲?墊p??
隨著
DMKD
研究逐步走向深入
,
人們越來越清楚地認識到
,DMKD
的研究主要有
3
個技術支柱
,
即數據庫、人工智能和數理統計。
? {鮣珧 ?樗 ?
胥?L ? ?
數據庫技術在經過了
80
年代的輝煌之后
,
已經在各行各業成為一種數據庫文化或時尚
,
數據庫界目前除了關注萬維網數據庫、分布式數據庫、面向對象數據庫、多媒體數據庫、查詢優化和并行計算等技術外
,
已經在開始反思。數據庫最實質的應用僅僅是查詢嗎
?
理論根基最深的關系數據庫最本質的技術進步點
,
就是數據存放和數據使用之間的相互分離。查詢是數據庫的奴隸
,
發現才是數據庫的主人
;
數據只為職員服務
,
不為老板服務
!
這是很多單位的領導在熱心數據庫建設后發出的感嘆。
? F(?滽鑻 ?
篛}uX卐 ?
由于數據庫文化的迅速普及
,
用數據庫作為知識源具有堅實的基礎
;
另一方面
,
對于一個感興趣的特定領域——客觀世界
,
先用數據庫技術將其形式化并組織起來
,
就會大大提高知識獲取起點
,
以后從中發掘或發現的所有知識都是針對該數據庫而言的。因此
,
在需求的驅動下
,
很多數據庫學者轉向對數據倉庫和數據挖掘的研究
,
從對演繹數據庫的研究轉向對歸納數據庫的研究。
? Q8 嗶> ?
牽餖bh熟?= ?
專家系統曾經是人工智能研究工作者的驕傲。專家系統實質上是一個問題求解系統
,
目前的主要理論工具是基于謂詞演算的機器定理證明技術——二階演繹系統。領域專家長期以來面向一個特定領域的經驗世界
,
通過人腦的思維活動積累了大量有用信息。
在研制一個專家系統時
,
知識工程師首先要從領域專家那里獲取知識
,
這一過程實質上是歸納過程
,
是非常復雜的個人到個人之間的交互過程
,
有很強的個性和隨機性。因此
,
知識獲取成為專家系統研究中公認的瓶頸問題。
字z:棅畝 ?
u藖?lt;奩q? ?
其次
,
知識工程師在整理表達從領域專家那里獲得的知識時
,
用
if-then
等類的規則表達
,
約束性太大
,
用常規數理邏輯來表達社會現象和人的思維活動局限性太大
,
也太困難
,
勉強抽象出來的規則有很強的工藝色彩
,
差異性極大
,
知識表示又成為一大難題。
?躷,菚h ?
j?l譓t. ?
此外
,
即使某個領域的知識通過一定手段獲取并表達了
,
但這樣做成的專家系統對常識和百科知識出奇地貧乏
,
而人類專家的知識是以擁有大量常識為基礎的。人工智能學家
Feigenbaum
估計
,
一般人擁有的常識存入計算機大約有
100
萬條事實和抽象經驗法則
,
離開常識的專家系統有時會比傻子還傻。例如戰場指揮員會根據
"
在某地發現一只剛死的波斯貓
"
的情報很快斷定敵高級指揮所的位置
,
而再好的軍事專家系統也難以顧全到如此的信息。
m?-喒j#??
撀緳葎 ?
以上這
3
大難題大大限制了專家系統的應用
,
使得專家系統目前還停留在構造諸如發動機故障論斷一類的水平上。人工智能學者開始著手基于案例的推理
,
尤其是從事機器學習的科學家們
,
不再滿足自己構造的小樣本學習模式的象牙塔
,
開始正視現實生活中大量的、不完全的、有噪聲的、模糊的、隨機的大數據樣本
,
也走上了數據挖掘的道路。
倀"殮0 ?
5+?"銎??
數理統計是應用數學中最重要、最活躍的學科之一
,
它在計算機發明之前就誕生了
,
迄今已有幾百年的發展歷史。如今相當強大有效的數理統計方法和工具
,
已成為信息咨詢業的基礎。信息時代
,
咨詢業更為發達。然而
,
數理統計和數據庫技術結合得并不算快
,
數據庫查詢語言
SQL
中的聚合函數功能極其簡單
,
就是一個證明。咨詢業用數據庫查詢數據還遠遠不夠。一旦人們有了從數據查詢到知識發現、從數據演繹到數據歸納的要求
,
概率論和數理統計就獲得了新的生命力
,
所以才會在
DMKD
這個結合點上
,
立即呈現出
"
忽如一夜春風來
,
千樹萬樹梨花開
"
的繁榮景象。一向以數理統計工具和可視化計算聞名的美國
SA S
公司
,
領先宣布進入
DMKD
行列。
郋僤救搹1} ?
?緐yv?%- ?
數據挖掘所能發現的知識有如下幾種
:
廣義型知識
,
反映同類事物共同性質的知識
;
特征型知識
,
反映事物各方面的特征知識
;
差異型知識
,
反映不同事物之間屬性差別的知識
;
關聯型知識
,
反映事物之間依賴或關聯的知識
;
預測型知識
,
根據歷史的和當前的數據推測未來數據
;
偏離型知識
,
揭示事物偏離常規的異?,F象。所有這些知識都可以在不同的概念層次上被發現
,
隨著概念樹的提升
,
從微觀到中觀再到宏觀
,
以滿足不同用戶、不同層次決策的需要。
擄?儈巸 O ?
n鳩?q??
四、發展方向
#t罉\ ?
橕€?/騳 ?
當前
,DMKD
研究正方興未艾
,
預計在
21
世紀還會形成更大的高潮
,
研究焦點可能會集中到以下幾個方面
:
研究專門用于知識發現的數據挖掘語言
,
也許會像
SQL
語言一樣走向形式化和標準化
;
尋求數據挖掘過程中的可視化方法
,
使得知識發現的過程能夠被用戶理解
,
也便于在知識發現過程中的人機交互
;
研究在網絡環境下的數據挖掘技術
,
特別是在
Int ernet
上建立
DMKD
服務器
,
與數據庫服務器配合
,
實現數據挖掘
;
加強對各種非結構化數據的挖掘
,
如文本數據、圖形圖像數據、多媒體數據。但是
,
無論怎樣
,
需求牽引
,
市場驅動是永恒的
,DMKD
將首先滿足信息時代用戶的急需
,
大量基于
DMKD
的決策支持軟件工具產品將會問世
凡是有該標志的文章,都是該blog博主Caoer(草兒)原創,凡是索引、收藏
、轉載請注明來處和原文作者。非常感謝。