?
??? ???? J.H.Friedman
斯坦佛大學統計系及線性加速中心
摘要:DM(數據挖掘)是揭示存在于數據里的模式及數據間的關系的學科,它強調對大量觀測到的數據庫的處理。它是涉及數據庫管理,人工智能,機器學習,模式識別,及數據可視化等學科的邊緣學科。用統計的觀點看,它可以看成是通過計算機對大量的復雜數據集的自動探索性分析。目前對該學科的作用盡管有點夸大其詞,但該領域對商業,工業,及科學研究都有極大的影響,且提供了大量的為促使新方法的發展而進行的研究工作。盡管數據挖掘和統計分析之間有明顯的聯系,但迄今為止大部分的數據挖掘方法都不是產生于統計學科。這篇文章對這一現象作了一些解釋,并說明了為什么統計學家應該關注數據挖掘。統計學可能會對數據挖掘產生很大影響,但這可能要求統計學家們改變他們的一些基本思路及操作原則。
1
序言
聲明:該文中的觀點僅代表作者本人的觀點,并不一定反映編輯,主辦者,斯坦佛大學及同行的觀點。
第二十九次論壇(on the Interface)(May 1997,Houston,TX)的主題是數據挖掘和大數據集的分析。這次會議的主題和二十年前的一次由Leo Breiman組織,ASA 和IMS贊助的關于大量復雜數據分析的會議是一致的。二十年后,探討一下二十年來的所作所為是極其恰當的。這篇文章將討論如下問題: ??? 什么是數據挖掘? ??? 什么是統計? ??? 它們之間的聯系是什么(如果有的話)? ??? 統計學家能作什么?(可能的話) ??? Should we want to?
2
什么是數據挖掘?
?
數據挖掘的定義非常模糊,對它的定義取決于定義者的觀點和背景。如下是一些DM文獻中的定義:數據挖掘是一個確定數據中有效的,新的,可能有用的并且最終能被理解的模式的重要過程。--Fayyad.
數據挖掘是一個從大型數據庫中提取以前未知的,可理解的,可執行的信息并用它來進行關鍵的商業決策的過程。--Zekulin.
數據挖掘是用在知識發現過程,來辯識存在于數據中的未知關系和模式的一些方法。--Ferruzza
數據挖掘是發現數據中有益模式的過程。--Jonn
數據挖掘是我們為那些未知的信息模式而研究大型數據集的一個決策支持過程。--Parsaye
數據挖掘是... .決策樹 .神經網絡 .規則推斷 .最近鄰方法 .遺傳算法 --Mehta
雖然數據挖掘的這些定義有點不可觸摸,但在目前它已經成為一種商業事業。如同在過去的歷次淘金熱中一樣,目標是`開發礦工`。利潤最大的是賣工具給礦工,而不是干實際的開發。數據挖掘這個概念被用作一種裝備來出售計算機硬件和軟件。 ??? 硬件制造商強調數據挖掘需要高的計算能力。必須存儲,快速讀寫非常大的數據庫,并將密集的計算方法用于這些數據。這需要大容量的磁盤空間,快速的內置大量R AM的計算機。數據挖掘為這些硬件打開了新的市場。
軟件提供者強調競爭優勢。`你的對手使用它,你最好得跟上。`同時強調它將增加傳統的數據庫的價值。許多組織在處理存貨,帳單,會計的數據庫方面有大量的業務。這些數據庫的創建和維護都耗資巨大。現在只需要將相對少的投資用于數據挖掘工具,就可以發現隱藏在這些數據中的具有極高利潤的信息` 金塊`。
目前硬件和軟件供應者的目的是在市場還未飽和前通過迅速推出數據挖掘產品為數據挖掘作廣告。如果一個公司為數據挖掘包投資了五萬至十萬美元,這也可能只是實驗,人們在新產品未被證實比舊產品具有很大優勢之前是不會貿然購買的。以下是一些當前的數據挖掘產品: IBM: `Intelligent Miner` '智能礦工' Tandem: 'relational Data Miner' '關系數據礦工' AngossSoftware: 'KnowledgeSEEDER' `知識搜索者` Thinking Machines Corporation: 'DarwinTM' NeoVista Software: 'ASIC' ISL Decision Systems,Inc.: 'Clementine' `克萊門小柑橘` DataMind Corporation: 'DataMind Data Cruncher' Silicon Graphics: 'MineSet' California Scientific Software: 'BrainMaker' WizSoft Corporation: 'WizWhy' Lockheed Corporation: 'Recon' SAS Corporation: 'SAS Enterprise Miner '
除了這些`綜合`軟件包外,還有許多專門用途的產品。另外,許多專業于數據挖掘的咨詢公司也成立了。在這個領域,統計學家和計算機科學家的不同在于當統計學家有一個想法時,他(她)將它寫成文章,而計算機科學家者開一家公司。 當前數據挖掘產品的特點有: --迷人的圖形用戶界面 .數據庫(查尋語言) .一套數據分析過程 --窗口形式的界面 .靈活方便的輸入 --點擊式按鍵和輸入對話框 --利用圖表分析 --復雜的圖形輸出 --大量數據圖 --靈活的圖形解釋 樹,網絡,飛行模擬 -- 結果方便的處理。 這些軟件包對決策者來說就象數據挖掘專家。 在當前的數據挖掘軟件包中被用到的統計分析過程包括: .決策樹推斷(C4.5,CART,CHAID) .規則推斷(AQ,CN2,RECON,etc) .最近鄰方法(合乎情理的方案) .聚類方法(數據分離) .聯合規則(市場籃子分析) .特征提取 .可視化 另外,有些還包括: .神經網絡 .bayesian belief 網絡(圖形模型) .遺傳算法
.
支持向量機 .自組織圖 .神經模糊系統 幾乎所有包都不包括: .假設檢驗 .實驗設計 .響應表面模型 .ANOVA,MANOVA,etc. .線性回歸 .判別分析 .對數回歸 .廣義線性模型 .正則相關性 .主成分分析 .因子分析 ?? 后面的這些過程是標準統計包里的主要部分。因此,當前被市場化的數據挖掘包中的大部分方法在統計學科之外產生和發展。統計學核心的方法已被忽略。
3 Why Now? What's the rush?
???
從數據學習的想法已經提出很長時間了。但在忽然之間人們對數據挖掘的興趣卻變得如此強烈,這是為什么呢?主要原因是近來它與數據庫管理領域有了聯系。數據,特別大量的數據保存在數據庫管理系統中。傳統的DBMS集中于在線處理過程(OLTP n-line transaction processing);也就是數據組織的目的是存儲并快速恢復單個記錄。它們過去常用來記錄庫存,薪水表記錄,帳單記錄,發貨記錄,等等。 ??? 最近,數據庫管理界對將數據庫管理系統用于決策支持越來越感興趣。這樣一個決策支持系統將允許對原本為在線轉換過程應用收據的數據進行統計查詢。比如` 上月我們的所有連鎖店一共賣了多少尿布?`,決策支持系統需要`數據倉庫`的結構。數據倉庫用相同的格式將某組織分散在各個部門的數據統一成一個單一的中心數據庫(通常有1 00GB大)。有時較小一點的子數據庫也可以建成來進行特殊的分析;這些又叫`數據市場`(Data Marts)
決策支持系統為在線分析過程(OLAP)和關系在線分析過程設計。關系在線分析過程為`多維分析`設計。關系在線分析過程數據庫通過維組織,維即屬性(變量)的邏輯類。數據體可以看成是高維偶然事件表。關系在線分析過程支持如下類型的查詢: .顯示春季運動服部門總的銷售量,及California大城市商業街中商店數 .和小城市中商店進行比較 .顯示所有利潤邊界值為負的項
如果關系在線分析過程的查尋由使用者手工進行,使用者提出潛在的相關問題;得到結果需要附加的查尋,其答案可能暗示進一步的問題。這樣的分析過程一直到不再有感興趣的問題提出,或者到分析員精疲力盡或耗完時間。如果用關系在線分析過程進行數據挖掘,那它需要一個經驗豐富的使用者,他能不睡且不老,使用者必須不斷地重復提出見聞廣博的問題。 ??? 數據挖掘也可以用數據挖掘系統(軟件)進行,它只需要使用者提供模糊的指令,就能自動搜索相應的模式,并顯示重要的項,預測,或反常記錄。
.
利潤邊界值為負的項有什么特征? .如果決定開發某項產品的市場-預測它的利潤邊界值 .尋找那些其利潤邊界值可以準確預測的項的特征 不是所有的大的數據庫都是商業化的,比方說科學和工程中大量存在的數據庫。這些數據庫通常和計算機自動收據數據聯系在一起,比方說: .天文的(天空圖) .氣象的(氣候,環境污染監測站) .衛星遙感 .高能物理 .工業過程控制 這些數據也能得益于數據挖掘技術(原則上)
4
是數據挖掘還是智能訓練?
當前對數據挖掘的興趣在學術界引發了一些議題。數據挖掘作為一種商業事業看上去很可行,但它是否能被定為一種智能訓練。當然它和計算機科學有極重要的聯系。這些包括: .集聚體(ROLAP)的高效計算 .快速的立體(X * X)查尋 .為提高在線查尋的速度的線下預查尋 .在線查尋的并行計算 .將DBMS方法轉化為數據挖掘算法。 .基于磁盤而不是RAM的實現 .基本數據挖掘算法的并行實現 從統計數據分析的眼光我們可以問數據挖掘方法是否是智能訓練。到目前為止,仍可以說它是,也可以說不是。數據挖掘包中廣為人知的程序來自機器學習,模式識別,神經網絡和數據可視化領域。它們強調` 看和感覺`和感官性的存在。這樣看上去并不是在意具體的表現,而是要迅速占領市場。在這個領域中目前大部分的研究集中在改進當前的機器學習方法和加速已存在的算法。 然而,在將來數據挖掘幾乎可以肯定地說是一種智能訓練。當一種技術的效率提高了十倍,人們總要認真地重新考慮怎樣應用它。想一想人類從走到飛的歷史進程,每一次提高都大約是以前的十倍,并且每一次量的提高都重新改變了我們對如何使用交通工具的想法。C huck Dickens(前SLAC的計算指導)曾說到:`每次計算機的能力提高十倍,我們都應該從總體上重新思考一下我們應該怎樣算,算什么的問題。` 一個相應的說法可能是`每次數據量增加十倍,我們就應該從總體上重新考慮一下怎樣分析它。`從當前幾乎大多數使用的數據挖掘工具發明的那一段時間到現在,計算機的處理能力和數據量都增加了好幾個數量級。新的數據挖掘方法在將來一定會更智能更有學術性( 商業性)。
?
5
數據挖掘應該是統計的一部分嗎?
我們過去曾給予數據挖掘方法智能的生命力,但統計學作為一個學科是否應該關心它的發展。我們是否應該將它看成統計的一部分?那意味作什么?最起碼它表明我們應該: .在我們的雜志上發表這類文章。 .在我們的本科課程中講授一些這方面的內容 ?br> .在我們的研究生中講授一些相關的研究課題。 .給那些這方面較優秀的人提供一些獎勵(工作,任期,獎品)。 答案并不明顯,在統計學的歷史上就忽略了許多在其它數據處理相關領域發展的新方法。如下是一些相關領域的例子。其中帶*的是那些在統計科學中萌芽,但隨后絕大部分又被統計學忽略的方法領域。 1 模式識別*--CS/工程 2 數據庫管理--CS/圖書館科學 3 神經網絡*--心理學/CS/工程 4 機器學習*-CS/AI 5 圖形模型*(Beyes 網)-CS/AI 6 遺傳工程--CS/工程 7 化學統計學*--化學 8 數據可視化**--CS/科學計算 可以肯定地說,個別的`統計學家`已經致力于這些領域,但公平地說他們并未被我們的統計學領域擁抱(或者說熱情地擁抱)。
?
6
什么是統計學?
既然象上面的一些從數據獲取知識的課題和統計學的關系如此冷淡,我們不禁要問:`
什么不是統計學`。如果和數據聯系并不是一個課題成為統計學一部分的充分理由,那么什么才是充分的呢?到目前為止,統計學的定義好象依賴于一些工具,也就是我們在當前的研究生課程中講授的那些東西。如下是一些例子: .概率理論 .實分析 .測度論 .漸近理論 .決策理論 .馬耳可夫鏈 .鞅 .遍歷理論 .等 ??? 統計領域好象被定義成一族能提出如上或相關工具的問題。當然這些工具過去和將來都會很有用。就象Brad Efron提醒我們一樣:`統計是最成功的信息科學。`,`那些忽略了統計的人將受到懲罰,他們將在實際中自己重新發現該統計方法。` ??? 有人認為在當前數據(及其相關應用)以指數方式增長,而統計學家的數量顯然趕不上這種增長的情況下,我們統計學應該將精力集中于信息科學中我們作得最好的部分,也就是基于數學的概率推斷。這是一種高度保守的觀點,當然它也有可能是最好的一種戰略。然而,如果我們接受這一種觀點,我們統計學家在‘信息革命’浪潮中的作用肯定會逐漸消失殆盡(在這個舞臺上的演員越來越少)。當然這種戰略的一個很好的優點是它對我們創新的要求很少,我們只需要墨守成規就可以了。 ??? 另一種觀點,早在1962年就由John Tukey[Tukey (1962)]提出來了,他認為統計應該關注數據分析。這個領域應該依據問題而不是工具定義,也就是那些和數據有關的問題。如果這種觀點成為一種主流觀點,那就要求對我們的實踐和學術課題作較大的改變。 ??? 首先(最重要的),我們應該跟上計算的步伐。哪里有數據,哪里就有計算。 一旦我們將計算方法看成是一個基本的統計工具(而不是一種方便地實現我們現成工具的方法),那么當前許多和數據密切相關的領域將不復存在。他們將成為我們領域的一部分。 ??? 認真對待計算工具而不是簡單地使用統計包--雖然這一點也很重要。如果計算成為我們的一個基本的研究工具,毫無疑問,我們的學生應該學習相關的計算科學知識。這將包括數值線性代數,數值和組合優化,數據結構,算法設計,機械體系,程序設計方法,數據庫管理,并行體系,和程序設計等等。我們也將擴展我們的課程計劃,它應該包括當前的計算機定向數據分析方法,它們大部分是在統計學科之外發展起來的。 ??? 如果我們想和其它的數據相關領域爭奪學術和商業的市場空間,我們的某些基本模式將不得不改變,我們將不得不調節對數學的幻想。數學(象計算)只是統計的一個工具,雖然非常重要,但并不是唯一能證實統計方法有效性的工具。數學不等價于理論,反之亦然。理論本來是創造理解力和數學,雖然這很重要,但并不是作此的唯一方法。比如,在疾病的基因理論中數學內容很少,但它卻使人們更好地理解許多醫學現象。我們將承認經驗確認方式,雖然有一定局限性,但的確是一種確認方式。 ??? 我們可能也不得不改變我們的文化。每一個參與其它數據相關領域的統計學家都被他們和統計學的‘文化差距’所震撼。在其它的一些領域,‘想法’比數學技術(基礎)更重要。一個有啟發的‘想法’就被認為是有價值的,若有更詳細的確認(理論的或經驗的)人們才去討論它的最終價值。思維方式是‘如果沒有證明是有罪的,那就是清白的’這和我們領域的思路是不一致的。過去如果一個新方法不是用數學證明是有效的,我們常常詆毀它,即使不這樣,我們也不會接受它。這種思路在數據集比較小和信息噪聲比較高時是合理的。特別地,我們應該改變我們詆毀那些表現很好(通常在其它領域),但卻沒被我們理解的方法的習慣。
?
7 Which Way To Go?
也許,現在的統計學正處在一個十字路口,我們可以決定是接受還是拒絕改變。如上所說,兩種觀點都極富說服力。雖然觀點豐富,但誰也不能肯定哪一種戰略能保持我們領域的健康發展和生命力。大多數統計學家好象認為統計學對信息科學的影響越來越小。它們也不太同意為此作些什么。站主導的觀點認為我們有市場問題,我們在別的領域的顧客和同事不了解我們的價值和重要性。這也是我們的主要專業組織,美國統計協會的看法。在戰略計劃委員(A mstat News-Feb.1997)會所作的五年計劃報告中有一節‘增強我們學科的聲望和健康’。建議作三方面的工作: . . (以下的內容意思是:統計學面臨危機,市場的,人才的危機。統計學可以在數據挖掘科學中發揮作用,統計學應該和數據挖掘合作,而不是將它甩給計算機科學家。) 參考:Tukey,J.W.(1962).數據分析的未來 Ann.Statist.33,1-67
|