我們現在已經生活在一個網絡化的時代,通信、計算機和網絡技術正改變著整個人類和社會。如果用芯片集成度來衡量微電子技術,用
CPU
處理速度來衡量計算機技術,用信道傳輸速率來衡量通信技術,那么摩爾定律告訴我們,它們都是以每
18
個月翻一番的速度在增長,這一勢頭已經維持了十多年。在美國,廣播達到
5000
萬戶用了
38
年;電視用了
13
年;
Internet
撥號上網達到
5000
萬戶僅用了
4
年。全球
IP
網發展速度達到每
6
個月翻一番,國內情況亦然。
1999
年初,中國上網用戶為
210
萬,現在已經達到
600
萬。網絡的發展導致經濟全球化,在
1998
年全球產值排序前
100
名中,跨國企業占了
51
個,國家只占
49
個。有人提出,對待一個跨國企業也許比對待一個國家還要重要。在新世紀鐘聲剛剛敲響的時候,回顧往昔,人們不僅要問:就推動人類社會進步而言,歷史上能與網絡技術相比擬的是什么技術呢
?
有人甚至提出要把網絡技術與火的發明相比擬。火的發明區別了動物和人,種種科學技術的重大發現擴展了自然人的體能、技能和智能,而網絡技術則大大提高了人的生存質量和人的素質,使人成為社會人、全球人。
現在的問題是:網絡之后的下一個技術熱點是什么?讓我們來看一些身邊俯拾即是的現象:《紐約時報》由
60
年代的
10
~
20
版擴張至現在的
100
~
200
版,最高曾達
1572
版;《北京青年報》也已是
16
~
40
版;市場營銷報已達
100
版。然而在現實社會中,人均日閱讀時間通常為
30
~
45
分鐘,只能瀏覽一份
24
版的報紙。大量信息在給人們帶來方便的同時也帶來了一大堆問題:第一是信息過量,難以消化;第二是信息真假難以辨識;第三是信息安全難以保證;第四是信息形式不一致,難以統一處理。人們開始提出一個新的口號:
“
要學會拋棄信息
”
。人們開始考慮:
“
如何才能不被信息淹沒,而是從中及時發現有用的知識、提高信息利用率?
”
面對這一挑戰,數據開采和知識發現(
DMKD
)技術應運而生,并顯示出強大的生命力。
另一方面,隨著數據庫技術的迅速發展以及數據庫管理系統的廣泛應用,人們積累的數據越來越多。激增的數據背后隱藏著許多重要的信息,人們希望能夠對其進行更高層次的分析,以便更好地利用這些數據。目前的數據庫系統可以高效地實現數據的錄入、查詢、統計等功能,但無法發現數據中存在的關系和規則,無法根據現有的數據預測未來的發展趨勢。缺乏挖掘數據背后隱藏的知識的手段,導致了
“
數據爆炸但知識貧乏
”
的現象。
數據挖掘技術是人們長期對數據庫技術進行研究和開發的結果。起初各種商業數據是存儲在計算機的數據庫中的,然后發展到可對數據庫進行查詢和訪問,進而發展到對數據庫的即時遍歷。數據挖掘使數據庫技術進入了一個更高級的階段,它不僅能對過去的數據進行查詢和遍歷,并且能夠找出過去數據之間的潛在聯系,從而促進信息的傳遞。現在數據挖掘技術在商業應用中已經可以馬上投入使用,因為對這種技術進行支持的三種基礎技術已經發展成熟,他們是:
-?????????
海量數據搜集
-?????????
強大的多處理器計算機
-?????????
數據挖掘算法
Friedman[1997]
列舉了四個主要的技術理由激發了數據挖掘的開發、應用和研究的興趣:
-?????????
超大規模數據庫的出現,例如商業數據倉庫和計算機自動收集的數據記錄;
-?????????
先進的計算機技術,例如更快和更大的計算能力和并行體系結構;
-?????????
對巨大量數據的快速訪問;
-?????????
對這些數據應用精深的統計方法計算的能力。
?
商業數據庫現在正在以一個空前的速度增長,并且數據倉庫正在廣泛地應用于各種行業;對計算機硬件性能越來越高的要求,也可以用現在已經成熟的并行多處理機的技術來滿足;另外數據挖掘算法經過了這
10
多年的發展也已經成為一種成熟,穩定,且易于理解和操作的技術。
1.4
從商業數據到商業信息的進化
從商業數據到商業信息的進化過程中,每一步前進都是建立在上一步的基礎上的。見下表。表中我們可以看到,第四步進化是革命性的,因為從用戶的角度來看,這一階段的數據庫技術已經可以快速地回答商業上的很多問題了。
進化階段
|
商業問題
|
支持技術
|
產品廠家
|
產品特點
|
數據搜集
?z<#C掞x ? (60
年代
)
|
“
過去五年中我的總收入是多少?
”
|
計算機、磁帶和磁盤
|
IBM,CDC
|
提供歷史性的、靜態的數據信息
|
數據訪問
湭l6卲級? ? (80
年代
)
|
“
在新英格蘭的分部去年三月的銷售額是多少?
”
|
關系數據庫(
RDBMS
),結構化查詢語言(
SQL
),
ODBC
|
Oracle
、
Sybase
、
Informix
、
IBM
、
Microsoft
|
在記錄級提供歷史性的、動態數據信息
|
數據倉庫;決策支持
? 胚/艇: ? (90
年代
)
|
“
在新英格蘭的分部去年三月的銷售額是多少?波士頓據此可得出什么結論?
”
|
聯機分析處理(
OLAP
)、多維數據庫、數據倉庫
|
Pilot
、
Comshare
、
Arbor
、
Cognos
、
Microstrategy
|
在各種層次上提供回溯的、動態的數據信息
|
數據挖掘
?\灣盷蠫 ?
(正在流行)
|
“
下個月波士頓的銷售會怎么樣?為什么?
”
|
高級算法、多處理器計算機、海量數據庫
|
Pilot
、
Lockheed
、
IBM
、
SGI
、其他初創公司
|
提供預測性的信息
|
貱邍T?什??
表一、數據挖掘的進化歷程。
數據挖掘的核心模塊技術歷經了數十年的發展,其中包括數理統計、人工智能、機器學習。今天,這些成熟的技術,加上高性能的關系數據庫引擎以及廣泛的數據集成,讓數據挖掘技術在當前的數據倉庫環境中進入了實用的階段。
數據挖掘其實是一個逐漸演變的過程,電子數據處理的初期,人們就試圖通過某些方法來實現自動決策支持,當時機器學習成為人們關心的焦點.機器學習的過程就是將一些已知的并已被成功解決的問題作為范例輸入計算機,機器通過學習這些范例總結并生成相應的規則,這些規則具有通用性,使用它們可以解決某一類的問題.隨后,隨著神經網絡技術的形成和發展,人們的注意力轉向知識工程,知識工程不同于機器學習那樣給計算機輸入范例,讓它生成出規則,而是直接給計算機輸入已被代碼化的規則,而計算機是通過使用這些規則來解決某些問題。專家系統就是這種方法所得到的成果,但它有投資大、效果不甚理想等不足。80年代人們又在新的神經網絡理論的指導下,重新回到機器學習的方法上,并將其成果應用于處理大型商業數據庫。隨著在80年代末一個新的術語,它就是數據庫中的知識發現,簡稱KDD(Knowledge discovery in database).它泛指所有從源數據中發掘模式或聯系的方法,人們接受了這個術語,并用KDD來描述整個數據發掘的過程,包括最開始的制定業務目標到最終的結果分析,而用數據挖掘(data mining)來描述使用挖掘算法進行數據挖掘的子過程。但最近人們卻逐漸開始使用數據挖掘中有許多工作可以由統計方法來完成,并認為最好的策略是將統計方法與數據挖掘有機的結合起來。
數據倉庫技術的發展與數據挖掘有著密切的關系。數據倉庫的發展是促進數據挖掘越來越熱的原因之一。但是,數據倉庫并不是數據挖掘的先決條件,因為有很多數據挖掘可直接從操作數據源中挖掘信息
數據挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。
與數據挖掘相近的同義詞有數據融合、數據分析和決策支持等。這個定義包括好幾層含義:數據源必須是真實的、大量的、含噪聲的;發現的是用戶感興趣的知識;發現的知識要可接受、可理解、可運用;并不要求發現放之四海皆準的知識,僅支持特定的發現問題。
----
何為知識?從廣義上理解,數據、信息也是知識的表現形式,但是人們更把概念、規則、模式、規律和約束等看作知識。人們把數據看作是形成知識的源泉,好像從礦石中采礦或淘金一樣。原始數據可以是結構化的,如關系數據庫中的數據;也可以是半結構化的,如文本、圖形和圖像數據;甚至是分布在網絡上的異構型數據。發現知識的方法可以是數學的,也可以是非數學的;可以是演繹的,也可以是歸納的。發現的知識可以被用于信息管理,查詢優化,決策支持和過程控制等,還可以用于數據自身的維護。因此,數據挖掘是一門交叉學科,它把人們對數據的應用從低層次的簡單查詢,提升到從數據中挖掘知識,提供決策支持。在這種需求牽引下,匯聚了不同領域的研究者,尤其是數據庫技術、人工智能技術、數理統計、可視化技術、并行計算等方面的學者和工程技術人員,投身到數據挖掘這一新興的研究領域,形成新的技術熱點。
這里所說的知識發現,不是要求發現放之四海而皆準的真理,也不是要去發現嶄新的自然科學定理和純數學公式,更不是什么機器定理證明。實際上,所有發現的知識都是相對的,是有特定前提和約束條件,面向特定領域的,同時還要能夠易于被用戶理解。最好能用自然語言表達所發現的結果。
數據挖掘是一種新的商業信息處理技術,其主要特點是對商業數據庫中的大量業務數據進行抽取、轉換、分析和其他模型化處理,從中提取輔助商業決策的關鍵性數據。
簡而言之,數據挖掘其實是一類深層次的數據分析方法。數據分析本身已經有很多年的歷史,只不過在過去數據收集和分析的目的是用于科學研究,另外,由于當時計算能力的限制,對大數據量進行分析的復雜數據分析方法受到很大限制。現在,由于各行業業務自動化的實現,商業領域產生了大量的業務數據,這些數據不再是為了分析的目的而收集的,而是由于純機會的(Opportunistic)商業運作而產生。分析這些數據也不再是單純為了研究的需要,更主要是為商業決策提供真正有價值的信息,進而獲得利潤。但所有企業面臨的一個共同問題是:企業數據量非常大,而其中真正有價值的信息卻很少,因此從大量的數據中經過深層分析,獲得有利于商業運作、提高競爭力的信息,就像從礦石中淘金一樣,數據挖掘也因此而得名。
因此,數據挖掘可以描述為:按企業既定業務目標,對大量的企業數據進行探索和分析,揭示隱藏的、未知的或驗證已知的規律性,并進一步將其模型化的先進有效的方法。
數據挖掘與傳統的數據分析(如查詢、報表、聯機應用分析)的本質區別是數據挖掘是在沒有明確假設的前提下去挖掘信息、發現知識.數據挖掘所得到的信息應具有先未知,有效和可實用三個特征.
先前未知的信息是指該信息是預先未曾預料到的
,
既數據挖掘是要發現那些不能靠直覺發現的信息或知識
,
甚至是違背直覺的信息或知識
,
挖掘出的信息越是出乎意料
,
就可能越有價值
.
在商業應用中最典型的例子就是一家連鎖店通過數據挖掘發現了小孩尿布和啤酒之間有著驚人的聯系
.
從數據庫中發現知識(
KDD
)一詞首次出現在
1989
年舉行的第十一屆國際聯合人工智能學術會議上。到目前為止,由美國人工智能協會主辦的
KDD
國際研討會已經召開了
8
次,規模由原來的專題討論會發展到國際學術大會(見表
1
),研究重點也逐漸從發現方法轉向系統應用,注重多種發現策略和技術的集成,以及多種學科之間的相互滲透。
1999
年,亞太地區在北京召開的第三屆
PAKDD
會議收到
158
篇論文,空前熱烈。
IEEE
的
Knowledge and Data Engineering
會刊率先在
1993
年出版了
KDD
技術專刊。并行計算、計算機網絡和信息工程等其他領域的國際學會、學刊也把數據挖掘和知識發現列為專題和專刊討論,甚至到了膾炙人口的程度。
此外,在Internet上還有不少KDD電子出版物,其中以半月刊Knowledge Discovery Nuggets最為權威(http://www.kdnuggets.com/subscribe.html)。在網上還有許多自由論壇,如DM Email Club等。至于DMKD書籍,可以在任意一家計算機書店找到十多本。目前,世界上比較有影響的典型數據挖掘系統有:SAS公司的Enterprise Miner、IBM公司的Intelligent Miner、SGI公司的SetMiner、SPSS公司的Clementine、Sybase公司的Warehouse Studio、RuleQuest Research公司的See5、還有CoverStory、EXPLORA、Knowledge Discovery Workbench、DBMiner、Quest等。讀者可以訪問http://www.datamininglab.com.網站,該網站提供了許多數據挖掘系統和工具的性能測試報告。
與國外相比,國內對DMKD的研究稍晚,沒有形成整體力量。1993年國家自然科學基金首次支持我們對該領域的研究項目。目前,國內的許多科研單位和高等院校競相開展知識發現的基礎理論及其應用研究,這些單位包括清華大學、中科院計算技術研究所、空軍第三研究所、海軍裝備論證中心等。其中,北京系統工程研究所對模糊方法在知識發現中的應用進行了較深入的研究,北京大學也在開展對數據立方體代數的研究,華中理工大學、復旦大學、浙江大學、中國科技大學、中科院數學研究所、吉林大學等單位開展了對關聯規則開采算法的優化和改造;南京大學、四川聯合大學和上海交通大學等單位探討、研究了非結構化數據的知識發現以及Web數據挖掘。
最近,
Gartner Group
的一次高級技術調查將數據挖掘和人工智能列為
“
未來三到五年內將對工業產生深遠影響的五大關鍵技術
”
之首,并且還將并行處理體系和數據挖掘列為未來五年內投資焦點的十大新興技術前兩位。根據最近
Gartner
的
HPC
研究表明,
“
隨著數據捕獲、傳輸和存儲技術的快速發展,大型系統用戶將更多地需要采用新技術來挖掘市場以外的價值,采用更為廣闊的并行處理系統來創建新的商業增長點。
”
----
隨著
DMKD
研究逐步走向深入,數據挖掘和知識發現的研究已經形成了三根強大的技術支柱:數據庫、人工智能和數理統計。因此,
KDD
大會程序委員會曾經由這三個學科的權威人物同時來任主席。目前
DMKD
的主要研究內容包括基礎理論、發現算法、數據倉庫、可視化技術、定性定量互換模型、知識表示方法、發現知識的維護和再利用、半結構化和非結構化數據中的知識發現以及網上數據挖掘等。
----
數據挖掘所發現的知識最常見的有以下四類:
----
廣義知識指類別特征的概括性描述知識。根據數據的微觀特性發現其表征的、帶有普遍性的、較高層次概念的、中觀和宏觀的知識,反映同類事物共同性質,是對數據的概括、精煉和抽象。
----
廣義知識的發現方法和實現技術有很多,如數據立方體、面向屬性的歸約等。數據立方體還有其他一些別名,如“多維數據庫”、“實現視圖”、“OLAP"等。該方法的基本思想是實現某些常用的代價較高的聚集函數的計算,諸如計數、求和、平均、最大值等,并將這些實現視圖儲存在多維數據庫中。既然很多聚集函數需經常重復計算,那么在多維數據立方體中存放預先計算好的結果將能保證快速響應,并可靈活地提供不同角度和不同抽象層次上的數據視圖。另一種廣義知識發現方法是加拿大SimonFraser大學提出的面向屬性的歸約方法。這種方法以類SQL語言表示數據挖掘查詢,收集數據庫中的相關數據集,然后在相關數據集上應用一系列數據推廣技術進行數據推廣,包括屬性刪除、概念樹提升、屬性閾值控制、計數及其他聚集函數傳播等。
4.2
關聯知識(Association)
----
它反映一個事件和其他事件之間依賴或關聯的知識。如果兩項或多項屬性之間存在關聯,那么其中一項的屬性值就可以依據其他屬性值進行預測。最為著名的關聯規則發現方法是R.Agrawal提出的Apriori算法。關聯規則的發現可分為兩步。第一步是迭代識別所有的頻繁項目集,要求頻繁項目集的支持率不低于用戶設定的最低值;第二步是從頻繁項目集中構造可信度不低于用戶設定的最低值的規則。識別或發現所有頻繁項目集是關聯規則發現算法的核心,也是計算量最大的部分。
4.3
分類知識(Classification&Clustering)
----
它反映同類事物共同性質的特征型知識和不同事物之間的差異型特征知識。最為典型的分類方法是基于決策樹的分類方法。它是從實例集中構造決策樹,是一種有指導的學習方法。該方法先根據訓練子集(又稱為窗口)形成決策樹。如果該樹不能對所有對象給出正確的分類,那么選擇一些例外加入到窗口中,重復該過程一直到形成正確的決策集。最終結果是一棵樹,其葉結點是類名,中間結點是帶有分枝的屬性,該分枝對應該屬性的某一可能值。最為典型的決策樹學習系統是ID3,它采用自頂向下不回溯策略,能保證找到一個簡單的樹。算法C4.5和C5.0都是ID3的擴展,它們將分類領域從類別屬性擴展到數值型屬性。
----
數據分類還有統計、粗糙集(RoughSet)等方法。線性回歸和線性辨別分析是典型的統計模型。為降低決策樹生成代價,人們還提出了一種區間分類器。最近也有人研究使用神經網絡方法在數據庫中進行分類和規則提取。
4.4
預測型知識(Prediction)
----
它根據時間序列型數據,由歷史的和當前的數據去推測未來的數據,也可以認為是以時間為關鍵屬性的關聯知識。
----
目前,時間序列預測方法有經典的統計方法、神經網絡和機器學習等。
1968
年
Box
和
Jenkins
提出了一套比較完善的時間序列建模理論和分析方法,這些經典的數學方法通過建立隨機模型,如自回歸模型、自回歸滑動平均模型、求和自回歸滑動平均模型和季節調整模型等,進行時間序列的預測。由于大量的時間序列是非平穩的,其特征參數和數據分布隨著時間的推移而發生變化。因此,僅僅通過對某段歷史數據的訓練,建立單一的神經網絡預測模型,還無法完成準確的預測任務。為此,人們提出了基于統計學和基于精確性的再訓練方法,當發現現存預測模型不再適用于當前數據時,對模型重新訓練,獲得新的權重參數,建立新的模型。也有許多系統借助并行算法的計算優勢進行時間序列預測。
----
此外,還可以發現其他類型的知識,如偏差型知識
(Deviation)
,它是對差異和極端特例的描述,揭示事物偏離常規的異常現象,如標準類外的特例,數據聚類外的離群值等。所有這些知識都可以在不同的概念層次上被發現,并隨著概念層次的提升,從微觀到中觀、到宏觀,以滿足不同用戶不同層次決策的需要。
數據挖掘通過預測未來趨勢及行為,做出前攝的、基于知識的決策。數據挖掘的目標是從數據庫中發現隱含的、有意義的知識,主要有以下五類功能。
數據挖掘自動在大型數據庫中尋找預測性信息,以往需要進行大量手工分析的問題如今可以迅速直接由數據本身得出結論。一個典型的例子是市場預測問題,數據挖掘使用過去有關促銷的數據來尋找未來投資中回報最大的用戶,其它可預測的問題包括預報破產以及認定對指定事件最可能作出反應的群體。
數據關聯是數據庫中存在的一類重要的可被發現的知識。若兩個或多個變量的取值之間存在某種規律性,就稱為關聯。關聯可分為簡單關聯、時序關聯、因果關聯。關聯分析的目的是找出數據庫中隱藏的關聯網。有時并不知道數據庫中數據的關聯函數,即使知道也是不確定的,因此關聯分析生成的規則帶有可信度。
數據庫中的記錄可被化分為一系列有意義的子集,即聚類。聚類增強了人們對客觀現實的認識,是概念描述和偏差分析的先決條件。聚類技術主要包括傳統的模式識別方法和數學分類學。
80
年代初,
Mchalski
提出了概念聚類技術牞其要點是,在劃分對象時不僅考慮對象之間的距離,還要求劃分出的類具有某種內涵描述,從而避免了傳統技術的某些片面性。
概念描述就是對某類對象的內涵進行描述,并概括這類對象的有關特征。概念描述分為特征性描述和區別性描述,前者描述某類對象的共同特征,后者描述不同類對象之間的區別。生成一個類的特征性描述只涉及該類對象中所有對象的共性。生成區別性描述的方法很多,如決策樹方法、遺傳算法等。
?SPAN style="FONT-SIZE: 10.5pt; COLOR: black; mso-bidi-font-size: 11.0pt; mso-ascii-font-family: Verdana; mso-hansi-font-family: Verdana">數據庫中的數據常有一些異常記錄,從數據庫中檢測這些偏差很有意義。偏差包括很多潛在的知識,如分類中的反常實例、不滿足規則的特例、觀測結果與模型預測值的偏差、量值隨時間的變化等。偏差檢測的基本方法是,尋找觀測結果與參照值之間有意義的差別。
6.1
人工神經網絡
仿照生理神經網絡結構的非線形預測模型,通過學習進行模式識別。
代表著決策集的樹形結構。
基于進化理論,并采用遺傳結合、遺傳變異、以及自然選擇等設計方法的優化技術。
將數據集合中每一個記錄進行分類的方法。
從統計意義上對數據中的
“
如果
-
那么
”
規則進行尋找和推導。
?
采用上述技術的某些專門的分析工具已經發展了大約十年的歷史,不過這些工具所面對的數據量通常較小。而現在這些技術已經被直接集成到許多大型的工業標準的數據倉庫和聯機分析系統中去了。
7.1
基于神經網絡的工具
由于對非線性數據的快速建模能力,基于神經網絡的數據挖掘工具現在越來越流行。其開采過程基本上是將數據聚類,然后分類計算權值。神經網絡很適合非線性數據和含噪聲數據,所以在市場數據庫的分析和建模方面應用廣泛。
7.2
基于規則和決策樹的工具
大部分數據挖掘工具采用規則發現或決策樹分類技術來發現數據模式和規則,其核心是某種歸納算法。這類工具通常是對數據庫的數據進行開采,生產規則和決策樹,然后對新數據進行分析和預測。這類工具的主要優點是,規則和決策樹都是可讀的。
7.3
基于模糊邏輯的工具
其發現方法是應用模糊邏輯進行數據查詢、排序等。該工具使用模糊概念和“最近”搜索技術的數據查詢工具,它可以讓用戶指定目標,然后對數據庫進行搜索,找出接近目標的所有記錄,并對結果進行評估。
7.4
綜合多方法工具
不少數據挖掘工具采用了多種開采方法,這類工具一般規模較大,適于大型數據庫牗包括并行數據庫牘。這類工具開采能力很強,但價格昂貴,并要花很長時間進行學習。
8.1
數據挖掘環境
數據挖掘是指一個完整的過程,該過程從大型數據庫中挖掘先前未知的,有效的,可實用的信息,并使用這些信息做出決策或豐富知識.
數據挖掘環境可示意如下圖:
?
???
?
?
?
??????????????????? 數據挖掘環境框圖
8.2
數據挖掘過程圖
下圖描述了數據挖掘的基本過程和主要步驟
?
?
?
?
?
?
?
?
?
?
?
?
??????????????????????? 數據挖掘過程的步驟
?
8.3
數據挖掘過程工作量
在數據挖掘中被研究的業務對象是整個過程的基礎,它驅動了整個數據挖掘過程,也是檢驗最后結果和指引分析人員完成數據挖掘的依據和顧問.圖2各步驟是按一定順序完成的,當然整個過程中還會存在步驟間的反饋.數據挖掘的過程并不是自動的,絕大多數的工作需要人工完成.圖3給出了各步驟在整個過程中的工作量之比.可以看到,60%的時間用在數據準備上,這說明了數據挖掘對數據的嚴格要求,而后挖掘工作僅占總工作量的10%.
?
確定業務對象數據準備數據處理結果分析和知識的同化
?
?
?
8.4
數據挖掘過程簡介
過程中各步驟的大體內容如下:
1.??
確定業務對象
清晰地定義出業務問題,認清數據挖掘的目的是數據挖掘的重要一步.挖掘的最后結構是不可預測的,但要探索的問題應是有預見的,為了數據挖掘而數據挖掘則帶有盲目性,是不會成功的.
2.??
數據準備
1)
數據的選擇
搜索所有與業務對象有關的內部和外部數據信息,并從中選擇出適用于數據挖掘應用的數據.
2)
數據的預處理
研究數據的質量,為進一步的分析作準備.并確定將要進行的挖掘操作的類型.
3)
數據的轉換
將數據轉換成一個分析模型.這個分析模型是針對挖掘算法建立的.建立一個真正適合挖掘算法的分析模型是數據挖掘成功的關鍵.
3.??
數據挖掘
對所得到的經過轉換的數據進行挖掘.除了完善從選擇合適的挖掘算法外,其余一切工作都能自動地完成.
4.??
結果分析
解釋并評估結果.其使用的分析方法一般應作數據挖掘操作而定,通常會用到可視化技術.
5.??
知識的同化
將分析所得到的知識集成到業務信息系統的組織結構中去.
8.5
數據挖掘需要的人員
數據挖掘過程的分步實現,不同的步會需要是有不同專長的人員,他們大體可以分為三類.
業務分析人員:要求精通業務,能夠解釋業務對象,并根據各業務對象確定出用于數據定義和挖掘算法的業務需求.
數據分析人員:精通數據分析技術,并對統計學有較熟練的掌握,有能力把業務需求轉化為數據挖掘的各步操作,并為每步操作選擇合適的技術.
數據管理人員:精通數據管理技術,并從數據庫或數據倉庫中收集數據.
?
從上可見,數據挖掘是一個多種專家合作的過程,也是一個在資金上和技術上高投入的過程.這一過程要反復進行牞在反復過程中,不斷地趨近事物的本質,不斷地優先問題的解決方案。數據重組和細分添加和拆分記錄選取數據樣本可視化數據探索聚類分析神經網絡、決策樹數理統計、時間序列結論綜合解釋評價數據知識數據取樣數據探索數據調整模型化評價。
----
當前,
DMKD
研究方興未艾,其研究與開發的總體水平相當于數據庫技術在
70
年代所處的地位,迫切需要類似于關系模式、
DBMS
系統和
SQL
查詢語言等理論和方法的指導,才能使
DMKD
的應用得以普遍推廣。預計在本世紀,
DMKD
的研究還會形成更大的高潮,研究焦點可能會集中到以下幾個方面:
-
發現語言的形式化描述,即研究專門用于知識發現的數據挖掘語言,也許會像
SQL
語言一樣走向形式化和標準化;
-
尋求數據挖掘過程中的可視化方法,使知識發現的過程能夠被用戶理解,也便于在知識發現的過程中進行人機交互;
-
研究在網絡環境下的數據挖掘技術(
WebMining
),特別是在因特網上建立
DMKD
服務器,并且與數據庫服務器配合,實現
WebMining
;
-
加強對各種非結構化數據的開采(
DataMiningforAudio
&
Video
),如對文本數據、圖形數據、視頻圖像數據、聲音數據乃至綜合多媒體數據的開采;
處理的數據將會涉及到更多的數據類型,這些數據類型或者比較復雜,或者是結構比較獨特。為了處理這些復雜的數據,就需要一些新的和更好的分析和建立模型的方法,同時還會涉及到為處理這些復雜或獨特數據所做的費時和復雜數據準備的一些工具和軟件。
但是,不管怎樣,需求牽引與市場推動是永恒的,
DMKD
將首先滿足信息時代用戶的急需,大量的基于
DMKD
的決策支持軟件產品將會問世。只有從數據中有效地提取信息,從信息中及時地發現知識,才能為人類的思維決策和戰略發展服務。也只有到那時,數據才能夠真正成為與物質、能源相媲美的資源,信息時代才會真正到來。
就目前來看,將來的幾個熱點包括網站的數據挖掘(Web site data mining)、生物信息或基因(Bioinformatics/genomics)的數據挖掘及其文本的數據挖掘(Textual mining)。下面就這幾個方面加以簡單介紹。
需求
隨著Web技術的發展,各類電子商務網站風起云涌,建立起一個電子商務網站并不困難,困難的是如何讓您的電子商務網站有效益。要想有效益就必須吸引客戶,增加能帶來效益的客戶忠誠度。電子商務業務的競爭比傳統的業務競爭更加激烈,原因有很多方面,其中一個因素是客戶從一個電子商務網站轉換到競爭對手那邊,只需點擊幾下鼠標即可。網站的內容和層次、用詞、標題、獎勵方案、服務等任何一個地方都有可能成為吸引客戶、同時也可能成為失去客戶的因素。而同時電子商務網站每天都可能有上百萬次的在線交易,生成大量的記錄文件(Logfiles)和登記表,如何對這些數據進行分析和挖掘,充分了解客戶的喜好、購買模式,甚至是客戶一時的沖動,設計出滿足于不同客戶群體需要的個性化網站,進而增加其競爭力,幾乎變得勢在必行。若想在競爭中生存進而獲勝,就要比您的競爭對手更了解客戶。
電子商務網站數據挖掘
在對網站進行數據挖掘時,所需要的數據主要來自于兩個方面:一方面是客戶的背景信息,此部分信息主要來自于客戶的登記表;而另外一部分數據主要來自瀏覽者的點擊流(Click-stream),此部分數據主要用于考察客戶的行為表現。但有的時候,客戶對自己的背景信息十分珍重,不肯把這部分信息填寫在登記表上,這就會給數據分析和挖掘帶來不便。在這種情況之下,就不得不從瀏覽者的表現數據中來推測客戶的背景信息,進而再加以利用。
就分析和建立模型的技術和算法而言,網站的數據挖掘和原來的數據挖掘差別并不是特別大,很多方法和分析思想都可以運用。所不同的是網站的數據格式有很大一部分來自于點擊流,和傳統的數據庫格式有區別。因而對電子商務網站進行數據挖掘所做的主要工作是數據準備。目前,有很多廠商正在致力于開發專門用于網站挖掘的軟件。
10.2
生物信息或基因的數據挖掘
生物信息或基因數據挖掘則完全屬于另外一個領域,在商業上很難講有多大的價值,但對于人類卻受益非淺。例如,基因的組合千變萬化,得某種病的人的基因和正常人的基因到底差別多大?能否找出其中不同的地方,進而對其不同之處加以改變,使之成為正常基因?這都需要數據挖掘技術的支持。
對于生物信息或基因的數據挖掘和通常的數據挖掘相比,無論在數據的復雜程度、數據量還有分析和建立模型的算法而言,都要復雜得多。從分析算法上講,更需要一些新的和好的算法。現在很多廠商正在致力于這方面的研究。但就技術和軟件而言,還遠沒有達到成熟的地步。
10.3
文本的數據挖掘(
Textualmining
)
人們很關心的另外一個話題是文本數據挖掘。舉個例子,在客戶服務中心,把同客戶的談話轉化為文本數據,再對這些數據進行挖掘,進而了解客戶對服務的滿意程度和客戶的需求以及客戶之間的相互關系等信息。從這個例子可以看出,無論是在數據結構還是在分析處理方法方面,文本數據挖掘和前面談到的數據挖掘相差很大。文本數據挖掘并不是一件容易的事情,尤其是在分析方法方面,還有很多需要研究的專題。目前市場上有一些類似的軟件,但大部分方法只是把文本移來移去,或簡單地計算一下某些詞匯的出現頻率,并沒有真正的分析功能。
隨著計算機計算能力的發展和業務復雜性的提高,數據的類型會越來越多、越來越復雜,數據挖掘將發揮出越來越大的作用。
Web上有海量的數據信息,怎樣對這些數據進行復雜的應用成了現今數據庫技術的研究熱點。數據挖掘就是從大量的數據中發現隱含的規律性的內容,解決數據的應用質量問題。充分利用有用的數據,廢棄虛偽無用的數據,是數據挖掘技術的最重要的應用。相對于Web的數據而言,傳統的數據庫中的數據結構性很強,即其中的數據為完全結構化的數據,而Web上的數據最大特點就是半結構化。所謂半結構化是相對于完全結構化的傳統數據庫的數據而言。顯然,面向Web的數據挖掘比面向單個數據倉庫的數據挖掘要復雜得多。
1.異構數據庫環境
從數據庫研究的角度出發,Web網站上的信息也可以看作一個數據庫,一個更大、更復雜的數據庫。Web上的每一個站點就是一個數據源,每個數據源都是異構的,因而每一站點之間的信息和組織都不一樣,這就構成了一個巨大的異構數據庫環境。如果想要利用這些數據進行數據挖掘,首先,必須要研究站點之間異構數據的集成問題,只有將這些站點的數據都集成起來,提供給用戶一個統一的視圖,才有可能從巨大的數據資源中獲取所需的東西。其次,還要解決Web上的數據查詢問題,因為如果所需的數據不能很有效地得到,對這些數據進行分析、集成、處理就無從談起。
2.半結構化的數據結構
Web上的數據與傳統的數據庫中的數據不同,傳統的數據庫都有一定的數據模型,可以根據模型來具體描述特定的數據。而Web上的數據非常復雜,沒有特定的模型描述,每一站點的數據都各自獨立設計,并且數據本身具有自述性和動態可變性。因而,Web上的數據具有一定的結構性,但因自述層次的存在,從而是一種非完全結構化的數據,這也被稱之為半結構化數據。半結構化是Web上數據的最大特點。
3.解決半結構化的數據源問題
Web數據挖掘技術首要解決半結構化數據源模型和半結構化數據模型的查詢與集成問題。解決Web上的異構數據的集成與查詢問題,就必須要有一個模型來清晰地描述Web上的數據。針對Web上的數據半結構化的特點,尋找一個半結構化的數據模型是解決問題的關鍵所在。除了要定義一個半結構化數據模型外,還需要一種半結構化模型抽取技術,即自動地從現有數據中抽取半結構化模型的技術。面向Web的數據挖掘必須以半結構化模型和半結構化數據模型抽取技術為前提。
以XML為基礎的新一代WWW環境是直接面對Web數據的,不僅可以很好地兼容原有的Web應用,而且可以更好地實現Web中的信息共享與交換。XML可看作一種半結構化的數據模型,可以很容易地將XML的文檔描述與關系數據庫中的屬性一對應起來,實施精確地查詢與模型抽取。
1.XML的產生與發展
XML(extensible Markup Language)是由萬維網協會(W3C)設計,特別為Web應用服務的SGML(Standard General Markup Language)的一個重要分支。總的來說,XML是一種中介標示語言(Meta-markup Language),可提供描述結構化資料的格式,詳細來說,XML是一種類似于HTML,被設計用來描述數據的語言。XML提供了一種獨立的運行程序的方法來共享數據,它是用來自動描述信息的一種新的標準語言,它能使計算機通信把Internet的功能由信息傳遞擴大到人類其他多種多樣的活動中去。XML由若干規則組成,這些規則可用于創建標記語言,并能用一種被稱作分析程序的簡明程序處理所有新創建的標記語言,正如HTML為第一個計算機用戶閱讀Internet文檔提供一種顯示方式一樣,XML也創建了一種任何人都能讀出和寫入的世界語。XML解決了HTML不能解決的兩個Web問題,即Internet發展速度快而接入速度慢的問題,以及可利用的信息多,但難以找到自己需要的那部分信息的問題。XML能增加結構和語義信息,可使計算機和服務器即時處理多種形式的信息。因此,運用XML的擴展功能不僅能從Web服務器下載大量的信息,還能大大減少網絡業務量。
XML中的標志(TAG)是沒有預先定義的,使用者必須要自定義需要的標志,XML是能夠進行自解釋(Self Describing)的語言。XML使用DTD(Document Type Definition文檔類型定義)來顯示這些數據,XSL(eXtensible Style Sheet Language)是一種來描述這些文檔如何顯示的機制,它是XML的樣式表描述語言。XSL的歷史比HTML用的CSS(層疊式樣式表Cascading Style Sheets)還要悠久,XSL包括兩部分:一個用來轉換XML文檔的方法;一個用來格式化XML文檔的方法。XLL(eXtensible Link Language)是XML連接語言,它提供XML中的連接,與HTML中的類似,但功能更強大。使用XLL,可以多方向連接,且連接可以存在于對象層級,而不僅僅是頁面層級。由于XML能夠標記更多的信息,所以它就能使用戶很輕松地找到他們需要的信息。利用XML,Web設計人員不僅能創建文字和圖形,而且還能構建文檔類型定義的多層次、相互依存的系統、數據樹、元數據、超鏈接結構和樣式表。
2.XML的主要特點
正是XML的特點決定了其卓越的性能表現。XML作為一種標記語言,有許多特點:
(1)簡單。XML經過精心設計,整個規范簡單明了,它由若干規則組成,這些規則可用于創建標記語言,并能用一種常常稱作分析程序的簡明程序處理所有新創建的標記語言。XML能創建一種任何人都能讀出和寫入的世界語,這種創建世界語的功能叫做統一性功能。如XML創建的標記總是成對出現,以及依靠稱作統一代碼的新的編碼標準。
(2)開放。XML是SGML在市場上有許多成熟的軟件可用來幫助編寫、管理等,開放式標準XML的基礎是經過驗證的標準技術,并針對網絡做最佳化。眾多業界頂尖公司,與W3C的工作群組并肩合作,協助確保交互作業性,支持各式系統和瀏覽器上的開發人員、作者和使用者,以及改進XML標準。XML解釋器可以使用編程的方法來載入一個XML的文檔,當這個文檔被載入以后,用戶就可以通過XML文件對象模型來獲取和操縱整個文檔的信息,加快了網絡運行速度。
(3)高效且可擴充。支持復用文檔片斷,使用者可以發明和使用自己的標簽,也可與他人共享,可延伸性大,在XML中,可以定義無限量的一組標注。XML提供了一個標示結構化資料的架構。一個XML組件可以宣告與其相關的資料為零售價、營業稅、書名、數量或其它任何數據元素。隨著世界范圍內的許多機構逐漸采用XML標準,將會有更多的相關功能出現:一旦鎖定資料,便可以使用任何方式透過電纜線傳遞,并在瀏覽器中呈現,或者轉交到其他應用程序做進一步的處理。XML提供了一個獨立的運用程序的方法來共享數據,使用DTD,不同的組中的人就能夠使用共同的DTD來交換數據。你的應用程序可以使用這個標準的DTD來驗證你接受到的數據是否有效,你也可以使用一個DTD來驗證你自己的數據。
(4)國際化。標準國際化,且支持世界上大多數文字。這源于依靠它的統一代碼的新的編碼標準,這種編碼標準支持世界上所有以主要語言編寫的混合文本。在HTML中,就大多數字處理而言,一個文檔一般是用一種特殊語言寫成的,不管是英語,還是日語或阿拉伯語,如果用戶的軟件不能閱讀特殊語言的字符,那么他就不能使用該文檔。但是能閱讀XML語言的軟件就能順利處理這些不同語言字符的任意組合。因此,XML不僅能在不同的計算機系統之間交換信息,而且能跨國界和超越不同文化疆界交換信息。
3.XML在Web數據挖掘中的應用
XML已經成為正式的規范,開發人員能夠用XML的格式標記和交換數據。XML在三層架構上為數據處理提供了很好的方法。使用可升級的三層模型,XML可以從存在的數據中產生出來,使用XML結構化的數據可以從商業規范和表現形式中分離出來。
促進XML應用的是那些用標準的HTML無法完成的Web應用。這些應用從大的方面講可以被分成以下四類:需要Web客戶端在兩個或更多異質數據庫之間進行通信的應用;試圖將大部分處理負載從Web服務器轉到Web客戶端的應用;需要Web客戶端將同樣的數據以不同的瀏覽形式提供給不同的用戶的應用;需要智能Web代理根據個人用戶的需要裁減信息內容的應用。顯而易見,這些應用和Web的數據挖掘技術有著重要的聯系,基于Web的數據挖掘必須依靠它們來實現。
XML給基于Web的應用軟件賦予了強大的功能和靈活性,因此它給開發者和用戶帶來了許多好處。比如進行更有意義的搜索,并且Web數據可被XML唯一地標識。沒有XML,搜索軟件必須了解每個數據庫是如何構建的,但這實際上是不可能的,因為每個數據庫描述數據的格式幾乎都是不同的。由于不同來源數據的集成問題的存在,現在搜索多樣的不兼容的數據庫實際上是不可能的。XML能夠使不同來源的結構化的數據很容易地結合在一起。軟件代理商可以在中間層的服務器上對從后端數據庫和其它應用處來的數據進行集成。然后,數據就能被發送到客戶或其他服務器做進一步的集合、處理和分發。XML的擴展性和靈活性允許它描述不同種類應用軟件中的數據,從描述搜集的Web頁到數據記錄,從而通過多種應用得到數據。同時,由于基于XML的數據是自我描述的,數據不需要有內部描述就能被交換和處理。利用XML,用戶可以方便地進行本地計算和處理,XML格式的數據發送給客戶后,客戶可以用應用軟件解析數據并對數據進行編輯和處理。使用者可以用不同的方法處理數據,而不僅僅是顯示它。XML文檔對象模式(DOM)允許用腳本或其他編程語言處理數據,數據計算不需要回到服務器就能進行。XML可以被利用來分離使用者觀看數據的界面,使用簡單靈活開放的格式,可以給Web創建功能強大的應用軟件,而原來這些軟件只能建立在高端數據庫上。另外,數據發到桌面后,能夠用多種方式顯示。
XML還可以通過以簡單開放擴展的方式描述結構化的數據,XML補充了HTML,被廣泛地用來描述使用者界面。HTML描述數據的外觀,而XML描述數據本身。由于數據顯示與內容分開,XML定義的數據允許指定不同的顯示方式,使數據更合理地表現出來。本地的數據能夠以客戶配置、使用者選擇或其他標準決定的方式動態地表現出來。CSS和XSL為數據的顯示提供了公布的機制。通過XML,數據可以粒狀地更新。每當一部分數據變化后,不需要重發整個結構化的數據。變化的元素必須從服務器發送給客戶,變化的數據不需要刷新整個使用者的界面就能夠顯示出來。但在目前,只要一條數據變化了,整一頁都必須重建。這嚴重限制了服務器的升級性能。XML也允許加進其他數據,比如預測的溫度。加入的信息能夠進入存在的頁面,不需要瀏覽器重新發一個新的頁面。XML應用于客戶需要與不同的數據源進行交互時,數據可能來自不同的數據庫,它們都有各自不同的復雜格式。但客戶與這些數據庫間只通過一種標準語言進行交互,那就是XML。由于XML的自定義性及可擴展性,它足以表達各種類型的數據。客戶收到數據后可以進行處理,也可以在不同數據庫間進行傳遞。總之,在這類應用中,XML解決了數據的統一接口問題。但是,與其他的數據傳遞標準不同的是,XML并沒有定義數據文件中數據出現的具體規范,而是在數據中附加TAG來表達數據的邏輯結構和含義。這使XML成為一種程序能自動理解的規范。
XML應用于將大量運算負荷分布在客戶端,即客戶可根據自己的需求選擇和制作不同的應用程序以處理數據,而服務器只須發出同一個XML文件。如按傳統的“Client/Server”工作方式,客戶向服務器發出不同的請求,服務器分別予以響應,這不僅加重服務器本身的負荷,而且網絡管理者還須事先調查各種不同的用戶需求以做出相應不同的程序,但假如用戶的需求繁雜而多變,則仍然將所有業務邏輯集中在服務器端是不合適的,因為服務器端的編程人員可能來不及滿足眾多的應用需求,也來不及跟上需求的變化,雙方都很被動。應用XML則將處理數據的主動權交給了客戶,服務器所作的只是盡可能完善、準確地將數據封裝進XML文件中,正是各取所需、各司其職。XML的自解釋性使客戶端在收到數據的同時也理解數據的邏輯結構與含義,從而使廣泛、通用的分布式計算成為可能。
XML還被應用于網絡代理,以便對所取得的信息進行編輯、增減以適應個人用戶的需要。有些客戶取得數據并不是為了直接使用而是為了根據需要組織自己的數據庫。比方說,教育部門要建立一個龐大的題庫,考試時將題庫中的題目取出若干組成試卷,再將試卷封裝進XML文件,接下來在各個學校讓其通過一個過濾器,濾掉所有的答案,再發送到各個考生面前,未經過濾的內容則可直接送到老師手中,當然考試過后還可以再傳送一份答案匯編。此外,XML文件中還可以包含進諸如難度系數、往年錯誤率等其他相關信息,這樣只需幾個小程序,同一個XML文件便可變成多個文件傳送到不同的用戶手中。
面向
Web
的數據挖掘是一項復雜的技術,由于
Web
數據挖掘比單個數據倉庫的挖掘要復雜的多,因而面向
Web
的數據挖掘成了一個難以解決的問題。而
XML
的出現為解決
Web
數據挖掘的難題帶來了機會。由于
XML
能夠使不同來源的結構化的數據很容易地結合在一起,因而使搜索多樣的不兼容的數據庫能夠成為可能,從而為解決
Web
數據挖掘難題帶來了希望。
XML
的擴展性和靈活性允許
XML
描述不同種類應用軟件中的數據,從而能描述搜集的
Web
頁中的數據記錄。同時,由于基于
XML
的數據是自我描述的,數據不需要有內部描述就能被交換和處理。作為表示結構化數據的一個工業標準,
XML
為組織、軟件開發者、
Web
站點和終端使用者提供了許多有利條件。相信在以后,隨著
XML
作為在
Web
上交換數據的一種標準方式的出現,面向
Web
的數據挖掘將會變得非常輕松。
需要強調的是,數據挖掘技術從一開始就是面向應用的。
目前,在很多領域,數據挖掘(data mining)都是一個很時髦的詞,尤其是在如銀行、電信、保險、交通、零售(如超級市場)等商業領域。數據挖掘所能解決的典型商業問題包括:數據庫營銷(Database Marketing)、客戶群體劃分(Customer Segmentation & Classification)、背景分析(Profile Analysis)、交叉銷售(Cross-selling)等市場分析行為,以及客戶流失性分析(Churn Analysis)、客戶信用記分(Credit Scoring)、欺詐發現(Fraud Detection)等等。
12. 2
數據挖掘在市場營銷的應用
數據挖掘技術在企業市場營銷中得到了比較普遍的應用,它是以市場營銷學的市場細分原理為基礎,其基本假定是“消費者過去的行為是其今后消費傾向的最好說明”。 f'偉)狃0蕨 ?
通過收集、加工和處理涉及消費者消費行為的大量信息,確定特定消費群體或個體的興趣、消費習慣、消費傾向和消費需求,進而推斷出相應消費群體或個體下一步的消費行為,然后以此為基礎,對所識別出來的消費群體進行特定內容的定向營銷,這與傳統的不區分消費者對象特征的大規模營銷手段相比,大大節省了營銷成本,提高了營銷效果,從而為企業帶來更多的利潤。
商業消費信息來自市場中的各種渠道。例如,每當我們用信用卡消費時,商業企業就可以在信用卡結算過程收集商業消費信息,記錄下我們進行消費的時間、地點、感興趣的商品或服務、愿意接收的價格水平和支付能力等數據;當我們在申辦信用卡、辦理汽車駕駛執照、填寫商品保修單等其他需要填寫表格的場合時,我們的個人信息就存入了相應的業務數據庫;企業除了自行收集相關業務信息之外,甚至可以從其他公司或機構購買此類信息為自己所用。 |<???蚉b ?
這些來自各種渠道的數據信息被組合,應用超級計算機、并行處理、神經元網絡、模型化算法和其他信息處理技術手段進行處理,從中得到商家用于向特定消費群體或個體進行定向營銷的決策信息。這種數據信息是如何應用的呢?舉一個簡單的例子,當銀行通過對業務數據進行挖掘后,發現一個銀行帳戶持有者突然要求申請雙人聯合帳戶時,并且確認該消費者是第一次申請聯合帳戶,銀行會推斷該用戶可能要結婚了,它就會向該用戶定向推銷用于購買房屋、支付子女學費等長期投資業務,銀行甚至可能將該信息賣給專營婚慶商品和服務的公司。數據挖掘構筑競爭優勢。 設Z Q?埤2 ?
在市場經濟比較發達的國家和地區,許多公司都開始在原有信息系統的基礎上通過數據挖掘對業務信息進行深加工,以構筑自己的競爭優勢,擴大自己的營業額。美國運通公司(American Express)有一個用于記錄信用卡業務的數據庫,數據量達到54億字符,并仍在隨著業務進展不斷更新。運通公司通過對這些數據進行挖掘,制定了“關聯結算(Relation ship Billing)優惠”的促銷策略,即如果一個顧客在一個商店用運通卡購買一套時裝,那么在同一個商店再買一雙鞋,就可以得到比較大的折扣,這樣既可以增加商店的銷售量,也可以增加運通卡在該商店的使用率。再如,居住在倫敦的持卡消費者如果最近剛剛乘英國航空公司的航班去過巴黎,那么他可能會得到一個周末前往紐約的機票打折優惠卡。
基于數據挖掘的營銷,常常可以向消費者發出與其以前的消費行為相關的推銷材料。卡夫(Kraft)食品公司建立了一個擁有3000萬客戶資料的數據庫,數據庫是通過收集對公司發出的優惠券等其他促銷手段作出積極反應的客戶和銷售記錄而建立起來的,卡夫公司通過數據挖掘了解特定客戶的興趣和口味,并以此為基礎向他們發送特定產品的優惠券,并為他們推薦符合客戶口味和健康狀況的卡夫產品食譜。美國的讀者文摘(Reader's Digest)出版公司運行著一個積累了40年的業務數據庫,其中容納有遍布全球的一億多個訂戶的資料,數據庫每天24小時連續運行,保證數據不斷得到實時的更新,正是基于對客戶資料數據庫進行數據挖掘的優勢,使讀者文摘出版公司能夠從通俗雜志擴展到專業雜志、書刊和聲像制品的出版和發行業務,極大地擴展了自己的業務。
基于數據挖掘的營銷對我國當前的市場競爭中也很具有啟發意義,我們經常可以看到繁華商業街上一些廠商對來往行人不分對象地散發大量商品宣傳廣告,其結果是不需要的人隨手丟棄資料,而需要的人并不一定能夠得到。如果搞家電維修服務的公司向在商店中剛剛購買家電的消費者郵寄維修服務廣告,賣特效藥品的廠商向醫院特定門診就醫的病人郵寄廣告,肯定會比漫無目的的營銷效果要好得多。
1 電話收費和管理辦法
加拿大BC省電話公司要求加拿大Simon Fraser大學KDD研究組根據其擁有的十多年的客戶數據,總結、分析并提出新的電話收費和管理辦法,制定既有利于公司又有利于客戶的優惠政策。
2 競技運動中的數據挖掘
美國著名的國家籃球隊NBA的教練,利用IBM公司提供的數據挖掘工具臨場決定替換隊員。想象你是NBA的教練,你靠什么帶領你的球隊取得勝利呢?當然,最容易想到的是全場緊逼、交叉扯動和快速搶斷等具體的戰術和技術。但是今天,NBA的教練又有了他們的新式武器:數據挖掘。大約20個NBA球隊使用了IBM公司開發的數據挖掘應用軟件Advanced Scout系統來優化他們的戰術組合。例如Scout就因為研究了魔術隊隊員不同的布陣安排,在與邁阿密熱隊的比賽中找到了獲勝的機會。
----
系統分析顯示魔術隊先發陣容中的兩個后衛安佛尼.哈德衛(Anfernee Hardaway)和伯蘭.紹(Brian Shaw)在前兩場中被評為-17分,這意味著他倆在場上,本隊輸掉的分數比得到的分數多17分。然而,當哈德衛與替補后衛達利爾.阿姆斯創(Darrell Armstrong)組合時,魔術隊得分為正14分。
----
在下一場中,魔術隊增加了阿姆斯創的上場時間。此著果然見效:阿姆斯創得了21分,哈德衛得了42分,魔術隊以88比79獲勝。魔術隊在第四場讓阿姆斯創進入先發陣容,再一次打敗了熱隊。在第五場比賽中,這個靠數據挖掘支持的陣容沒能拖住熱隊,但Advanced Scout畢竟幫助了魔術隊贏得了打滿5場,直到最后才決出勝負的機會。
----
Advanced Scout是一個數據分析工具,教練可以用便攜式電腦在家里或在路上挖掘存儲在NBA中心的服務器上的數據。每一場比賽的事件都被統計分類,按得分、助攻、失誤等等。時間標記讓教練非常容易地通過搜索NBA比賽的錄像來理解統計發現的含義。例如:教練通過Advanced Scout發現本隊的球員在與對方一個球星對抗時有犯規紀錄,他可以在對方球星與這個隊員“頭碰頭”的瞬間分解雙方接觸的動作,進而設計合理的防守策略。
----
Advanced Scout的開發人,因德帕爾.布罕德瑞,開發該應用時他正在IBM的ThomasJ.Watson研究中心當研究員,他演示了一個技術新手應該如何使用數據挖掘。布罕德瑞說:“教練們可以完全沒有統計學的培訓,但他們可以利用數據挖掘制定策略”。與此同時,另一個正式的體育聯盟,國家曲棍球聯盟,正在開發自己的數據挖掘應用NHL-ICE,聯盟與IBM建立了一個技術型的合資公司,去年11月推出一個電子實時的比賽計分和統計系統。在原理上是一個與Advanced Scout相似的數據挖掘應用,可以讓教練、廣播員、新聞記者及球迷挖掘NHL的統計。當他們訪問NHL的Web站點時,球迷能夠使用該系統循環看聯盟的比賽,同時廣播員和新聞記者可以挖掘統計數據,找花邊新聞為他們的實況評述添油加醋。
----
當然,所有系統都有其局限性。所以不要期望這樣的數據挖掘可以幫助一支球隊找到贏得足球世界杯的策略。
3
數據挖掘技術在商業銀行中的應用
金融事務需要搜集和處理大量的數據,由于銀行在金融領域的地位、工作性質、業務特點以及激烈的市場競爭決定了它對信息化、電子化比其它領域有更迫切的要求。利用數據挖掘技術可以幫助銀行產品開發部門描述客戶以往的需求趨勢,并預測未來。美國商業銀行是發達國家商業銀行的典范,許多地方值得我國學習和借鑒。
數據挖掘技術在美國銀行金融領域應用廣泛。金融事務需要搜集和處理大量數據,對這些數據進行分析,發現其數據模式及特征,然后可能發現某個客戶、消費群體或組織的金融和商業興趣,并可觀察金融市場的變化趨勢。商業銀行業務的利潤和風險是共存的。為了保證最大的利潤和最小的風險,必須對帳戶進行科學的分析和歸類,并進行信用評估。
Mellon
銀行使用
Intelligent Agent
數據挖掘軟件提高銷售和定價金融產品的精確度,如家庭普通貸款。零售信貸客戶主要有兩類,一類很少使用信貸限額(低循環者),另一類能夠保持較高的未清余額(高循環者)。每一類都代表著銷售的挑戰。低循環者代表缺省和支出注銷費用的危險性較低,但會帶來極少的凈收入或負收入,因為他們的服務費用幾乎與高循環者的相同。銀行常常為他們提供項目,鼓勵他們更多地使用信貸限額或找到交叉銷售高利潤產品的機會。高循環者由高和中等危險元件構成。高危險分段具有支付缺省和注銷費用的潛力。對于中等危險分段,銷售項目的重點是留住可獲利的客戶并爭取能帶來相同利潤的新客戶。但根據新觀點,用戶的行為會隨時間而變化。分析客戶整個生命周期的費用和收入就可以看出誰是最具創利潛能的。
Mellon
銀行認為“根據市場的某一部分進行定制”能夠發現最終用戶并將市場定位于這些用戶。但是,要這么做就必須了解關于最終用戶特點的信息。數據挖掘工具為
Mellon
銀行提供了獲取此類信息的途徑。
Mellon
銀行銷售部在先期數據挖掘項目上使用
Intelligence Agent
尋找信息,主要目的是確定現有
Mellon
用戶購買特定附加產品:家庭普通信貸限額的傾向,利用該工具可生成用于檢測的模型。據銀行官員稱:
Intelligence Agent
可幫助用戶增強其商業智能,如交往、分類或回歸分析,依賴這些能力,可對那些有較高傾向購買銀行產品、服務產品和服務的客戶進行有目的的推銷。該官員認為,該軟件可反饋用于分析和決策的高質量信息,然后將信息輸入產品的算法。
Intelligence Agent
還有可定制能力。
美國
Firstar
銀行使用
Marksman
數據挖掘工具,根據客戶的消費模式預測何時為客戶提供何種產品。
Firstar
銀行市場調查和數據庫營銷部經理發現:公共數據庫中存儲著關于每位消費者的大量信息,關鍵是要透徹分析消費者投入到新產品中的原因,在數據庫中找到一種模式,從而能夠為每種新產品找到最合適的消費者。
Marksman
能讀取
800
到
1000
個變量并且給它們賦值,根據消費者是否有家庭財產貸款、賒帳卡、存款證或其它儲蓄、投資產品,將它們分成若干組,然后使用數據挖掘工具預測何時向每位消費者提供哪種產品。預測準客戶的需要是美國商業銀行的競爭優勢。
4 因特網篩選
最近,還有不少DMKD產品用來篩選因特網上的新聞,保護用戶不受無聊電子郵件和商業推銷的干擾,很受歡迎。
談到數據挖掘應從以下三方面加以考慮,一是用數據挖掘解決什么樣的商業問題,二是為進行數據挖掘所做的數據準備,三是數據挖掘的各種分析算法。
數據挖掘的分析算法主要來自于以下兩個方面:統計分析和人工智能(機器學習、模式識別等)。數據挖掘研究人員和數據挖掘軟件供應商,在這一方面所做的主要工作是優化現有的一些算法,以適應大數據量。另外需要強調的是,任何一種數據挖掘的算法,不管是統計分析方法、神經元網絡、各種樹分析方法,還是遺傳算法,沒有一種算法是萬能的。不同的商業問題,需要用不同的方法去解決。即使對于同一個商業問題,可能有多種算法,這個時候,也需要評估對于這一特定問題和特定數據哪一種算法表現好。
做數據挖掘研究的人,往往把主要的精力用于改進現有算法和研究新算法上。人們都知道數據準備是必不可少的一步,但很少有人去真正花時間和精力去研究。其實數據挖掘最后成功與失敗,是否有經濟效益,數據準備起到了至關重要的作用。數據準備包含很多方面:一是從多種數據源去綜合數據挖掘所需要的數據,保證數據的綜合性、易用性、數據的質量和數據的時效性,這有可能要用到數據倉庫的思想和技術;另一方面就是如何從現有數據中衍生出所需要的指標,這主要取決于數據挖掘者的分析經驗和工具的方便性。
眾所周知,SQL是廣泛用于數據庫查詢的語言,有很多數據挖掘軟件提供商利用SQL來為數據挖掘做數據準備,但就筆者多年來的分析經驗和同其他專家探討感覺到,SQL在很多時候有些力不從心,因為數據挖掘和分析的一些算法通常要求數據具有一定的格式和規范性。
還需要強調的一點是,人們通常把數據挖掘工具看得過份神秘,認為只要有了一個數據挖掘工具,就能自動挖掘出所需要的信息,就能更好地進行企業運作,這是認識上的一個誤區。其實要想真正做好數據挖掘,數據挖掘工具只是其中的一個方面,同時還需要對企業業務的深入了解和數據分析經驗。一個企業要想在未來的市場中具有競爭力,必須有一些數據挖掘方面的專家,專門從事數據分析和數據挖掘工作。再同其他部門協調,把挖掘出來的信息供管理者決策參考,最后把挖掘出的知識物化。在國內的企業中,還很少有決策人員認識到這一點。如果管理者沒有這方面的意識,數據挖掘和數據分析就很難發揮應有的作用,很容易走向兩個極端,一是認為數據挖掘沒有用處,二是開始認為數據挖掘是萬能的。如此得到的結果往往與初始期望相去太遠。
1.
超大規模數據庫和高維數據問題;
2.
數據丟失問題;
3.
變化的數據和知識問題;
4.
模式的易懂性問題;
5.
非標準格式的數據、多媒體數據、面向對象數據處理問題;
6.
與其他系統的集成問題;
7.
網絡與分布式環境下的KDD問題。
8.
個人隱私問題
當然數據挖掘也會帶來一些社會問題,其中最敏感的要屬個人隱私問題。當消費者感覺到他們的個人信息被非授權使用、濫用甚至出賣時,他們會感到他們的個人隱私受到了嚴重侵害。例如,在西方有的警察為了防止來自罪犯的報復,往往要注意保守自己家庭地址和電話號碼不被泄露,但當他的新生嬰兒在醫院出生后,醫院可能會將相應的信息出賣給專營新生兒用品或服務的公司,使他全然失去安全感。也許當你用信用卡為你妻子的婦科診療付費后,你會回家后收到來自保險公司的婦科保險征訂單、來自廠商的婦科保健用品廣告等,你會如何感受?正是由于這種狀況,在有些發達國家,許多人認為政府和商業機構對他們個人的事知道得太多了,為此,他們寧可放棄使用信用卡消費。
凡是有該標志的文章,都是該blog博主Caoer(草兒)原創,凡是索引、收藏
、轉載請注明來處和原文作者。非常感謝。