根據(jù)Bill Inmon對數(shù)據(jù)倉庫的概括,數(shù)據(jù)倉庫由以下幾個部分構(gòu)成:數(shù)據(jù)的收集 、數(shù)據(jù)存儲和管理、聯(lián)機分析處理和決策支持開發(fā)應(yīng)用環(huán)境。除各個 部分硬件平臺的選擇,對數(shù)據(jù)倉庫的基礎(chǔ)設(shè)施的選擇,也就是對以下四個部分各種軟件的選擇。
1、數(shù)據(jù)的收集--數(shù)據(jù)的抽取、轉(zhuǎn)換和裝載(ETL)
數(shù)據(jù)的收集--從原有的系統(tǒng)中有效地、高效地抽取、凈化、轉(zhuǎn)換和裝載數(shù)據(jù)的問題,在數(shù)據(jù)倉庫的建立過程中,已變得日益突出。當(dāng)數(shù)據(jù)倉庫的數(shù)據(jù)量非常大的時候,數(shù)據(jù)收集的高效性就變得更加必要,否則就會加大客戶的投資。
采用什么樣的方案來滿足ETL的要求,以支持商務(wù)和環(huán)境所要求的數(shù)據(jù)倉庫、數(shù)據(jù)庫合并和系統(tǒng)主題重構(gòu)就成為用戶選擇的問題。
1)Programming (手工編程)
2)Program Generator(編程源)(如COBOL編程)
3)TOOL(工具)模塊化(批處理方式)如:Ardent公司的Infomoter產(chǎn)品
早期的ETL操作都第一種或第二種方式來實現(xiàn)的,現(xiàn)在ETL工具是數(shù)據(jù)收集的主流。現(xiàn)在用戶所要決策的已不再是關(guān)于技術(shù)方面的選擇,而更多是關(guān)于管理方面的選擇,如:
快捷解決方案--目的是盡可能快地獲得信息;
系統(tǒng)解決方案--平滑地、有效地、高效地實現(xiàn)ETL處理過程。
事實上,這兩個方面都很需要考慮。 在數(shù)據(jù)倉庫初始建立的時候, 或是時間緊急的項目,快速解決方案會被認(rèn)為非常有效。它會作為一種嘗試或模型建立,以后便會產(chǎn)生出更多的系統(tǒng)的解決方案。所以,系統(tǒng)的數(shù)據(jù)抽取和轉(zhuǎn)換的方案將會適應(yīng)大多數(shù)問題,如:數(shù)據(jù)質(zhì)量。
以下列舉商務(wù)需求和條件的問題,會對用戶在ETL工具上的選擇提供一些幫助:
對系統(tǒng)數(shù)據(jù)的知識基礎(chǔ)是否充分;
數(shù)據(jù)抽取/裝載操作是一次完成,還是不斷/反復(fù)操作;
關(guān)注的焦點是數(shù)據(jù)內(nèi)涵的質(zhì)量,還是補償式的傳遞數(shù)據(jù);
數(shù)據(jù)質(zhì)量問題是特殊性的(例如是針對客戶或銷售額),還是普遍性的);
使用現(xiàn)成集成套件工具,還是自己有針對性的開發(fā);
數(shù)據(jù)抽取/轉(zhuǎn)換是集中管理,還是分布管理;
數(shù)據(jù)抽取/轉(zhuǎn)換是通過參數(shù)控制,還是編程控制。
2、OLAP--聯(lián)機分析處理
OLTP系統(tǒng)中的數(shù)據(jù)處理是高度結(jié)構(gòu)化的、復(fù)雜數(shù)據(jù)模型操作,每一次事務(wù)處理通常只涉及一兩張表,并且只對一行記錄進(jìn)行操作。這說明復(fù)雜的表關(guān)系不會影響到系統(tǒng)的性能、DSS處理,正相反,它的一次操作要涉及幾百張表的上千行數(shù)據(jù)。在這種情況下,復(fù)雜的表連接會嚴(yán)重影響性能。所以 , 性 能 是 傳 統(tǒng) 的 實 體 - 關(guān)系(ER)模型不能滿足決策支持環(huán)境的重要原因之一。
第二個原因,典型的ER模式過于復(fù)雜且難以導(dǎo)航。在OLTP系統(tǒng)中,這不是一個問題,使用和訪問數(shù)據(jù)的路徑非常明了,應(yīng)用可以硬編碼來使用特殊的數(shù)據(jù)結(jié)構(gòu)。但在DSS環(huán)境下,數(shù)據(jù)的使用是非結(jié)構(gòu)化的;用戶僅僅在分析的時候才查找有關(guān)數(shù)據(jù),這個查找條件是隨機的。
由于傳統(tǒng)的數(shù)據(jù)分析軟件不適用于動態(tài)數(shù)據(jù)分析,而關(guān)系數(shù)據(jù)庫雖然具有一定的數(shù)據(jù)視圖選取和比較、綜合的能力,但它仍然受到數(shù)據(jù)分析能力局限性的制約,所以產(chǎn)生了一種針對特定問題的聯(lián)機數(shù)據(jù)訪問和數(shù)據(jù)分析的技術(shù),E. F. Codd將這種技術(shù)定義為"OTAP",并定義了十二條評價OLAP產(chǎn)品的準(zhǔn)則 ,即:
1)OLAP模型必須提供多維概念視圖;
2)透明性準(zhǔn)則;
3)存取能力準(zhǔn)則;
4)穩(wěn)定的報表性能;
5)客戶/服務(wù)器體系結(jié)構(gòu);
6)維的等同性準(zhǔn)則;
7)動態(tài)稀疏矩陣處理準(zhǔn)則;
8)多用戶支持能力準(zhǔn)則;
9)非受限的跨維操作;
10)直觀的數(shù)據(jù)處理;
11)靈活地生成報表;
12)非受限的維與維的層次 。
現(xiàn)在市場中有很多OLAP產(chǎn)品和工具,以多維立方體(cube)的存放(管理)在整個數(shù)據(jù)倉庫系統(tǒng)的位置劃分,可分為三類:
1)客戶端(MicroCube);
2)多維數(shù)據(jù)庫服務(wù)器(MDDB)(HyperCube);
3)關(guān)系數(shù)據(jù)庫服務(wù)器(ROLAP)。
第一種利用查詢工具對Cube進(jìn)入管理,但這僅適用于簡單的二維查詢報告。
MDDB和ROLAP都允許用戶從多個觀察角度來定義和查詢數(shù)據(jù),但由于ROLAP技術(shù)與關(guān)系數(shù)據(jù)庫的緊密結(jié)合,在存儲和管理能力上、在適應(yīng)性方面,ROLAP要比MDDB具有更強"魯棒"性。例如:一個3×3×3的立方體,(每維有3個維成員的三維Cube),共有27個數(shù)據(jù)單元。若根據(jù)分析需要,在每一維 上 增 加 一 個 新 的 維 成 員 , 則 該 邏 輯 立 方 體 (Cube) 變成4×4×4,共64個數(shù)據(jù)單 元。所以,如果沒有很強的數(shù)據(jù)存儲和管理能力,是不能勝任和適應(yīng)復(fù)雜的分析環(huán)境。
3 數(shù)據(jù)庫服務(wù)器
數(shù)據(jù)倉庫或數(shù)據(jù)集市與一般數(shù)據(jù)庫應(yīng)用比較而言,在規(guī)模上和數(shù)據(jù)量上要大得多。Gartner集團的有關(guān)報告說,"數(shù)據(jù)倉庫最少也要支持幾百個用戶,查詢范圍從簡單的索引檢查到復(fù)雜的對比分析。"目前的數(shù)據(jù)倉庫的數(shù)據(jù)量已經(jīng)超過了千千兆字節(jié)(TB)級。所以,關(guān)系數(shù)據(jù)庫服務(wù)器無疑是數(shù)據(jù)倉庫的核心。
在數(shù)據(jù)倉庫中數(shù)據(jù)庫的關(guān)鍵技術(shù)規(guī)納如下:
開放的動態(tài)可伸縮體系結(jié)構(gòu);
數(shù)據(jù)庫并行數(shù)據(jù)操作的能力;
對并行硬臺環(huán)境的支持能力;
針對決策支持的增強特性;
服務(wù)器的可靠性、可用性和可服務(wù)性(RAS);
新的商務(wù)邏輯的擴展性;
高度靈活性(Windows NT、UNIX);
多用戶的支持。
4 工具
實現(xiàn)數(shù)據(jù)倉庫的最終目的是響應(yīng)用戶的要求,如資深的財務(wù)、商務(wù)分析員和行業(yè)銷售等,他們要訪問企業(yè)的分析數(shù)據(jù)或信息而作出更好的商業(yè)決策,大多數(shù)客戶不僅要求直接訪問企業(yè)數(shù)據(jù),他們還要求在數(shù)據(jù)倉庫不斷增長的時候,減少查詢的復(fù)雜性并加快查詢的速度和分析的速度。那么什么工具能夠幫助最終用戶訪問數(shù)據(jù)呢?
電子數(shù)據(jù)表(如:Microsoft Excel)
個人數(shù)據(jù)庫(如:Lotus Approch)
查詢和報告工具(如:Brio Intelligence、Business Objects)
EIS/DSS鉆取/導(dǎo)航工具(如:Brio Intelligence、Coguos Powerplay)
多維分析/ROLAP(如:Informix Metacube)
(注:目前,電子數(shù)據(jù)表增長緩慢,多維分析/ROLAP日益受到青睞)
數(shù)據(jù)倉庫的訪問工具目前增長迅速,而且種類豐富。所以,用戶可根據(jù)自己的應(yīng)用要求和應(yīng)用展示數(shù)據(jù)的風(fēng)格來選擇不同的訪問工具。因此,要求數(shù)據(jù)倉庫解決方案對訪問工具必須采取開放的策略,才能滿足用戶的真正要求。
5 數(shù)據(jù)挖掘(Data Mining)或數(shù)據(jù)庫知識發(fā)現(xiàn)(KDD-Knowledge Discovery Database)
現(xiàn)代企業(yè)總是想在保留住原有用戶的基礎(chǔ)上,開發(fā)新的用戶,數(shù)據(jù)倉庫已經(jīng)成為這些企業(yè)的關(guān)鍵業(yè)務(wù)應(yīng)用。它們利用數(shù)據(jù)倉庫在產(chǎn)品、價格、投資、分配等方面,基于事實而不是基于管理直覺地作出決策。但是如何從浩如煙海的企業(yè)信息資料庫中擠壓出更有價值的信息,答案就是數(shù)據(jù)挖掘。人們試圖在數(shù)據(jù)對等的、不明顯的和不可預(yù)知的模式中發(fā)現(xiàn)信息的模式、趨勢以及關(guān)系。有一點必須強調(diào):數(shù)據(jù)挖掘是建立數(shù)據(jù)倉庫之上的決策技術(shù)。
對數(shù)據(jù)挖掘的定義通常是這樣的:
數(shù)據(jù)挖掘或數(shù)據(jù)庫知識發(fā)現(xiàn)是從數(shù)據(jù)中找出隱含的、預(yù)先未知的和潛在的有用信息的專門抽取操作。它包含大量不同的技術(shù)手段,如聚集、數(shù)據(jù)總計、學(xué)習(xí)分類規(guī)則、發(fā)現(xiàn)絕對工作的依賴性、分析變化和異常偵測。
下圖描述了在數(shù)據(jù)挖掘和知識發(fā)現(xiàn)過程中不同階段和處理的標(biāo)識。
收集--根據(jù)某些標(biāo)準(zhǔn)收集或截取數(shù)據(jù)記錄。
預(yù)處理--這是數(shù)據(jù)清洗階段,在這個階段將那樣認(rèn)為不必要的信息刪除,并將所需數(shù)據(jù)配制成一致的數(shù)據(jù)格式。
轉(zhuǎn)換--將數(shù)據(jù)傳輸,并轉(zhuǎn)換成帶有標(biāo)識(overlay)的數(shù)據(jù),使數(shù)據(jù)變得可用和可導(dǎo)航。
數(shù)據(jù)挖掘--這是從數(shù)據(jù)中做模式抽取的階段。
解決與評估--經(jīng)系統(tǒng)標(biāo)識的模式被解釋成能在將來領(lǐng)導(dǎo)決策的知識。
范疇分析支持?jǐn)?shù)據(jù)挖掘的兩個主要階段:建立模型和預(yù)測未來結(jié)果。簡單的說,一個模型就是闡明輸入對輸出影響的數(shù)學(xué)公式。由于它是數(shù)學(xué)公式,所以它可以通過對基本數(shù)據(jù)不斷理解的交互處理而不斷提煉和調(diào)整,達(dá)到可以接受的精確程度。在決策過程中,決策者提出的問題千差萬別,解決問題的方法論也就各不相同,因此,可以使用很多技術(shù)建立這些模型。
統(tǒng)計分析--最早使用的,并且最容易理解的技術(shù)。
神經(jīng)網(wǎng)絡(luò)--隨著近幾年人工智能工具的流行,人們試圖通過數(shù)學(xué)的方法來模仿人腦認(rèn)知工作過程。
決策樹--是一種概念簡單(if-then)的數(shù)學(xué)方法。
遺傳算法--該技術(shù)來自于對微生物通過自然的選擇和遺傳的結(jié)合如何進(jìn)化的研究。
模糊邏輯--簡單地說,是一種對數(shù)學(xué)公式新的理解方法。(例如,將"大約6倍的2估算為12"代替6×2=12)
基于記憶的推理(memory-Based Reasoning)--它是一種通過與已經(jīng)分類的同類記錄比較,給數(shù)據(jù)庫中的記錄分類的技術(shù)。因此,它也被稱為K-最互鄰(KNN:k-newest-neightor)技術(shù)。
混合方法--將各種不同的方法按分析需要混合使用。
http://www.ibcc.com.cn/bbs/replytopic.asp?TOPIC_ID=42&replyno=3329&Forum_ID=58