????
??? 數(shù)據(jù)源:是數(shù)據(jù)倉庫系統(tǒng)的基礎(chǔ),是整個系統(tǒng)的數(shù)據(jù)源泉。通常包括企業(yè)內(nèi)部信息和外部信息。內(nèi)部信息包括存放于企業(yè)操作型數(shù)據(jù)庫中(通常存放在
RDBMS
中)的各種業(yè)務(wù)數(shù)據(jù)和辦公自動化(
OA
)系統(tǒng)包含的各類文檔數(shù)據(jù)。外部信息包括各類法律法規(guī)、市場信息、競爭對手的信息以及各類外部統(tǒng)計數(shù)據(jù)及各類文檔等;
????數(shù)據(jù)的存儲與管理:是整個數(shù)據(jù)倉庫系統(tǒng)的核心。在現(xiàn)有各業(yè)務(wù)系統(tǒng)的基礎(chǔ)上,對數(shù)據(jù)進行抽取、清理,并有效集成,按照主題進行重新組織,最終確定數(shù)據(jù)倉庫的物理存儲結(jié)構(gòu),同時組織存儲數(shù)據(jù)倉庫元數(shù)據(jù)(具體包括數(shù)據(jù)倉庫的數(shù)據(jù)字典、記錄系統(tǒng)定義、數(shù)據(jù)轉(zhuǎn)換規(guī)則、數(shù)據(jù)加載頻率以及業(yè)務(wù)規(guī)則等信息)。按照數(shù)據(jù)的覆蓋范圍,數(shù)據(jù)倉庫存儲可以分為企業(yè)級數(shù)據(jù)倉庫和部門級數(shù)據(jù)倉庫(通常稱為“數(shù)據(jù)集市”,Data Mart)。數(shù)據(jù)倉庫的管理包括數(shù)據(jù)的安全、歸檔、備份、維護、恢復(fù)等工作。這些功能與目前的DBMS基本一致。
????OLAP服務(wù)器:對分析需要的數(shù)據(jù)按照多維數(shù)據(jù)模型進行再次重組,以支持用戶多角度、多層次的分析,發(fā)現(xiàn)數(shù)據(jù)趨勢。其具體實現(xiàn)可以分為:ROLAP、MOLAP和HOLAP。ROLAP基本數(shù)據(jù)和聚合數(shù)據(jù)均存放在RDBMS之中;MOLAP基本數(shù)據(jù)和聚合數(shù)據(jù)均存放于多維數(shù)據(jù)庫中;而HOLAP是ROLAP與MOLAP的綜合,基本數(shù)據(jù)存放于RDBMS之中,聚合數(shù)據(jù)存放于多維數(shù)據(jù)庫中。
??
?
前端工具與應(yīng)用:前端工具主要包括各種數(shù)據(jù)分析工具、報表工具、查詢工具、數(shù)據(jù)挖掘工具以及各種基于數(shù)據(jù)倉庫或數(shù)據(jù)集市開發(fā)的應(yīng)用。其中數(shù)據(jù)分析工具主要針對
OLAP
服務(wù)器,報表工具、數(shù)據(jù)挖掘工具既針對數(shù)據(jù)倉庫,同時也針對
OLAP
服務(wù)器。
集線器與車輪狀結(jié)構(gòu)的企業(yè)級數(shù)據(jù)倉庫
????這種結(jié)構(gòu)也稱為“Hub and Spoke”,這是因為中央數(shù)據(jù)庫匯集了來自各業(yè)務(wù)處理系統(tǒng)的數(shù)據(jù),同時也負(fù)責(zé)向各從屬數(shù)據(jù)集市提供信息,看上去像一個Hub (集線器);而業(yè)務(wù)人員在進行數(shù)據(jù)分析與信息訪問時將根據(jù)需要連接到不同的數(shù)據(jù)集市,這種交叉復(fù)雜的連接看上去就像Spoke(車輪輻條)一樣。?
?? ?“Hub and Spoke”結(jié)構(gòu)解決了企業(yè)內(nèi)統(tǒng)一數(shù)據(jù)存儲模型的問題,但從實際使用的角度來看仍有比較嚴(yán)重的缺陷:一是業(yè)務(wù)人員對信息的訪問非常不方便,很難進行跨數(shù)據(jù)集市或跨部門的信息分析;另一個問題是每個數(shù)據(jù)集市都需要相應(yīng)的軟硬件投入,當(dāng)數(shù)據(jù)集市增加時,系統(tǒng)整體投資迅速增加,同時管理的復(fù)雜性也隨之增加。這些都意味著巨大的整體擁有成本TCO(Total Cost of Ownership)。
????為什么不直接訪問中央數(shù)據(jù)倉庫而非要設(shè)計一個數(shù)據(jù)集市層呢?主要原因在于當(dāng)中央數(shù)據(jù)庫保存越來越多的數(shù)據(jù)、并發(fā)用戶越來越多時,一般的數(shù)據(jù)庫引擎無法承擔(dān)這樣的負(fù)載,只好把它們分解到不同的數(shù)據(jù)集市。對于“Hub and Spoke”結(jié)構(gòu)的數(shù)據(jù)倉庫, Gartner Group也認(rèn)為,“數(shù)據(jù)倉庫的 Hub and Spoke結(jié)構(gòu),回避了DBMS技術(shù)中的弱點,無法提供適當(dāng)?shù)臉I(yè)務(wù)價值來平衡投資成本的顯著增加”,“之所以產(chǎn)生這種趨勢,是由于對大多數(shù)DBMS產(chǎn)品而言,支持復(fù)雜的數(shù)據(jù)模型和并發(fā)查詢負(fù)載都是極大的挑戰(zhàn)”。
????集中式企業(yè)級數(shù)據(jù)倉庫
????第二種企業(yè)級數(shù)據(jù)倉庫的架構(gòu)是集中式的,這解決了“Hub and Spoke”結(jié)構(gòu)中存在的諸多問題,是一種比較理想的企業(yè)級數(shù)據(jù)倉庫系統(tǒng)架構(gòu),能夠為企業(yè)帶來真正的業(yè)務(wù)價值與回報。但由于把詳細(xì)數(shù)據(jù)分析、部分的數(shù)據(jù)轉(zhuǎn)換與清洗等復(fù)雜處理均集中在中央數(shù)據(jù)倉庫,從而給作為數(shù)據(jù)倉庫引擎的RDBMS和相應(yīng)的服務(wù)器帶來了極大的挑戰(zhàn)。選擇這種數(shù)據(jù)倉庫基礎(chǔ)平臺的基本要求是:
????1、線性擴展能力。原始數(shù)據(jù)對任何一個數(shù)據(jù)倉庫來說,都是最主要的負(fù)載之一。隨著數(shù)據(jù)量的增長,系統(tǒng)性能會逐漸下降。維持合理的業(yè)務(wù)查詢響應(yīng)時間,要求數(shù)據(jù)倉庫引擎和相應(yīng)的數(shù)據(jù)庫服務(wù)器具有優(yōu)良的線性擴展能力。一些系統(tǒng)的擴展能力非常有限,當(dāng)數(shù)據(jù)量增長到一定規(guī)模時(比如TB級以上),就很難滿足日常的業(yè)務(wù)分析要求了,因而不得不把數(shù)據(jù)分離到多個小規(guī)模的數(shù)據(jù)集市,形成所謂的“Hub and Spoke”結(jié)構(gòu)。
????2、并行處理能力。許多業(yè)務(wù)查詢與分析都是動態(tài)的,數(shù)據(jù)庫傳統(tǒng)的索引技術(shù)對動態(tài)分析和模糊查詢的幫助不大。系統(tǒng)只有具有非常好的并行處理能力,才能滿足復(fù)雜的、動態(tài)的分析需求,并且承擔(dān)比較復(fù)雜的數(shù)據(jù)轉(zhuǎn)換與清洗工作。
????3、簡單的系統(tǒng)管理。對于大型的數(shù)據(jù)倉庫應(yīng)用系統(tǒng)而言,如何能有效而簡單地進行系統(tǒng)管理是非常重要的。特別是當(dāng)數(shù)據(jù)量不斷擴大時,如果沒有一種有效而且簡單的系統(tǒng)管理措施,那么系統(tǒng)的運行費用將會很高。
???
數(shù)據(jù)倉庫的實施是一個長期的過程,在基礎(chǔ)設(shè)施建立完成后,隨著應(yīng)用的逐步開展和深入,其投資回報也逐步增加。在建立數(shù)據(jù)倉庫過程中需要一定的時間來建立數(shù)據(jù)倉庫基礎(chǔ)設(shè)施,并在建置的過程中逐步完善數(shù)據(jù)質(zhì)量。這個打基礎(chǔ)的過程是無法省略的。更為重要的是,在建立數(shù)據(jù)倉庫的過程當(dāng)中,還可以培養(yǎng)一批既懂?dāng)?shù)據(jù)倉庫技術(shù)、又精通該領(lǐng)域業(yè)務(wù)的高級分析人才,這對于更好地發(fā)揮數(shù)據(jù)倉庫價值是非常重要的