????
??? 數(shù)據(jù)源:是數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的基礎(chǔ),是整個(gè)系統(tǒng)的數(shù)據(jù)源泉。通常包括企業(yè)內(nèi)部信息和外部信息。內(nèi)部信息包括存放于企業(yè)操作型數(shù)據(jù)庫(kù)中(通常存放在
RDBMS
中)的各種業(yè)務(wù)數(shù)據(jù)和辦公自動(dòng)化(
OA
)系統(tǒng)包含的各類文檔數(shù)據(jù)。外部信息包括各類法律法規(guī)、市場(chǎng)信息、競(jìng)爭(zhēng)對(duì)手的信息以及各類外部統(tǒng)計(jì)數(shù)據(jù)及各類文檔等;
????數(shù)據(jù)的存儲(chǔ)與管理:是整個(gè)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的核心。在現(xiàn)有各業(yè)務(wù)系統(tǒng)的基礎(chǔ)上,對(duì)數(shù)據(jù)進(jìn)行抽取、清理,并有效集成,按照主題進(jìn)行重新組織,最終確定數(shù)據(jù)倉(cāng)庫(kù)的物理存儲(chǔ)結(jié)構(gòu),同時(shí)組織存儲(chǔ)數(shù)據(jù)倉(cāng)庫(kù)元數(shù)據(jù)(具體包括數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)字典、記錄系統(tǒng)定義、數(shù)據(jù)轉(zhuǎn)換規(guī)則、數(shù)據(jù)加載頻率以及業(yè)務(wù)規(guī)則等信息)。按照數(shù)據(jù)的覆蓋范圍,數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)可以分為企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)和部門級(jí)數(shù)據(jù)倉(cāng)庫(kù)(通常稱為“數(shù)據(jù)集市”,Data Mart)。數(shù)據(jù)倉(cāng)庫(kù)的管理包括數(shù)據(jù)的安全、歸檔、備份、維護(hù)、恢復(fù)等工作。這些功能與目前的DBMS基本一致。
????OLAP服務(wù)器:對(duì)分析需要的數(shù)據(jù)按照多維數(shù)據(jù)模型進(jìn)行再次重組,以支持用戶多角度、多層次的分析,發(fā)現(xiàn)數(shù)據(jù)趨勢(shì)。其具體實(shí)現(xiàn)可以分為:ROLAP、MOLAP和HOLAP。ROLAP基本數(shù)據(jù)和聚合數(shù)據(jù)均存放在RDBMS之中;MOLAP基本數(shù)據(jù)和聚合數(shù)據(jù)均存放于多維數(shù)據(jù)庫(kù)中;而HOLAP是ROLAP與MOLAP的綜合,基本數(shù)據(jù)存放于RDBMS之中,聚合數(shù)據(jù)存放于多維數(shù)據(jù)庫(kù)中。
??
?
前端工具與應(yīng)用:前端工具主要包括各種數(shù)據(jù)分析工具、報(bào)表工具、查詢工具、數(shù)據(jù)挖掘工具以及各種基于數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市開發(fā)的應(yīng)用。其中數(shù)據(jù)分析工具主要針對(duì)
OLAP
服務(wù)器,報(bào)表工具、數(shù)據(jù)挖掘工具既針對(duì)數(shù)據(jù)倉(cāng)庫(kù),同時(shí)也針對(duì)
OLAP
服務(wù)器。
集線器與車輪狀結(jié)構(gòu)的企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)
????這種結(jié)構(gòu)也稱為“Hub and Spoke”,這是因?yàn)橹醒霐?shù)據(jù)庫(kù)匯集了來(lái)自各業(yè)務(wù)處理系統(tǒng)的數(shù)據(jù),同時(shí)也負(fù)責(zé)向各從屬數(shù)據(jù)集市提供信息,看上去像一個(gè)Hub (集線器);而業(yè)務(wù)人員在進(jìn)行數(shù)據(jù)分析與信息訪問(wèn)時(shí)將根據(jù)需要連接到不同的數(shù)據(jù)集市,這種交叉復(fù)雜的連接看上去就像Spoke(車輪輻條)一樣。?
?? ?“Hub and Spoke”結(jié)構(gòu)解決了企業(yè)內(nèi)統(tǒng)一數(shù)據(jù)存儲(chǔ)模型的問(wèn)題,但從實(shí)際使用的角度來(lái)看仍有比較嚴(yán)重的缺陷:一是業(yè)務(wù)人員對(duì)信息的訪問(wèn)非常不方便,很難進(jìn)行跨數(shù)據(jù)集市或跨部門的信息分析;另一個(gè)問(wèn)題是每個(gè)數(shù)據(jù)集市都需要相應(yīng)的軟硬件投入,當(dāng)數(shù)據(jù)集市增加時(shí),系統(tǒng)整體投資迅速增加,同時(shí)管理的復(fù)雜性也隨之增加。這些都意味著巨大的整體擁有成本TCO(Total Cost of Ownership)。
????為什么不直接訪問(wèn)中央數(shù)據(jù)倉(cāng)庫(kù)而非要設(shè)計(jì)一個(gè)數(shù)據(jù)集市層呢?主要原因在于當(dāng)中央數(shù)據(jù)庫(kù)保存越來(lái)越多的數(shù)據(jù)、并發(fā)用戶越來(lái)越多時(shí),一般的數(shù)據(jù)庫(kù)引擎無(wú)法承擔(dān)這樣的負(fù)載,只好把它們分解到不同的數(shù)據(jù)集市。對(duì)于“Hub and Spoke”結(jié)構(gòu)的數(shù)據(jù)倉(cāng)庫(kù), Gartner Group也認(rèn)為,“數(shù)據(jù)倉(cāng)庫(kù)的 Hub and Spoke結(jié)構(gòu),回避了DBMS技術(shù)中的弱點(diǎn),無(wú)法提供適當(dāng)?shù)臉I(yè)務(wù)價(jià)值來(lái)平衡投資成本的顯著增加”,“之所以產(chǎn)生這種趨勢(shì),是由于對(duì)大多數(shù)DBMS產(chǎn)品而言,支持復(fù)雜的數(shù)據(jù)模型和并發(fā)查詢負(fù)載都是極大的挑戰(zhàn)”。
????集中式企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)
????第二種企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)的架構(gòu)是集中式的,這解決了“Hub and Spoke”結(jié)構(gòu)中存在的諸多問(wèn)題,是一種比較理想的企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)架構(gòu),能夠?yàn)槠髽I(yè)帶來(lái)真正的業(yè)務(wù)價(jià)值與回報(bào)。但由于把詳細(xì)數(shù)據(jù)分析、部分的數(shù)據(jù)轉(zhuǎn)換與清洗等復(fù)雜處理均集中在中央數(shù)據(jù)倉(cāng)庫(kù),從而給作為數(shù)據(jù)倉(cāng)庫(kù)引擎的RDBMS和相應(yīng)的服務(wù)器帶來(lái)了極大的挑戰(zhàn)。選擇這種數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)平臺(tái)的基本要求是:
????1、線性擴(kuò)展能力。原始數(shù)據(jù)對(duì)任何一個(gè)數(shù)據(jù)倉(cāng)庫(kù)來(lái)說(shuō),都是最主要的負(fù)載之一。隨著數(shù)據(jù)量的增長(zhǎng),系統(tǒng)性能會(huì)逐漸下降。維持合理的業(yè)務(wù)查詢響應(yīng)時(shí)間,要求數(shù)據(jù)倉(cāng)庫(kù)引擎和相應(yīng)的數(shù)據(jù)庫(kù)服務(wù)器具有優(yōu)良的線性擴(kuò)展能力。一些系統(tǒng)的擴(kuò)展能力非常有限,當(dāng)數(shù)據(jù)量增長(zhǎng)到一定規(guī)模時(shí)(比如TB級(jí)以上),就很難滿足日常的業(yè)務(wù)分析要求了,因而不得不把數(shù)據(jù)分離到多個(gè)小規(guī)模的數(shù)據(jù)集市,形成所謂的“Hub and Spoke”結(jié)構(gòu)。
????2、并行處理能力。許多業(yè)務(wù)查詢與分析都是動(dòng)態(tài)的,數(shù)據(jù)庫(kù)傳統(tǒng)的索引技術(shù)對(duì)動(dòng)態(tài)分析和模糊查詢的幫助不大。系統(tǒng)只有具有非常好的并行處理能力,才能滿足復(fù)雜的、動(dòng)態(tài)的分析需求,并且承擔(dān)比較復(fù)雜的數(shù)據(jù)轉(zhuǎn)換與清洗工作。
????3、簡(jiǎn)單的系統(tǒng)管理。對(duì)于大型的數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用系統(tǒng)而言,如何能有效而簡(jiǎn)單地進(jìn)行系統(tǒng)管理是非常重要的。特別是當(dāng)數(shù)據(jù)量不斷擴(kuò)大時(shí),如果沒(méi)有一種有效而且簡(jiǎn)單的系統(tǒng)管理措施,那么系統(tǒng)的運(yùn)行費(fèi)用將會(huì)很高。
???
數(shù)據(jù)倉(cāng)庫(kù)的實(shí)施是一個(gè)長(zhǎng)期的過(guò)程,在基礎(chǔ)設(shè)施建立完成后,隨著應(yīng)用的逐步開展和深入,其投資回報(bào)也逐步增加。在建立數(shù)據(jù)倉(cāng)庫(kù)過(guò)程中需要一定的時(shí)間來(lái)建立數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)設(shè)施,并在建置的過(guò)程中逐步完善數(shù)據(jù)質(zhì)量。這個(gè)打基礎(chǔ)的過(guò)程是無(wú)法省略的。更為重要的是,在建立數(shù)據(jù)倉(cāng)庫(kù)的過(guò)程當(dāng)中,還可以培養(yǎng)一批既懂?dāng)?shù)據(jù)倉(cāng)庫(kù)技術(shù)、又精通該領(lǐng)域業(yè)務(wù)的高級(jí)分析人才,這對(duì)于更好地發(fā)揮數(shù)據(jù)倉(cāng)庫(kù)價(jià)值是非常重要的