主流數(shù)據(jù)倉庫架構(gòu)簡析[轉(zhuǎn)]
?
?
?
??? 目前來說,數(shù)據(jù)倉庫架構(gòu)比較成熟并已經(jīng)形成理論的主要有兩個,一個是Corporate Information Factory,簡稱CIF,中文一般翻譯為企業(yè)信息工廠,代表人物是Bill Inmon。另一個是Mutildimensional Architecture,簡稱MD,中文一般翻譯為多維體系結(jié)構(gòu),代表人物是Ralph Kimball。
?
??? 企業(yè)信息工廠主要包括集成轉(zhuǎn)換層(Integrated and Transformation Layer)、操作數(shù)據(jù)存儲(Operational Data Store)、數(shù)據(jù)倉庫(Enterprise Data Warehouse)、數(shù)據(jù)集市(Data Mart)、探索倉庫(Exploration Warehouse)等部件。
?
??? 多維體系結(jié)構(gòu)分為后臺(Back Room)和前臺(Front Room)兩部分。后臺主要負責數(shù)據(jù)準備工作,稱為數(shù)據(jù)準備區(qū)(Staging Area),前臺主要負責數(shù)據(jù)展示工作,稱為數(shù)據(jù)集市(Data Mart)。而數(shù)據(jù)倉庫是一個虛擬的部件,它指的是全部數(shù)據(jù)集市的集合。
?
??? 兩個數(shù)據(jù)倉庫架構(gòu)各有優(yōu)缺點,一種比較流行的做法是合用兩種架構(gòu),即建立CIF的數(shù)據(jù)倉庫和MD的數(shù)據(jù)集市。
?
淺析企業(yè)信息工廠?
?
??? 數(shù)據(jù)倉庫領(lǐng)域里,有一種構(gòu)建數(shù)據(jù)倉庫的架構(gòu),叫Corporate Information Factory,中文一般翻譯為“企業(yè)信息工廠”。企業(yè)信息工廠的創(chuàng)始人是數(shù)據(jù)倉庫之父Inmon。
?
??? 企業(yè)信息工廠主要包括集成轉(zhuǎn)換層(I&T)、操作數(shù)據(jù)存儲(ODS)、數(shù)據(jù)倉庫(EDW)、數(shù)據(jù)集市(DM)、探索倉庫(EW)等部件。這些部件有機的結(jié)合在一起,為企業(yè)提供信息服務(wù)。
?
??? 集成轉(zhuǎn)換層(I&T)的目的是將來自操作型源系統(tǒng)的數(shù)據(jù)集成轉(zhuǎn)換到數(shù)據(jù)倉庫中,它通常由一組程序組成,而其它部件如數(shù)據(jù)倉庫和數(shù)據(jù)集市等則主要由數(shù)據(jù)組成。 當業(yè)務(wù)數(shù)據(jù)來源多,業(yè)務(wù)復雜時,集成轉(zhuǎn)換層會建立一些臨時表,為數(shù)據(jù)處理提供方便。這時,集成轉(zhuǎn)換層包括程序和數(shù)據(jù),也稱數(shù)據(jù)準備區(qū)(Data Staging Area)。通常中等規(guī)模及以上的數(shù)據(jù)倉庫系統(tǒng)都會建立數(shù)據(jù)準備區(qū)。
?
??? 操作數(shù)據(jù)存儲(ODS)是建立在數(shù)據(jù)準備區(qū)和數(shù)據(jù)倉庫之間的一個部件。用來滿足企業(yè)集成的、綜合的操作型處理需要。例如,出盡可能實時的集成的操作報表等需求。一般,也稱操作數(shù)據(jù)存儲是用來滿足企業(yè)戰(zhàn)術(shù)決策的需要。操作數(shù)據(jù)存儲是個可選的部件。
?
??? 數(shù)據(jù)倉庫(EDW)是企業(yè)信息工廠的核心部件,用來保存整個企業(yè)的數(shù)據(jù)。一般,也稱數(shù)據(jù)倉庫是用來滿足企業(yè)戰(zhàn)略決策的需要。數(shù)據(jù)倉庫的數(shù)據(jù)來自數(shù)據(jù)準備區(qū)和操作數(shù)據(jù)存儲。
?
??? 數(shù)據(jù)集市(DM)是為了滿足企業(yè)特定部門的分析需求而專門建立的數(shù)據(jù)的集合。數(shù)據(jù)集市的數(shù)據(jù)來源是數(shù)據(jù)倉庫。企業(yè)信息工廠中的數(shù)據(jù)集市一般來說是非規(guī)范化的、定制的和匯總的。而多維體系架構(gòu)中的數(shù)據(jù)集市分為兩種,分別是原子數(shù)據(jù)集市和聚集數(shù)據(jù)集市。一般來說,企業(yè)信息工廠中的數(shù)據(jù)集市相當于多維體系架構(gòu)中的聚集數(shù)據(jù)集市。
?
??? 探索倉庫(EW)或數(shù)據(jù)挖掘倉庫的建立主要是為了解決大型查詢,提高數(shù)據(jù)倉庫的效率。當有探索或挖掘需求時,會從數(shù)據(jù)倉庫導出一部分數(shù)據(jù)提供給他們操作。
?
??? 企業(yè)信息工廠中的數(shù)據(jù)流向一般是從源系統(tǒng)到數(shù)據(jù)準備區(qū)到操作數(shù)據(jù)存儲到數(shù)據(jù)倉庫到數(shù)據(jù)集市。當分析人員在數(shù)據(jù)倉庫或數(shù)據(jù)集市中得出分析結(jié)論后,會有信息的回流。這種信息回流有可能是物理數(shù)據(jù)的回流,也可能是直接改變業(yè)務(wù)部門的策略,總之,要將分析的結(jié)果應用起來。通過這種信息的回流,企業(yè)信息工廠的不同部件可以不斷的相互調(diào)整,最終找到一種平衡。這也是稱為企業(yè)信息工廠的原因。
?
?
淺析多維體系結(jié)構(gòu)
??? 數(shù)據(jù)倉庫領(lǐng)域里,有一種構(gòu)建數(shù)據(jù)倉庫的架構(gòu),叫Multidimensional Architecture(MD),中文一般翻譯為“多維體系結(jié)構(gòu)”,也稱為“總線架構(gòu)”(Bus Architecture)。多維體系結(jié)構(gòu)的創(chuàng)始人是數(shù)據(jù)倉庫領(lǐng)域中最有實踐經(jīng)驗的Kimball博士。
?
??? 多維體系結(jié)構(gòu)主要包括后臺(Back Room)和前臺(Front Room)兩部分。后臺也稱為數(shù)據(jù)準備區(qū)(Staging Area),是MD架構(gòu)的最為核心的部件。在后臺,是一致性維度的產(chǎn)生、保存和分發(fā)的場所。同時,代理鍵也在后臺產(chǎn)生。
?
??? 前臺是MD架構(gòu)對外的接口,包括兩種主要的數(shù)據(jù)集市,一種是原子數(shù)據(jù)集市,另一種是聚集數(shù)據(jù)集市。原子數(shù)據(jù)集市保存著最低粒度的細節(jié)數(shù)據(jù),數(shù)據(jù)以星型結(jié)構(gòu)來進行數(shù)據(jù)存儲。聚集數(shù)據(jù)集市的粒度通常比原子數(shù)據(jù)集市要高,和原子數(shù)據(jù)集市一樣,聚集數(shù)據(jù)集市也是以星型結(jié)構(gòu)來進行數(shù)據(jù)存儲。前臺還包括像查詢管理、活動監(jiān)控等為了提供數(shù)據(jù)倉庫的性能和質(zhì)量的服務(wù)。
?
??? 在多維體系結(jié)構(gòu)中,所有的這些基于星型機構(gòu)來建立的數(shù)據(jù)集市可以在物理上存在于一個數(shù)據(jù)庫實例中,也可以分散在不同的機器上,而所有這些數(shù)據(jù)集市的集合組成的分布式的數(shù)據(jù)倉庫。
?
?
?