Posted on 2010-05-14 17:34
leekiang 閱讀(526)
評論(0) 編輯 收藏 所屬分類:
BI
數據倉庫的出現,并不是要取代數據庫。目前,大部分數據倉庫還是用關系數據庫管理系統來管理的。可以說,數據庫、數據倉庫相輔相成、各有千秋。
數據庫是面向事務的設計,數據倉庫是面向主題設計的。
數據庫一般存儲在線交易數據,數據倉庫存儲的一般是歷史數據。
數據庫設計是盡量避免冗余,一般采用符合范式的規則來設計,數據倉庫在設計是有意引入冗余,采用反范式的方式來設計。 數據庫是為捕獲數據而設計,數據倉庫是為分析數據而設計,它的兩個基本的元素是維表和事實表。
簡單的說:? ?
??? 1、事實就是你要關注的內容;? ?
??? 2、維度是描述事物特征的一個角度。例如門店銷售情況需要分析商品銷售的時間、地點、商品名等。這里的時間、地點、商品名就是門店銷售情況的分析維度。
例如,某地區商品的銷量,是從地區這個角度觀察商品銷量的。事實表就是銷量表,維表就是地區表。
1、數據倉庫是面向主題的,主題就是所要解決問題的領域
2、數據倉庫是集成的,數據倉庫的數據有來自于分散的操作型數據,將所需數據從原來的數據中抽取出來,進行加工與集成,統一與綜合之后才能進入數據倉庫;
3、相對穩定,數據倉庫的數據主要供企業決策分析之用,所涉及的數據操作主要是數據查詢,一旦某個數據進入數據倉庫以后,一般情況下將被長期保留,也就是數據倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。
4、反映歷史變化
數據倉庫數據庫
是整個數據倉庫環境的核心,是數據存放的地方和提供對數據檢索的支持。相對于操縱型數據庫來說其突出的特點是對海量數據的支持和快速的檢索技術。
數據倉庫數據庫的結構與一般的表結構不一樣
元數據
元數據是描述數據倉庫內數據的結構和建立方法的數據。可將其按用途的不同分為兩類,技術元數據和商業元數據。
數據倉庫的解決方法包括:將決策支持型數據處理從事務型數據處理中分離出來。數據按照一定的周期(通常在每晚或者每周末),從事務型數據庫中導入決策支持型數據庫——既“數據倉庫”。數據倉庫是按回答企業某方面的問題來分“主題”組織數據的,這是最有效的數據組織方式。
信息化的實施,是沒有終點的,它是一個持續優化的過程,BI的實施,尤其如此。隨著業務系統的深入應用,流程會發生變化;隨著管理的側重點不同,領導關注的數據也會不同。這都需要重新修改數據倉庫與分析模型
關鍵詞一:時間維度
時間維度雖是數據倉庫中的最核心的維度之一,但表面上來看,僅是日期而已,是非常簡單的。很容易忽略一個很常見的問題:對于企業來說,通常會有兩種時間:一種是自然日歷時間,另一種則是財務使用的會計時間。有很多企業,因為上市的原因,采取某個4月1日至第二年3月31日來定義財年,或因為歷史的習慣,每個月從26號到次月的25日為會計期間。在操作中,業務部門肯定是按自然時間來錄入與查詢信息,而財務部門則按照會計時間來進行記賬與出報表,在這種情況下,就需要建立一種規則,來識別自然時間與會計時間的對應關系。
關鍵詞三:增量更新
數據倉庫的創建不是一次完成的,它必然要根據業務系統數據的更新而更新。如何實現增量更新?這是建立數據倉庫時最大的技術難點。增量更新意味著它必須識別哪些數據發生過變化?如增加/修改了哪些客戶資料?增加/修改了哪些訂單?
數據倉庫中的三種事實表
Transaction fact table(事務事實表),比如交易記錄,
Periodic snapshot fact table(周期快照事實表),我覺得月累,年累就是屬于這種類型
Accumulating snapshot fact table(累積快照事實表)累積快照事實表和周期快照事實表有些相似之處,它們存儲的都是事務數據的快照信息。但是它們之間也有著很大的不同,周期快照事實表記錄的確定的周期的數據,而累積快照事實表記錄的不確定的周期的數據.對這個似懂非懂。
由于事實是一種度量,所以事實表中的這種指標往往需要具有數值化和可加性的特征。但是在事實表中,只有那些具有完全可加性的事實才能根據所有的維度進行累加而具有意義。而事實表有一些事實表示的是某種強度,這類事實就不具有完全加法性,而是一種半加法性。例如,賬目余款反映的是某個時間點的數據,它可以按照地點和商品等大多數維度進行累加,但是對于時間維度則例外,將一年中每個月的賬目余款進行累加是毫無意義的,而決策者則可能需要了解所有地區和所有商品賬目余款的累加值。在事實表中還有一些事實是非加法性的,即這些事實具有對事實的描述特性,在這種情況下一般要將這些非加法性事實轉移到維度表中。
數據倉庫與數據集市
數據倉庫是企業級的,能為整個企業各個部門的運行提供決策支持手段;而數據集市則是一種微型的數據倉庫,它通常有更少的數據,更少的主題區域,以及更少的歷史數據,一般只能為某個局部范圍內的管理人員服務,因此也稱之為部門級(工作組級)數據倉庫。
數據倉庫中數據結構采用規范化結構(第三范式),數據集市中的數據結構采用星型模式或雪片模式,通常倉庫中數據粒度比集市的粒度要細
http://www.chinabi.net/blog/user1/105/archives/2006/388.html
http://blog.csdn.net/dreamwdt/archive/2008/03/19 /2197084.aspx
參考:
http://www.tkk7.com/sterning/archive/2007/12/14/167739.html
http://book.51cto.com/art/200710/58849.htm等