1、ETL主要是做數(shù)據(jù)整理,實(shí)體視圖用于優(yōu)化不匯總數(shù)據(jù)。
根據(jù)模型的設(shè)計(jì)和源數(shù)據(jù)的情況,有四種數(shù)據(jù)ETL模式:
完全刷新:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)表中只包括最新的數(shù)據(jù),每次加載均刪除原有數(shù)據(jù),然后完全加載最新的源數(shù)據(jù)。這種模式下,數(shù)據(jù)抽取程序抽取源數(shù)據(jù)中的所有記錄,在加載前,將目標(biāo)數(shù)據(jù)表清空,然后加載所有記錄。為提高刪除數(shù)據(jù)的速度,一般是采用Truncate清空數(shù)據(jù)表。如本系統(tǒng)中的入庫(kù)當(dāng)前信息表采用此種模式。
鏡像增量:源數(shù)據(jù)中的記錄定期更新,但記錄中包括記錄時(shí)間字段,源數(shù)據(jù)中保存了數(shù)據(jù)歷史的記錄,ETL可以通過(guò)記錄時(shí)間將增量數(shù)據(jù)從源數(shù)據(jù)抽取出來(lái)以附加的方式加載到數(shù)據(jù)倉(cāng)庫(kù)中,數(shù)據(jù)的歷史記錄也會(huì)被保留在數(shù)據(jù)倉(cāng)庫(kù)中。
事件增量:每一個(gè)記錄是一個(gè)新的事件,相互之間沒(méi)有必然的聯(lián)系,新記錄不是對(duì)原有記錄數(shù)值的變更,記錄包括時(shí)間字段,可以通過(guò)時(shí)間字段將新增數(shù)據(jù)抽取出來(lái)加載到數(shù)據(jù)庫(kù)中。
鏡像比較:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)具有生效日期字段以保存數(shù)據(jù)的歷史信息,而源數(shù)據(jù)不保留歷史并且每天都可能被更新。因此,只能將新的鏡像數(shù)據(jù)與上次加載的數(shù)據(jù)的鏡像進(jìn)行比較,找出變更部分,更新歷史數(shù)據(jù)被更新記錄的生效終止日期,并添加變更后的數(shù)據(jù)。大多數(shù)源數(shù)據(jù)中需保存歷史信息的維表
posted on 2008-07-14 12:13
有貓相伴的日子 閱讀(526)
評(píng)論(0) 編輯 收藏 所屬分類:
BI