1.數(shù)據(jù)倉庫概念始于上世紀(jì)80年代中期,首次出現(xiàn)是在被譽(yù)為“數(shù)據(jù)倉庫之父”WilliamH.Inmon的《建立數(shù)據(jù)倉庫》一書中。隨著人們對大型數(shù)據(jù)系統(tǒng)研究、管理、維護(hù)等方面的深刻識認(rèn)和不斷完善,在總結(jié)、豐富、集中多行企業(yè)信息的經(jīng)驗(yàn)之后,為數(shù)據(jù)倉庫給出了更為精確的定義,即“數(shù)據(jù)倉庫是在企業(yè)管理和決策中面向主題的、集成的、與時(shí)間相關(guān)的、不可修改的數(shù)據(jù)集合”。數(shù)據(jù)倉庫并沒有嚴(yán)格的數(shù)據(jù)理論基礎(chǔ),也沒有成熟的基本模式,且更偏向于工程,具有強(qiáng)烈的工程性。通常按其關(guān)鍵技術(shù)部份分為數(shù)據(jù)的抽取、存儲與管理以及數(shù)據(jù)的表現(xiàn)等三個(gè)基本方面。
數(shù)據(jù)倉庫的重點(diǎn)與要求是能夠準(zhǔn)確、安全、可靠地從數(shù)據(jù)庫中取出數(shù)據(jù),經(jīng)過加工轉(zhuǎn)換成有規(guī)律信息之后,再供管理人員進(jìn)行分析使用。數(shù)據(jù)倉庫主要是應(yīng)用于決策支持系統(tǒng),其主要目的是“提取”信息并加以擴(kuò)展,用來進(jìn)行處理基于數(shù)據(jù)倉庫的決策支持系統(tǒng)(DSS)的應(yīng)用。
2 基于數(shù)據(jù)倉庫的決策支持系統(tǒng)(DSS)由三個(gè)部件組成:數(shù)據(jù)倉庫技術(shù)(Data warehousing),聯(lián)機(jī)分析處理技術(shù)(OLAP,On—Line Analytical Pro—cessing),數(shù)據(jù)挖掘技術(shù)(Data Mining)。
聯(lián)機(jī)分析處理(OLAP,On—Analytical Pro—cessing)是使分析人員、管理人員或執(zhí)行人員能夠從多種角度對從原始數(shù)據(jù)中轉(zhuǎn)化出來的、能夠真正為用戶所理解的、并真實(shí)反映企業(yè)給特性的信息進(jìn)行快速、一致、交互地存取,從而獲得對數(shù)據(jù)的更深入了解的一類軟件技術(shù)。OLAP的目標(biāo)是滿足決策支持或多維環(huán)境特定的查詢和報(bào)表需求。數(shù)據(jù)倉庫側(cè)重于存儲和管理面向決策主題的數(shù)據(jù);而OLAP側(cè)重于數(shù)據(jù)倉庫的數(shù)據(jù)分析,并將其轉(zhuǎn)換成輔助決策信息。OLA P的一個(gè)主要特點(diǎn)是多維數(shù)據(jù)分析,這與數(shù)據(jù)倉庫的多維數(shù)據(jù)組織正好形成相互結(jié)合、相互補(bǔ)充的關(guān)系。問此,利用OLAP技術(shù)與數(shù)據(jù)倉庫的結(jié)合可以較好地解決傳統(tǒng)決策支持系統(tǒng)既需要處理大量數(shù)據(jù)又需要進(jìn)行大量數(shù)值計(jì)算的問題。
OLAP的多維數(shù)據(jù)分析主要通過對多維數(shù)據(jù)的維進(jìn)行剖切、鉆取和旋轉(zhuǎn)來實(shí)現(xiàn)對數(shù)據(jù)庫所提供的數(shù)據(jù)進(jìn)行深入分析,為決策者提供決策支持。多維結(jié)構(gòu)是決策支持的支柱,也是OLAP的核心。
數(shù)據(jù)挖掘(Data Mining)是從大量的、不完全的、有噪聲的。模糊的、隨機(jī)的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。數(shù)據(jù)挖掘可以看成是一種數(shù)據(jù)搜尋過程,它不必預(yù)先假設(shè)或提出問題,但是仍能找到那些非預(yù)期的卻令人關(guān)注的信息,這些信息表示了數(shù)據(jù)元素的關(guān)系和模式。它能挖掘出數(shù)據(jù)鍵潛在的模式(pattern),找出最有價(jià)值的信息和知識(knowledge)。指導(dǎo)商業(yè)行為或輔助科學(xué)研究。研究對象是大規(guī)模和超大規(guī)模的數(shù)據(jù)集合。
數(shù)據(jù)倉庫概念的提出者、美國著名信息工程專家 William Inmon 博士在90年代初提出了數(shù)據(jù)倉庫概念的一個(gè)表述。他認(rèn)為:“一個(gè)數(shù)據(jù)倉庫通常是一個(gè)面向主題的、集成的、隨時(shí)間變化的、但信息本身相對穩(wěn)定的數(shù)據(jù)集合,它用于對管理決策過程的支持。”
所謂主題,是指用戶使用數(shù)據(jù)倉庫進(jìn)行決策時(shí)所關(guān)心的重點(diǎn)方面,如:收入、客戶、銷售渠道等;所謂面向主題,是指數(shù)據(jù)倉庫內(nèi)的信息是按主題進(jìn)行組織的,而不是像業(yè)務(wù)支撐系統(tǒng)那樣是按照業(yè)務(wù)功能進(jìn)行組織的。
所謂集成,是指數(shù)據(jù)倉庫中的信息不是從各個(gè)業(yè)務(wù)系統(tǒng)中簡單抽取出來的,而是經(jīng)過一系列加工、整理和匯總的過程,因此數(shù)據(jù)倉庫中的信息是關(guān)于整個(gè)企業(yè)的一致的全局信息。
所謂隨時(shí)間變化,是指數(shù)據(jù)倉庫內(nèi)的信息并不只是反映企業(yè)當(dāng)前的狀態(tài),而是記錄了從過去某一時(shí)點(diǎn)到當(dāng)前各個(gè)階段的信息。通過這些信息,可以對企業(yè)的發(fā)展歷程和未來趨勢做出定量分析和預(yù)測。
而信息本身相對穩(wěn)定,是指一旦某個(gè)數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫以后,一般很少進(jìn)行修改,更多的是對信息進(jìn)行查詢操作。
依據(jù)上面的定義,有人可能會把數(shù)據(jù)倉庫簡單地理解為僅僅是一個(gè)大型的數(shù)據(jù)存儲機(jī)制,是一個(gè)靜態(tài)的概念。實(shí)際上,數(shù)據(jù)倉庫更像一個(gè)過程,這個(gè)過程涉及數(shù)據(jù)的收集、整理和加工,生成決策所需要的信息,并且最終把這些信息提供給需要這些信息的使用者,供他們做出改善業(yè)務(wù)經(jīng)營的正確決策。數(shù)據(jù)倉庫的重點(diǎn)與要求就是能夠準(zhǔn)確、安全、可靠地從業(yè)務(wù)系統(tǒng)中取出數(shù)據(jù),經(jīng)過加工轉(zhuǎn)換成有規(guī)律信息之后,供管理人員進(jìn)行分析使用。因此數(shù)據(jù)倉庫是一個(gè)動態(tài)的概念,應(yīng)該稱為數(shù)據(jù)倉庫工程(Data Warehousing)。
posted on 2008-05-21 14:07
有貓相伴的日子 閱讀(1799)
評論(0) 編輯 收藏 所屬分類:
pl/sql