一本久到久久亚洲综合,在线亚洲v日韩v,狠狠色婷婷狠狠狠亚洲综合

數(shù)據(jù)倉庫各種基礎(chǔ)設(shè)施的選擇

根據(jù)Bill Inmon對數(shù)據(jù)倉庫的概括，數(shù)據(jù)倉庫由以下幾個部分構(gòu)成：數(shù)據(jù)的收集、數(shù)據(jù)存儲和管理、聯(lián)機分析處理和決策支持開發(fā)應(yīng)用環(huán)境。除各個部分硬件平臺的選擇，對數(shù)據(jù)倉庫的基礎(chǔ)設(shè)施的選擇，也就是對以下四個部分各種軟件的選擇。
1、數(shù)據(jù)的收集--數(shù)據(jù)的抽取、轉(zhuǎn)換和裝載(ETL)
　　數(shù)據(jù)的收集--從原有的系統(tǒng)中有效地、高效地抽取、凈化、轉(zhuǎn)換和裝載數(shù)據(jù)的問題，在數(shù)據(jù)倉庫的建立過程中，已變得日益突出。當(dāng)數(shù)據(jù)倉庫的數(shù)據(jù)量非常大的時候，數(shù)據(jù)收集的高效性就變得更加必要，否則就會加大客戶的投資。
　　采用什么樣的方案來滿足ETL的要求，以支持商務(wù)和環(huán)境所要求的數(shù)據(jù)倉庫、數(shù)據(jù)庫合并和系統(tǒng)主題重構(gòu)就成為用戶選擇的問題。
　　1)Programming (手工編程)
　　2)Program Generator(編程源)(如COBOL編程)
　　3)TOOL(工具)模塊化(批處理方式)如：Ardent公司的Infomoter產(chǎn)品
　　早期的ETL操作都第一種或第二種方式來實現(xiàn)的，現(xiàn)在ETL工具是數(shù)據(jù)收集的主流。現(xiàn)在用戶所要決策的已不再是關(guān)于技術(shù)方面的選擇，而更多是關(guān)于管理方面的選擇，如：
　　快捷解決方案--目的是盡可能快地獲得信息；
　　系統(tǒng)解決方案--平滑地、有效地、高效地實現(xiàn)ETL處理過程。
　　事實上，這兩個方面都很需要考慮。在數(shù)據(jù)倉庫初始建立的時候，或是時間緊急的項目，快速解決方案會被認(rèn)為非常有效。它會作為一種嘗試或模型建立，以后便會產(chǎn)生出更多的系統(tǒng)的解決方案。所以，系統(tǒng)的數(shù)據(jù)抽取和轉(zhuǎn)換的方案將會適應(yīng)大多數(shù)問題，如：數(shù)據(jù)質(zhì)量。
　　以下列舉商務(wù)需求和條件的問題，會對用戶在ETL工具上的選擇提供一些幫助：
　　對系統(tǒng)數(shù)據(jù)的知識基礎(chǔ)是否充分；
　　數(shù)據(jù)抽取/裝載操作是一次完成，還是不斷/反復(fù)操作；
　　關(guān)注的焦點是數(shù)據(jù)內(nèi)涵的質(zhì)量，還是補償式的傳遞數(shù)據(jù)；
　　數(shù)據(jù)質(zhì)量問題是特殊性的(例如是針對客戶或銷售額)，還是普遍性的)；
　　使用現(xiàn)成集成套件工具，還是自己有針對性的開發(fā)；
　　數(shù)據(jù)抽取/轉(zhuǎn)換是集中管理，還是分布管理；
　　數(shù)據(jù)抽取/轉(zhuǎn)換是通過參數(shù)控制，還是編程控制。
2、OLAP--聯(lián)機分析處理
　　OLTP系統(tǒng)中的數(shù)據(jù)處理是高度結(jié)構(gòu)化的、復(fù)雜數(shù)據(jù)模型操作，每一次事務(wù)處理通常只涉及一兩張表，并且只對一行記錄進(jìn)行操作。這說明復(fù)雜的表關(guān)系不會影響到系統(tǒng)的性能、DSS處理，正相反，它的一次操作要涉及幾百張表的上千行數(shù)據(jù)。在這種情況下，復(fù)雜的表連接會嚴(yán)重影響性能。所以，性能是傳統(tǒng) 的實體 - 關(guān)系(ER)模型不能滿足決策支持環(huán)境的重要原因之一。
　　第二個原因，典型的ER模式過于復(fù)雜且難以導(dǎo)航。在OLTP系統(tǒng)中，這不是一個問題，使用和訪問數(shù)據(jù)的路徑非常明了，應(yīng)用可以硬編碼來使用特殊的數(shù)據(jù)結(jié)構(gòu)。但在DSS環(huán)境下，數(shù)據(jù)的使用是非結(jié)構(gòu)化的；用戶僅僅在分析的時候才查找有關(guān)數(shù)據(jù)，這個查找條件是隨機的。
　　由于傳統(tǒng)的數(shù)據(jù)分析軟件不適用于動態(tài)數(shù)據(jù)分析，而關(guān)系數(shù)據(jù)庫雖然具有一定的數(shù)據(jù)視圖選取和比較、綜合的能力，但它仍然受到數(shù)據(jù)分析能力局限性的制約，所以產(chǎn)生了一種針對特定問題的聯(lián)機數(shù)據(jù)訪問和數(shù)據(jù)分析的技術(shù)，E. F. Codd將這種技術(shù)定義為"OTAP"，并定義了十二條評價OLAP產(chǎn)品的準(zhǔn)則，即：
　　1)OLAP模型必須提供多維概念視圖；
　　2)透明性準(zhǔn)則；
　　3)存取能力準(zhǔn)則；
　　4)穩(wěn)定的報表性能；
　　5)客戶/服務(wù)器體系結(jié)構(gòu)；
　　6)維的等同性準(zhǔn)則；
　　7)動態(tài)稀疏矩陣處理準(zhǔn)則；
　　8)多用戶支持能力準(zhǔn)則；
　　9)非受限的跨維操作；
　　10)直觀的數(shù)據(jù)處理；
　　11)靈活地生成報表；
　　12)非受限的維與維的層次。
　　現(xiàn)在市場中有很多OLAP產(chǎn)品和工具，以多維立方體(cube)的存放(管理)在整個數(shù)據(jù)倉庫系統(tǒng)的位置劃分，可分為三類：
　　1)客戶端(MicroCube);
　　2)多維數(shù)據(jù)庫服務(wù)器(MDDB)(HyperCube)；
　　3)關(guān)系數(shù)據(jù)庫服務(wù)器(ROLAP)。
　　第一種利用查詢工具對Cube進(jìn)入管理，但這僅適用于簡單的二維查詢報告。
　　MDDB和ROLAP都允許用戶從多個觀察角度來定義和查詢數(shù)據(jù)，但由于ROLAP技術(shù)與關(guān)系數(shù)據(jù)庫的緊密結(jié)合，在存儲和管理能力上、在適應(yīng)性方面，ROLAP要比MDDB具有更強"魯棒"性。例如：一個3×3×3的立方體，(每維有3個維成員的三維Cube)，共有27個數(shù)據(jù)單元。若根據(jù)分析需要，在每一維上增加一個新的維成員，則該邏輯立方體 (Cube) 變成4×4×4，共64個數(shù)據(jù)單元。所以，如果沒有很強的數(shù)據(jù)存儲和管理能力，是不能勝任和適應(yīng)復(fù)雜的分析環(huán)境。
3 數(shù)據(jù)庫服務(wù)器
 　　數(shù)據(jù)倉庫或數(shù)據(jù)集市與一般數(shù)據(jù)庫應(yīng)用比較而言，在規(guī)模上和數(shù)據(jù)量上要大得多。Gartner集團的有關(guān)報告說，"數(shù)據(jù)倉庫最少也要支持幾百個用戶，查詢范圍從簡單的索引檢查到復(fù)雜的對比分析。"目前的數(shù)據(jù)倉庫的數(shù)據(jù)量已經(jīng)超過了千千兆字節(jié)(TB)級。所以，關(guān)系數(shù)據(jù)庫服務(wù)器無疑是數(shù)據(jù)倉庫的核心。
　　在數(shù)據(jù)倉庫中數(shù)據(jù)庫的關(guān)鍵技術(shù)規(guī)納如下：
　　開放的動態(tài)可伸縮體系結(jié)構(gòu)；
　　數(shù)據(jù)庫并行數(shù)據(jù)操作的能力；
　　對并行硬臺環(huán)境的支持能力；
　　針對決策支持的增強特性；
　　服務(wù)器的可靠性、可用性和可服務(wù)性(RAS)；
　　新的商務(wù)邏輯的擴展性；
　　高度靈活性(Windows NT、UNIX)；
　　多用戶的支持。

4 工具
　　實現(xiàn)數(shù)據(jù)倉庫的最終目的是響應(yīng)用戶的要求，如資深的財務(wù)、商務(wù)分析員和行業(yè)銷售等，他們要訪問企業(yè)的分析數(shù)據(jù)或信息而作出更好的商業(yè)決策，大多數(shù)客戶不僅要求直接訪問企業(yè)數(shù)據(jù)，他們還要求在數(shù)據(jù)倉庫不斷增長的時候，減少查詢的復(fù)雜性并加快查詢的速度和分析的速度。那么什么工具能夠幫助最終用戶訪問數(shù)據(jù)呢?
　　電子數(shù)據(jù)表(如：Microsoft Excel)
　　個人數(shù)據(jù)庫(如：Lotus Approch)
　　查詢和報告工具(如：Brio Intelligence、Business Objects)
　　EIS/DSS鉆取/導(dǎo)航工具(如：Brio Intelligence、Coguos Powerplay)
　　多維分析/ROLAP(如：Informix Metacube)
　　(注：目前，電子數(shù)據(jù)表增長緩慢，多維分析/ROLAP日益受到青睞)
　　數(shù)據(jù)倉庫的訪問工具目前增長迅速，而且種類豐富。所以，用戶可根據(jù)自己的應(yīng)用要求和應(yīng)用展示數(shù)據(jù)的風(fēng)格來選擇不同的訪問工具。因此，要求數(shù)據(jù)倉庫解決方案對訪問工具必須采取開放的策略，才能滿足用戶的真正要求。
5 數(shù)據(jù)挖掘(Data Mining)或數(shù)據(jù)庫知識發(fā)現(xiàn)(KDD-Knowledge Discovery Database)
　　現(xiàn)代企業(yè)總是想在保留住原有用戶的基礎(chǔ)上，開發(fā)新的用戶，數(shù)據(jù)倉庫已經(jīng)成為這些企業(yè)的關(guān)鍵業(yè)務(wù)應(yīng)用。它們利用數(shù)據(jù)倉庫在產(chǎn)品、價格、投資、分配等方面，基于事實而不是基于管理直覺地作出決策。但是如何從浩如煙海的企業(yè)信息資料庫中擠壓出更有價值的信息，答案就是數(shù)據(jù)挖掘。人們試圖在數(shù)據(jù)對等的、不明顯的和不可預(yù)知的模式中發(fā)現(xiàn)信息的模式、趨勢以及關(guān)系。有一點必須強調(diào)：數(shù)據(jù)挖掘是建立數(shù)據(jù)倉庫之上的決策技術(shù)。
　　對數(shù)據(jù)挖掘的定義通常是這樣的：
　　數(shù)據(jù)挖掘或數(shù)據(jù)庫知識發(fā)現(xiàn)是從數(shù)據(jù)中找出隱含的、預(yù)先未知的和潛在的有用信息的專門抽取操作。它包含大量不同的技術(shù)手段，如聚集、數(shù)據(jù)總計、學(xué)習(xí)分類規(guī)則、發(fā)現(xiàn)絕對工作的依賴性、分析變化和異常偵測。
　　下圖描述了在數(shù)據(jù)挖掘和知識發(fā)現(xiàn)過程中不同階段和處理的標(biāo)識。
　　收集--根據(jù)某些標(biāo)準(zhǔn)收集或截取數(shù)據(jù)記錄。
　　預(yù)處理--這是數(shù)據(jù)清洗階段，在這個階段將那樣認(rèn)為不必要的信息刪除，并將所需數(shù)據(jù)配制成一致的數(shù)據(jù)格式。
　　轉(zhuǎn)換--將數(shù)據(jù)傳輸，并轉(zhuǎn)換成帶有標(biāo)識(overlay)的數(shù)據(jù)，使數(shù)據(jù)變得可用和可導(dǎo)航。
　　數(shù)據(jù)挖掘--這是從數(shù)據(jù)中做模式抽取的階段。
　　解決與評估--經(jīng)系統(tǒng)標(biāo)識的模式被解釋成能在將來領(lǐng)導(dǎo)決策的知識。
　　范疇分析支持?jǐn)?shù)據(jù)挖掘的兩個主要階段：建立模型和預(yù)測未來結(jié)果。簡單的說，一個模型就是闡明輸入對輸出影響的數(shù)學(xué)公式。由于它是數(shù)學(xué)公式，所以它可以通過對基本數(shù)據(jù)不斷理解的交互處理而不斷提煉和調(diào)整，達(dá)到可以接受的精確程度。在決策過程中，決策者提出的問題千差萬別，解決問題的方法論也就各不相同，因此，可以使用很多技術(shù)建立這些模型。
　　統(tǒng)計分析--最早使用的，并且最容易理解的技術(shù)。
　　神經(jīng)網(wǎng)絡(luò)--隨著近幾年人工智能工具的流行，人們試圖通過數(shù)學(xué)的方法來模仿人腦認(rèn)知工作過程。
　　決策樹--是一種概念簡單(if-then)的數(shù)學(xué)方法。
　　遺傳算法--該技術(shù)來自于對微生物通過自然的選擇和遺傳的結(jié)合如何進(jìn)化的研究。
　　模糊邏輯--簡單地說，是一種對數(shù)學(xué)公式新的理解方法。(例如，將"大約6倍的2估算為12"代替6×2=12)
　　基于記憶的推理(memory-Based Reasoning)--它是一種通過與已經(jīng)分類的同類記錄比較，給數(shù)據(jù)庫中的記錄分類的技術(shù)。因此，它也被稱為K-最互鄰(KNN：k-newest-neightor)技術(shù)。
　　混合方法--將各種不同的方法按分析需要混合使用。

http://www.ibcc.com.cn/bbs/replytopic.asp?TOPIC_ID=42&replyno=3329&Forum_ID=58

posted on 2008-02-21 17:49 渠上月閱讀(432) 評論(0) 編輯收藏所屬分類: OLAP

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發(fā)表評論。




網(wǎng)站導(dǎo)航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關(guān)文章: SSIS Connection Manager Data Types Mapping to SQL Server Data Types 使用微軟OWC中做為聯(lián)機分析系統(tǒng)前端展示工具 microsoft office web 組件（owc11）的編程（.net） (轉(zhuǎn)) Clients (Analysis Services - Multidimensional Data) jpivot聯(lián)MS的XMLA (轉(zhuǎn)) OLAP 相關(guān)的一些開源項目 Reporting Services 1: 服務(wù)器端報表數(shù)據(jù)倉庫邏輯、物理結(jié)構(gòu)及OLAP分析數(shù)據(jù)倉庫各種基礎(chǔ)設(shè)施的選擇

blog.Toby

常用鏈接

留言簿(3)

隨筆分類

隨筆檔案

文章分類

文章檔案

Securities

文章

搜索

最新評論

閱讀排行榜

評論排行榜