<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    blog.Toby

      BlogJava :: 首頁 :: 新隨筆 :: 聯(lián)系 :: 聚合  :: 管理 ::
      130 隨筆 :: 2 文章 :: 150 評論 :: 0 Trackbacks
    根據(jù)Bill Inmon對數(shù)據(jù)倉庫的概括,數(shù)據(jù)倉庫由以下幾個部分構(gòu)成:數(shù)據(jù)的收集 、數(shù)據(jù)存儲和管理、聯(lián)機分析處理和決策支持開發(fā)應(yīng)用環(huán)境。除各個 部分硬件平臺的選擇,對數(shù)據(jù)倉庫的基礎(chǔ)設(shè)施的選擇,也就是對以下四個部分各種軟件的選擇。
    1、數(shù)據(jù)的收集--數(shù)據(jù)的抽取、轉(zhuǎn)換和裝載(ETL)
      數(shù)據(jù)的收集--從原有的系統(tǒng)中有效地、高效地抽取、凈化、轉(zhuǎn)換和裝載數(shù)據(jù)的問題,在數(shù)據(jù)倉庫的建立過程中,已變得日益突出。當(dāng)數(shù)據(jù)倉庫的數(shù)據(jù)量非常大的時候,數(shù)據(jù)收集的高效性就變得更加必要,否則就會加大客戶的投資。
      采用什么樣的方案來滿足ETL的要求,以支持商務(wù)和環(huán)境所要求的數(shù)據(jù)倉庫、數(shù)據(jù)庫合并和系統(tǒng)主題重構(gòu)就成為用戶選擇的問題。
      1)Programming (手工編程)
      2)Program Generator(編程源)(如COBOL編程)
      3)TOOL(工具)模塊化(批處理方式)如:Ardent公司的Infomoter產(chǎn)品
      早期的ETL操作都第一種或第二種方式來實現(xiàn)的,現(xiàn)在ETL工具是數(shù)據(jù)收集的主流。現(xiàn)在用戶所要決策的已不再是關(guān)于技術(shù)方面的選擇,而更多是關(guān)于管理方面的選擇,如:
      快捷解決方案--目的是盡可能快地獲得信息;
      系統(tǒng)解決方案--平滑地、有效地、高效地實現(xiàn)ETL處理過程。
      事實上,這兩個方面都很需要考慮。 在數(shù)據(jù)倉庫初始建立的時候, 或是時間緊急的項目,快速解決方案會被認(rèn)為非常有效。它會作為一種嘗試或模型建立,以后便會產(chǎn)生出更多的系統(tǒng)的解決方案。所以,系統(tǒng)的數(shù)據(jù)抽取和轉(zhuǎn)換的方案將會適應(yīng)大多數(shù)問題,如:數(shù)據(jù)質(zhì)量。
      以下列舉商務(wù)需求和條件的問題,會對用戶在ETL工具上的選擇提供一些幫助:
      對系統(tǒng)數(shù)據(jù)的知識基礎(chǔ)是否充分;
      數(shù)據(jù)抽取/裝載操作是一次完成,還是不斷/反復(fù)操作;
      關(guān)注的焦點是數(shù)據(jù)內(nèi)涵的質(zhì)量,還是補償式的傳遞數(shù)據(jù);
      數(shù)據(jù)質(zhì)量問題是特殊性的(例如是針對客戶或銷售額),還是普遍性的);
      使用現(xiàn)成集成套件工具,還是自己有針對性的開發(fā);
      數(shù)據(jù)抽取/轉(zhuǎn)換是集中管理,還是分布管理;
      數(shù)據(jù)抽取/轉(zhuǎn)換是通過參數(shù)控制,還是編程控制。
    2、OLAP--聯(lián)機分析處理
      OLTP系統(tǒng)中的數(shù)據(jù)處理是高度結(jié)構(gòu)化的、復(fù)雜數(shù)據(jù)模型操作,每一次事務(wù)處理通常只涉及一兩張表,并且只對一行記錄進(jìn)行操作。這說明復(fù)雜的表關(guān)系不會影響到系統(tǒng)的性能、DSS處理,正相反,它的一次操作要涉及幾百張表的上千行數(shù)據(jù)。在這種情況下,復(fù)雜的表連接會嚴(yán)重影響性能。所以 , 性 能 是 傳 統(tǒng) 的 實 體 - 關(guān)系(ER)模型不能滿足決策支持環(huán)境的重要原因之一。
      第二個原因,典型的ER模式過于復(fù)雜且難以導(dǎo)航。在OLTP系統(tǒng)中,這不是一個問題,使用和訪問數(shù)據(jù)的路徑非常明了,應(yīng)用可以硬編碼來使用特殊的數(shù)據(jù)結(jié)構(gòu)。但在DSS環(huán)境下,數(shù)據(jù)的使用是非結(jié)構(gòu)化的;用戶僅僅在分析的時候才查找有關(guān)數(shù)據(jù),這個查找條件是隨機的。
      由于傳統(tǒng)的數(shù)據(jù)分析軟件不適用于動態(tài)數(shù)據(jù)分析,而關(guān)系數(shù)據(jù)庫雖然具有一定的數(shù)據(jù)視圖選取和比較、綜合的能力,但它仍然受到數(shù)據(jù)分析能力局限性的制約,所以產(chǎn)生了一種針對特定問題的聯(lián)機數(shù)據(jù)訪問和數(shù)據(jù)分析的技術(shù),E. F. Codd將這種技術(shù)定義為"OTAP",并定義了十二條評價OLAP產(chǎn)品的準(zhǔn)則 ,即:
      1)OLAP模型必須提供多維概念視圖;
      2)透明性準(zhǔn)則;
      3)存取能力準(zhǔn)則;
      4)穩(wěn)定的報表性能;
      5)客戶/服務(wù)器體系結(jié)構(gòu);
      6)維的等同性準(zhǔn)則;
      7)動態(tài)稀疏矩陣處理準(zhǔn)則;
      8)多用戶支持能力準(zhǔn)則;
      9)非受限的跨維操作;
      10)直觀的數(shù)據(jù)處理;
      11)靈活地生成報表;
      12)非受限的維與維的層次 。
      現(xiàn)在市場中有很多OLAP產(chǎn)品和工具,以多維立方體(cube)的存放(管理)在整個數(shù)據(jù)倉庫系統(tǒng)的位置劃分,可分為三類:
      1)客戶端(MicroCube);
      2)多維數(shù)據(jù)庫服務(wù)器(MDDB)(HyperCube);
      3)關(guān)系數(shù)據(jù)庫服務(wù)器(ROLAP)。
      第一種利用查詢工具對Cube進(jìn)入管理,但這僅適用于簡單的二維查詢報告。
      MDDB和ROLAP都允許用戶從多個觀察角度來定義和查詢數(shù)據(jù),但由于ROLAP技術(shù)與關(guān)系數(shù)據(jù)庫的緊密結(jié)合,在存儲和管理能力上、在適應(yīng)性方面,ROLAP要比MDDB具有更強"魯棒"性。例如:一個3×3×3的立方體,(每維有3個維成員的三維Cube),共有27個數(shù)據(jù)單元。若根據(jù)分析需要,在每一維 上 增 加 一 個 新 的 維 成 員 , 則 該 邏 輯 立 方 體 (Cube) 變成4×4×4,共64個數(shù)據(jù)單 元。所以,如果沒有很強的數(shù)據(jù)存儲和管理能力,是不能勝任和適應(yīng)復(fù)雜的分析環(huán)境。
    3 數(shù)據(jù)庫服務(wù)器
       數(shù)據(jù)倉庫或數(shù)據(jù)集市與一般數(shù)據(jù)庫應(yīng)用比較而言,在規(guī)模上和數(shù)據(jù)量上要大得多。Gartner集團的有關(guān)報告說,"數(shù)據(jù)倉庫最少也要支持幾百個用戶,查詢范圍從簡單的索引檢查到復(fù)雜的對比分析。"目前的數(shù)據(jù)倉庫的數(shù)據(jù)量已經(jīng)超過了千千兆字節(jié)(TB)級。所以,關(guān)系數(shù)據(jù)庫服務(wù)器無疑是數(shù)據(jù)倉庫的核心。
      在數(shù)據(jù)倉庫中數(shù)據(jù)庫的關(guān)鍵技術(shù)規(guī)納如下:
      開放的動態(tài)可伸縮體系結(jié)構(gòu);
      數(shù)據(jù)庫并行數(shù)據(jù)操作的能力;
      對并行硬臺環(huán)境的支持能力;
      針對決策支持的增強特性;
      服務(wù)器的可靠性、可用性和可服務(wù)性(RAS);
      新的商務(wù)邏輯的擴展性;
      高度靈活性(Windows NT、UNIX);
      多用戶的支持。

    4 工具
      實現(xiàn)數(shù)據(jù)倉庫的最終目的是響應(yīng)用戶的要求,如資深的財務(wù)、商務(wù)分析員和行業(yè)銷售等,他們要訪問企業(yè)的分析數(shù)據(jù)或信息而作出更好的商業(yè)決策,大多數(shù)客戶不僅要求直接訪問企業(yè)數(shù)據(jù),他們還要求在數(shù)據(jù)倉庫不斷增長的時候,減少查詢的復(fù)雜性并加快查詢的速度和分析的速度。那么什么工具能夠幫助最終用戶訪問數(shù)據(jù)呢?
      電子數(shù)據(jù)表(如:Microsoft Excel)
      個人數(shù)據(jù)庫(如:Lotus Approch)
      查詢和報告工具(如:Brio Intelligence、Business Objects)
      EIS/DSS鉆取/導(dǎo)航工具(如:Brio Intelligence、Coguos Powerplay)
      多維分析/ROLAP(如:Informix Metacube)
      (注:目前,電子數(shù)據(jù)表增長緩慢,多維分析/ROLAP日益受到青睞)
      數(shù)據(jù)倉庫的訪問工具目前增長迅速,而且種類豐富。所以,用戶可根據(jù)自己的應(yīng)用要求和應(yīng)用展示數(shù)據(jù)的風(fēng)格來選擇不同的訪問工具。因此,要求數(shù)據(jù)倉庫解決方案對訪問工具必須采取開放的策略,才能滿足用戶的真正要求。
    5 數(shù)據(jù)挖掘(Data Mining)或數(shù)據(jù)庫知識發(fā)現(xiàn)(KDD-Knowledge Discovery Database)
      現(xiàn)代企業(yè)總是想在保留住原有用戶的基礎(chǔ)上,開發(fā)新的用戶,數(shù)據(jù)倉庫已經(jīng)成為這些企業(yè)的關(guān)鍵業(yè)務(wù)應(yīng)用。它們利用數(shù)據(jù)倉庫在產(chǎn)品、價格、投資、分配等方面,基于事實而不是基于管理直覺地作出決策。但是如何從浩如煙海的企業(yè)信息資料庫中擠壓出更有價值的信息,答案就是數(shù)據(jù)挖掘。人們試圖在數(shù)據(jù)對等的、不明顯的和不可預(yù)知的模式中發(fā)現(xiàn)信息的模式、趨勢以及關(guān)系。有一點必須強調(diào):數(shù)據(jù)挖掘是建立數(shù)據(jù)倉庫之上的決策技術(shù)。
      對數(shù)據(jù)挖掘的定義通常是這樣的:
      數(shù)據(jù)挖掘或數(shù)據(jù)庫知識發(fā)現(xiàn)是從數(shù)據(jù)中找出隱含的、預(yù)先未知的和潛在的有用信息的專門抽取操作。它包含大量不同的技術(shù)手段,如聚集、數(shù)據(jù)總計、學(xué)習(xí)分類規(guī)則、發(fā)現(xiàn)絕對工作的依賴性、分析變化和異常偵測。
      下圖描述了在數(shù)據(jù)挖掘和知識發(fā)現(xiàn)過程中不同階段和處理的標(biāo)識。
      收集--根據(jù)某些標(biāo)準(zhǔn)收集或截取數(shù)據(jù)記錄。
      預(yù)處理--這是數(shù)據(jù)清洗階段,在這個階段將那樣認(rèn)為不必要的信息刪除,并將所需數(shù)據(jù)配制成一致的數(shù)據(jù)格式。
      轉(zhuǎn)換--將數(shù)據(jù)傳輸,并轉(zhuǎn)換成帶有標(biāo)識(overlay)的數(shù)據(jù),使數(shù)據(jù)變得可用和可導(dǎo)航。
      數(shù)據(jù)挖掘--這是從數(shù)據(jù)中做模式抽取的階段。
      解決與評估--經(jīng)系統(tǒng)標(biāo)識的模式被解釋成能在將來領(lǐng)導(dǎo)決策的知識。
      范疇分析支持?jǐn)?shù)據(jù)挖掘的兩個主要階段:建立模型和預(yù)測未來結(jié)果。簡單的說,一個模型就是闡明輸入對輸出影響的數(shù)學(xué)公式。由于它是數(shù)學(xué)公式,所以它可以通過對基本數(shù)據(jù)不斷理解的交互處理而不斷提煉和調(diào)整,達(dá)到可以接受的精確程度。在決策過程中,決策者提出的問題千差萬別,解決問題的方法論也就各不相同,因此,可以使用很多技術(shù)建立這些模型。
      統(tǒng)計分析--最早使用的,并且最容易理解的技術(shù)。
      神經(jīng)網(wǎng)絡(luò)--隨著近幾年人工智能工具的流行,人們試圖通過數(shù)學(xué)的方法來模仿人腦認(rèn)知工作過程。
      決策樹--是一種概念簡單(if-then)的數(shù)學(xué)方法。
      遺傳算法--該技術(shù)來自于對微生物通過自然的選擇和遺傳的結(jié)合如何進(jìn)化的研究。
      模糊邏輯--簡單地說,是一種對數(shù)學(xué)公式新的理解方法。(例如,將"大約6倍的2估算為12"代替6×2=12)
      基于記憶的推理(memory-Based Reasoning)--它是一種通過與已經(jīng)分類的同類記錄比較,給數(shù)據(jù)庫中的記錄分類的技術(shù)。因此,它也被稱為K-最互鄰(KNN:k-newest-neightor)技術(shù)。
      混合方法--將各種不同的方法按分析需要混合使用。

    http://www.ibcc.com.cn/bbs/replytopic.asp?TOPIC_ID=42&replyno=3329&Forum_ID=58
    posted on 2008-02-21 17:49 渠上月 閱讀(432) 評論(0)  編輯  收藏 所屬分類: OLAP
    主站蜘蛛池模板: 亚洲综合色成在线播放| 午夜网站免费版在线观看| 亚洲精品国产电影| 理论亚洲区美一区二区三区| 91在线视频免费看| 亚洲人成综合在线播放| ww在线观视频免费观看| 精品国产免费一区二区三区| 亚洲精品国自产拍在线观看| 一级黄色免费大片| AV在线亚洲男人的天堂| 中国极品美軳免费观看| 亚洲大成色www永久网站| 日本视频免费高清一本18| 亚洲人成影院在线无码按摩店| 抽搐一进一出gif免费视频| 亚洲一区二区三区香蕉| 精品国产一区二区三区免费| 亚洲国产精品第一区二区| 四虎成人精品永久免费AV| 内射干少妇亚洲69XXX| 最近中文字幕免费完整| 亚洲午夜一区二区三区| 国产美女精品久久久久久久免费| 免费无码AV一区二区| 亚洲色婷婷一区二区三区| 37pao成人国产永久免费视频| 亚洲国产午夜电影在线入口| 成全视频免费高清| 一二三区免费视频| 亚洲男人天堂2017| 午夜神器成在线人成在线人免费| 国产亚洲成在线播放va| 亚洲AV无码乱码国产麻豆| 欧美日韩亚洲精品| 国产亚洲精品久久久久秋霞| 久久99精品视免费看| 一区二区亚洲精品精华液| 久久久久亚洲精品无码网址 | 在线日韩日本国产亚洲| 午夜免费福利视频|