<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    paulwong

    什么是BI(Business Intelligence)

    談?wù)剬?duì)BI的理解,杜絕“假”“大”“空”的言辭,從BI的定義、基本技術(shù)、專業(yè)名詞、實(shí)例應(yīng)用及擴(kuò)展等方面進(jìn)行重新描述,鞏固對(duì)BI的理解。

    一、BI的定義

    BI是Business Intelligence的英文縮寫,中文解釋為商務(wù)智能,用來(lái)幫助企業(yè)更好地利用數(shù)據(jù)提高決策質(zhì)量的技術(shù)集合,是從大量的數(shù)據(jù)中鉆取信息與知識(shí)的過(guò)程。簡(jiǎn)單講就是業(yè)務(wù)、數(shù)據(jù)、數(shù)據(jù)價(jià)值應(yīng)用的過(guò)程。用圖解的方式可以理解為下圖:

    圖(1)

    這樣不難看出,傳統(tǒng)的交易系統(tǒng)完成的是Business到Data的過(guò)程,而BI要做的事情是在Data的基礎(chǔ)上,讓Data產(chǎn)生價(jià)值,這個(gè)產(chǎn)生價(jià)值的過(guò)程就是Business Intelligence analyse的過(guò)程。
    如何實(shí)現(xiàn)Business Intelligence analyse的過(guò)程,從技術(shù)角度來(lái)說(shuō),是一個(gè)復(fù)雜的技術(shù)集合,它包含ETL、DW、OLAP、DM等多環(huán)節(jié),基本過(guò)程可用下圖描述。

    圖(2)

    上圖流程,簡(jiǎn)單的說(shuō)就是把交易系統(tǒng)已經(jīng)發(fā)生過(guò)的數(shù)據(jù),通過(guò)ETL工具抽取到主題明確的數(shù)據(jù)倉(cāng)庫(kù)中,OLAP后生成Cube或報(bào)表,透過(guò)Portal展現(xiàn)給用戶,用戶利用這些經(jīng)過(guò)分類(Classification)、聚集(Clustering)、描述和可視化(Description and Visualization)的數(shù)據(jù),支持業(yè)務(wù)決策。

    說(shuō)明:
    BI不能產(chǎn)生決策,而是利用BI過(guò)程處理后的數(shù)據(jù)來(lái)支持決策。哪么BI所謂的智能到底是什么呢?(理清這個(gè)概念,有助于對(duì)BI的應(yīng)用。)BI最終展現(xiàn)給用戶的信息就是報(bào)表或圖視,但它不同于傳統(tǒng)的靜態(tài)報(bào)表或圖視,它顛覆了傳統(tǒng)報(bào)表或圖視的提供與閱讀的方式,產(chǎn)生的數(shù)據(jù)集合就象玩具“魔方”一樣,可以任意快速的旋轉(zhuǎn)組合報(bào)表或圖視,有力的保障了用戶分析數(shù)據(jù)時(shí)操作的簡(jiǎn)單性、報(bào)表或圖視直觀性及思維的連慣性。

    我想這是大家熱衷于BI的根本原因。

    二、BI的誕生

    隨著IT技術(shù)的進(jìn)步,傳統(tǒng)的業(yè)務(wù)交易系統(tǒng)有了長(zhǎng)足的發(fā)展,已經(jīng)實(shí)現(xiàn)了業(yè)務(wù)信息化,每一筆業(yè)務(wù)數(shù)據(jù)都記錄在數(shù)據(jù)庫(kù)中,星轉(zhuǎn)斗移,累積了以TB為計(jì)量單位的業(yè)務(wù)數(shù)據(jù)記錄。也許你會(huì)問(wèn):這么多數(shù)據(jù),占用了很多存儲(chǔ)設(shè)備,耗費(fèi)存儲(chǔ)成本,卻又不經(jīng)常訪問(wèn),留著它有什么用處?可以給你肯定的回答,留著這些歷史數(shù)據(jù)意義巨大,挖掘業(yè)務(wù)的規(guī)律、支持決策。

    典型的案例有“尿片和啤酒”的故事, 尿片和啤酒本來(lái)是兩樣不相干的東西,可是,有人就發(fā)現(xiàn),星期五在超市里購(gòu)物的,購(gòu)買尿片的年輕父親中有30%~40%的人同時(shí)購(gòu)買啤酒。原來(lái),星期五年輕的父親購(gòu)買尿片時(shí),還會(huì)為自己捎帶買啤酒,因?yàn)椋瞧谖迨歉骷译娨暸_(tái)轉(zhuǎn)播橄欖球賽的時(shí)間,于是,超市老板們就把尿片和啤酒捆綁銷售獲得了巨大成功。
    這個(gè)故事成了一個(gè)利用數(shù)據(jù)挖掘商業(yè)價(jià)值最大化的神話。 由此看來(lái),非常不關(guān)聯(lián)的兩樣?xùn)|西,通過(guò)海量的信息數(shù)據(jù)處理,可以挖掘出它們之間潛在的關(guān)聯(lián),將這種關(guān)聯(lián)商業(yè)化,就會(huì)得到意想不到的新業(yè)務(wù)或新的商業(yè)模式。
    到底該怎樣把這些占據(jù)大量存儲(chǔ)空間的數(shù)據(jù)的價(jià)值挖掘出來(lái),讓這些數(shù)據(jù)從成本的消耗者變成利潤(rùn)的促進(jìn)者呢?新的數(shù)據(jù)分析技術(shù)由此誕生了,完成了“數(shù)據(jù)”到“數(shù)據(jù)價(jià)值”轉(zhuǎn)換的環(huán)節(jié),同時(shí)給這項(xiàng)技術(shù)起了一個(gè)響亮而又神密的名字“BI”(Business Intelligence)

    三、基本技術(shù)
    BI(Business Intelligence) 是一種運(yùn)用了數(shù)據(jù)倉(cāng)庫(kù)、在線分析和數(shù)據(jù)挖掘等技術(shù)來(lái)處理和分析數(shù)據(jù)的嶄新技術(shù),目的是為企業(yè)決策者提供決策支持。這似乎是BI的官方定義,也是廣大BI玩家一成不變的宗旨,哪么BI技術(shù)涉及了哪些方面呢?從圖(2)中,我們不難看出其核心技術(shù)中ETL、DW及OLAP。或者說(shuō)是“數(shù)據(jù)處理技術(shù)”與“數(shù)據(jù)展現(xiàn)技術(shù)”更加容易理解。

    為什么要在操作型數(shù)據(jù)庫(kù)和 OLAP 之間加一層“數(shù)據(jù)倉(cāng)庫(kù)”呢?
    說(shuō)一千道一萬(wàn)都計(jì)算機(jī)資源與效能惹的禍,操作型數(shù)據(jù)庫(kù)以快速響應(yīng)業(yè)務(wù)為主要目標(biāo),而OLAP的時(shí)候要占用大量的硬件資源,在OLAP的時(shí)候,業(yè)務(wù)操作很難快速響應(yīng),無(wú)法保證業(yè)務(wù)的順利進(jìn)行,從業(yè)務(wù)、數(shù)據(jù)、數(shù)據(jù)的價(jià)值的邏輯來(lái)看,沒有業(yè)務(wù)就談不上OLAP;零星分散的數(shù)據(jù)一般存在有多個(gè)應(yīng)用,對(duì)應(yīng)多個(gè)業(yè)務(wù)操作型數(shù)據(jù)庫(kù),訪問(wèn)效能極其低下。綜合上述資源與效能的問(wèn)題,最高效的方法就是將數(shù)據(jù)先整合到數(shù)據(jù)倉(cāng)庫(kù)中,而 由OLAP應(yīng)用統(tǒng)一從數(shù)據(jù)倉(cāng)庫(kù)里取數(shù),以解決快速響應(yīng)業(yè)務(wù)與OLAP的矛盾。
    但是,多了這么一層,不管ROLAP還是MOLAP都無(wú)法查看實(shí)時(shí)數(shù)據(jù),這并不影響B(tài)I的應(yīng)用,90%的BI應(yīng)用都不要求實(shí)時(shí)性,允許數(shù)據(jù)有滯后,這是決策支持系統(tǒng)的應(yīng)用特點(diǎn),這個(gè)滯后區(qū)間就是數(shù)據(jù)抽取工具工作及OLAP的時(shí)間。

    四、數(shù)據(jù)處理

    (1)ODS,(Operational Data Store)是數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)中的一個(gè)可選部分,ODS具備數(shù)據(jù)倉(cāng)庫(kù)的部分特征和OLTP系統(tǒng)的部分特征,它是“面向主題的、集成的、當(dāng)前或接近當(dāng)前的、不斷變化的”數(shù)據(jù)。

    一般在帶有ODS的系統(tǒng)體系結(jié)構(gòu)中,ODS都設(shè)計(jì)都有如下特點(diǎn):
    1) 在業(yè)務(wù)系統(tǒng)和數(shù)據(jù)倉(cāng)庫(kù)之間的數(shù)據(jù)過(guò)渡離層。
    如果業(yè)務(wù)數(shù)據(jù)來(lái)源比較復(fù)雜,一般采用構(gòu)造ODS的方法來(lái)實(shí)現(xiàn)收集當(dāng)前需要處理的數(shù)據(jù)。如下述數(shù)據(jù)來(lái)源:
    a、業(yè)務(wù)數(shù)據(jù)庫(kù)種類繁多。業(yè)務(wù)交易系統(tǒng)使用了不同種的數(shù)據(jù)庫(kù),如DB2、Informix、Oracle、SQL server、文本等。
    b、不同的應(yīng)用系統(tǒng)、不同的地理位置。
    c、訂閱數(shù)據(jù)源。
    d、批量還原非傳統(tǒng)數(shù)據(jù)庫(kù)數(shù)據(jù)。
    ... ...等等。用于存放從業(yè)務(wù)系統(tǒng)直接抽取出來(lái)的數(shù)據(jù),這些數(shù)據(jù)從數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)之間的邏輯關(guān)系上都與業(yè)務(wù)系統(tǒng)基本保持一致。
    2) 保存當(dāng)前或接近當(dāng)前的細(xì)節(jié)數(shù)據(jù),以供查詢或ETL檢錯(cuò)使用。
    3) 數(shù)據(jù)存儲(chǔ)周期性。ODS中存儲(chǔ)的數(shù)據(jù)都是臨時(shí)的,每次ETL之前都要清空ODS中存儲(chǔ)的數(shù)據(jù)。

    (2)ETL,(Extract Transform Load)操作型業(yè)務(wù)數(shù)據(jù)庫(kù)(DB)到數(shù)據(jù)倉(cāng)庫(kù)(DW)的過(guò)程稱之為ETL,它實(shí)現(xiàn)數(shù)據(jù)的抽取,轉(zhuǎn)換及裝載工作。

    抽取:將數(shù)據(jù)從各種原始的業(yè)務(wù)系統(tǒng)中讀取出來(lái)。
    轉(zhuǎn)換:按照預(yù)先設(shè)計(jì)好的規(guī)則將抽取得數(shù)據(jù)進(jìn)行轉(zhuǎn)換、清洗,以及處理一些冗余、歧義的數(shù)據(jù),使本來(lái)異構(gòu)的數(shù)據(jù)格式能統(tǒng)一起來(lái)。
    裝載:將轉(zhuǎn)換完的數(shù)據(jù)按計(jì)劃增量或全部的導(dǎo)入到數(shù)據(jù)倉(cāng)庫(kù)中。
    在技術(shù)上主要涉及增量、轉(zhuǎn)換、調(diào)度和監(jiān)控等幾個(gè)方面的處理。

    現(xiàn)在列舉一個(gè)簡(jiǎn)單的實(shí)例,用來(lái)說(shuō)明ETL。
    如下表所示,是來(lái)自于四個(gè)地區(qū)的Item銷售記錄。四個(gè)地區(qū)依次是



    不管使用什么方法或工具,使上述四表的數(shù)據(jù)結(jié)構(gòu)變成下表所描述的結(jié)構(gòu),并填充數(shù)據(jù),這個(gè)過(guò)程就是一個(gè)ETL的過(guò)程。


    (3)DW, (Data Warehouse) 數(shù)據(jù)倉(cāng)庫(kù)的官方定義是一個(gè)面向主題的(Subject Oriented)、集成的(Integrate)、相對(duì)穩(wěn)定的(Non-Volatile)、反映歷史變化(Time Variant)的數(shù)據(jù)集合,用于支持管理決策。

    數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn):
    1)、面向主題。
    2)、集成。
    3)、非易失。
    4)、時(shí)間軸。

    數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)的區(qū)別如下所述:


    (4)OLAP,(On-Line Analytical Processing)即聯(lián)機(jī)分析處理,是 BI的一種全新的數(shù)據(jù)封裝方式,直接產(chǎn)物是報(bào)表或Cube,是使分析人員、管理人員或執(zhí)行人員能夠從多角度對(duì)信息進(jìn)行快速、一致、交互地存取,從而獲得對(duì)數(shù)據(jù)的更深入了解的一類軟件技術(shù)。

    說(shuō)到OLAP,不由的想起OLTP(聯(lián)機(jī)事務(wù)處理系統(tǒng)),現(xiàn)在來(lái)比較一下OLTP與OLAP的區(qū)別,如下所述:


    太理論化的東西還是少說(shuō),來(lái)看看數(shù)據(jù)表中數(shù)據(jù)是如何在立方體中表示的。
    單獨(dú)察看一個(gè)Location的銷售數(shù)據(jù),使用慣用的2-D平面數(shù)據(jù)表,完全可以滿足所有的需求,如下圖所示:


    但,要是想從更多的Location的角度去分析數(shù)據(jù),可以在2-D的平面數(shù)據(jù)的基礎(chǔ)上增加一個(gè)維,來(lái)表示Location的變化,如下圖所示:


    概念上講,也可以以3-D的數(shù)據(jù)立方體的形式表示這些數(shù)據(jù),如下圖所示:


    假定再增加一個(gè)維,用來(lái)表示制造商的變化,哪應(yīng)該如何表示數(shù)據(jù)了呢?我們按照上面的思路,可以表示成如下圖所示的數(shù)據(jù)結(jié)構(gòu),并稱之為4-D立方體。


    以此類推,可以把N-D數(shù)據(jù)立方體表示為(N-1)-D數(shù)據(jù)立方體的序列。這是OLAP的基本原理,至于其中使用了何種具體的算法,來(lái)計(jì)算與管理每個(gè)“子方體”的,內(nèi)容太多,不能再這里啰嗦了...
    說(shuō)明:
    數(shù)據(jù)立方本是對(duì)多維數(shù)據(jù)存儲(chǔ)的一種比喻,這種數(shù)據(jù)的實(shí)際物理存儲(chǔ)不同于它的邏輯表示。它不限于3-D,而是N維的。

    五、數(shù)據(jù)展現(xiàn)

    數(shù)據(jù)查詢是最簡(jiǎn)單的 BI 應(yīng)用,輸出報(bào)表是BI最直接的產(chǎn)物,根據(jù)數(shù)據(jù)連接,加工過(guò)程及用途,應(yīng)用模式大致可以分為四種:格式報(bào)表;在線分析;數(shù)據(jù)可視化;數(shù)據(jù)挖掘。

    1、格式報(bào)表:帶格式的數(shù)據(jù)集合,如:交叉表等。

    2、在線分析:多維數(shù)據(jù)集合,如:Cube等。

    3、數(shù)據(jù)可視化:信息以盡可能多的形式展現(xiàn)出來(lái),目的是使決策者通過(guò)圖形這種直觀的表現(xiàn)方式迅速獲得信息中蘊(yùn)藏的知識(shí),如柱圖,儀表盤等。

    4、數(shù)據(jù)挖掘:從大量的數(shù)據(jù)中,抽取出潛在的、有價(jià)值的知識(shí)(模型或規(guī)則)的過(guò)程。分析方法:

    · 分類 (Classification)

    · 估值(Estimation)

    · 預(yù)言(Prediction)

    · 相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinity grouping or association rules)

    · 聚集(Clustering)

    · 描述和可視化(Description and Visualization)

    數(shù)據(jù)挖掘號(hào)稱能通過(guò)歷史數(shù)據(jù)的分析,預(yù)測(cè)客戶的行為,而事實(shí)上,客戶自己可能都不明確自己下一步要作什么。所以,數(shù)據(jù)挖掘的結(jié)果,沒有人們想象中神秘,它不可能是完全正確的。客戶的行為是與社會(huì)環(huán)境相關(guān)連的,所以數(shù)據(jù)挖掘本身也受社會(huì)背景的影響。

    六、常用的BI 廠商和產(chǎn)品

    ETL:Informatica, SQL Server Analysis Server

    DW:IBM DB2,Oracle,Sybase IQ,NCR Teradata 等等;

    OLAP: Cognos,Business Objects,MicroStrategy,Hyperion,IBM

    Data Mining:IBM,SAS,SPSS

    現(xiàn)在很多的數(shù)據(jù)庫(kù)提供商都開始綁定BI的開發(fā)組件到自己的數(shù)據(jù)庫(kù)產(chǎn)品中,他們都瞄準(zhǔn)了這其中的肥肉,磨拳檫掌,各論長(zhǎng)短。

    七、BI在中國(guó)

    中國(guó)擁有5000年的文化史,燦爛的文件讓日常報(bào)表也非常具有凝聚力,交錯(cuò)縱橫,里外相嵌,格式詭異、規(guī)則古怪、數(shù)據(jù)集中而文名于世,讓無(wú)數(shù)報(bào)表工具折腰。BI概念是從歐美引進(jìn)的,現(xiàn)有的工具也多是歐美國(guó)家提供,中國(guó)是世界上報(bào)表最復(fù)雜的國(guó)家,報(bào)表設(shè)計(jì)風(fēng)格與這些國(guó)家有明顯的差別,BI工具制作的報(bào)表傾向于僅用一張報(bào)表說(shuō)明一個(gè)問(wèn)題,而中國(guó)的報(bào)表傾向于將盡可能多的問(wèn)題集中在一張報(bào)表中,這種思路直接導(dǎo)致了BI工具應(yīng)用難度的提升。

    posted on 2009-08-20 21:24 paulwong 閱讀(193) 評(píng)論(0)  編輯  收藏 所屬分類: J2EE

    主站蜘蛛池模板: 亚洲AV日韩综合一区尤物 | 78成人精品电影在线播放日韩精品电影一区亚洲 | 亚洲色少妇熟女11p| www成人免费观看网站| 91九色视频无限观看免费| 国产精品久久香蕉免费播放| 亚洲AV无码成人精品区在线观看 | 久久香蕉国产线看免费| 日韩一区二区在线免费观看| 亚洲va无码va在线va天堂| 亚洲欧美日韩中文无线码| 国产免费无码一区二区| 国产成人精品免费视频大全五级| 久久国产亚洲电影天堂| 美女视频黄视大全视频免费的| 91在线老王精品免费播放| 亚洲精品无码成人片在线观看| 亚洲一级毛片免费观看| 99久久国产精品免费一区二区| 免费毛片在线视频| 久久精品国产亚洲av影院| 无码的免费不卡毛片视频 | 一本岛高清v不卡免费一三区| 久久乐国产精品亚洲综合| 亚洲欧美国产国产一区二区三区 | 免费看国产曰批40分钟| 亚洲无人区视频大全| 91视频免费观看| mm1313亚洲精品无码又大又粗| 亚洲天堂2017无码中文| 久久久国产精品无码免费专区| 夜色阁亚洲一区二区三区| 亚洲国产日韩综合久久精品| 热re99久久6国产精品免费| 久久精品夜色噜噜亚洲A∨| 亚洲av永久无码精品网址| 日韩欧毛片免费视频| 久久精品国产亚洲AV香蕉| 成人爽a毛片免费| 亚洲人成影院在线观看| 亚洲AV无码专区亚洲AV桃|