談談對BI的理解,杜絕“假”“大”“空”的言辭,從BI的定義、基本技術、專業名詞、實例應用及擴展等方面進行重新描述,鞏固對BI的理解。
一、BI的定義
BI是Business Intelligence的英文縮寫,中文解釋為商務智能,用來幫助企業更好地利用數據提高決策質量的技術集合,是從大量的數據中鉆取信息與知識的過程。簡單講就是業務、數據、數據價值應用的過程。用圖解的方式可以理解為下圖:

圖(1)
這樣不難看出,傳統的交易系統完成的是Business到Data的過程,而BI要做的事情是在Data的基礎上,讓Data產生價值,這個產生價值的過程就是Business Intelligence analyse的過程。
如何實現Business Intelligence analyse的過程,從技術角度來說,是一個復雜的技術集合,它包含ETL、DW、OLAP、DM等多環節,基本過程可用下圖描述。

圖(2)
上圖流程,簡單的說就是把交易系統已經發生過的數據,通過ETL工具抽取到主題明確的數據倉庫中,OLAP后生成Cube或報表,透過Portal展現給用戶,用戶利用這些經過分類(Classification)、聚集(Clustering)、描述和可視化(Description and Visualization)的數據,支持業務決策。
說明:
BI不能產生決策,而是利用BI過程處理后的數據來支持決策。哪么BI所謂的智能到底是什么呢?(理清這個概念,有助于對BI的應用。)BI最終展現給用戶的信息就是報表或圖視,但它不同于傳統的靜態報表或圖視,它顛覆了傳統報表或圖視的提供與閱讀的方式,產生的數據集合就象玩具“魔方”一樣,可以任意快速的旋轉組合報表或圖視,有力的保障了用戶分析數據時操作的簡單性、報表或圖視直觀性及思維的連慣性。
我想這是大家熱衷于BI的根本原因。
二、BI的誕生
隨著IT技術的進步,傳統的業務交易系統有了長足的發展,已經實現了業務信息化,每一筆業務數據都記錄在數據庫中,星轉斗移,累積了以TB為計量單位的業務數據記錄。也許你會問:這么多數據,占用了很多存儲設備,耗費存儲成本,卻又不經常訪問,留著它有什么用處?可以給你肯定的回答,留著這些歷史數據意義巨大,挖掘業務的規律、支持決策。
典型的案例有“尿片和啤酒”的故事, 尿片和啤酒本來是兩樣不相干的東西,可是,有人就發現,星期五在超市里購物的,購買尿片的年輕父親中有30%~40%的人同時購買啤酒。原來,星期五年輕的父親購買尿片時,還會為自己捎帶買啤酒,因為,星期五是各家電視臺轉播橄欖球賽的時間,于是,超市老板們就把尿片和啤酒捆綁銷售獲得了巨大成功。
這個故事成了一個利用數據挖掘商業價值最大化的神話。 由此看來,非常不關聯的兩樣東西,通過海量的信息數據處理,可以挖掘出它們之間潛在的關聯,將這種關聯商業化,就會得到意想不到的新業務或新的商業模式。
到底該怎樣把這些占據大量存儲空間的數據的價值挖掘出來,讓這些數據從成本的消耗者變成利潤的促進者呢?新的數據分析技術由此誕生了,完成了“數據”到“數據價值”轉換的環節,同時給這項技術起了一個響亮而又神密的名字“BI”(Business Intelligence)
三、基本技術
BI(Business Intelligence) 是一種運用了數據倉庫、在線分析和數據挖掘等技術來處理和分析數據的嶄新技術,目的是為企業決策者提供決策支持。這似乎是BI的官方定義,也是廣大BI玩家一成不變的宗旨,哪么BI技術涉及了哪些方面呢?從圖(2)中,我們不難看出其核心技術中ETL、DW及OLAP。或者說是“數據處理技術”與“數據展現技術”更加容易理解。
為什么要在操作型數據庫和 OLAP 之間加一層“數據倉庫”呢?
說一千道一萬都計算機資源與效能惹的禍,操作型數據庫以快速響應業務為主要目標,而OLAP的時候要占用大量的硬件資源,在OLAP的時候,業務操作很難快速響應,無法保證業務的順利進行,從業務、數據、數據的價值的邏輯來看,沒有業務就談不上OLAP;零星分散的數據一般存在有多個應用,對應多個業務操作型數據庫,訪問效能極其低下。綜合上述資源與效能的問題,最高效的方法就是將數據先整合到數據倉庫中,而 由OLAP應用統一從數據倉庫里取數,以解決快速響應業務與OLAP的矛盾。
但是,多了這么一層,不管ROLAP還是MOLAP都無法查看實時數據,這并不影響BI的應用,90%的BI應用都不要求實時性,允許數據有滯后,這是決策支持系統的應用特點,這個滯后區間就是數據抽取工具工作及OLAP的時間。
四、數據處理
(1)ODS,(Operational Data Store)是數據倉庫體系結構中的一個可選部分,ODS具備數據倉庫的部分特征和OLTP系統的部分特征,它是“面向主題的、集成的、當前或接近當前的、不斷變化的”數據。
一般在帶有ODS的系統體系結構中,ODS都設計都有如下特點:
1) 在業務系統和數據倉庫之間的數據過渡離層。
如果業務數據來源比較復雜,一般采用構造ODS的方法來實現收集當前需要處理的數據。如下述數據來源:
a、業務數據庫種類繁多。業務交易系統使用了不同種的數據庫,如DB2、Informix、Oracle、SQL server、文本等。
b、不同的應用系統、不同的地理位置。
c、訂閱數據源。
d、批量還原非傳統數據庫數據。
... ...等等。用于存放從業務系統直接抽取出來的數據,這些數據從數據結構、數據之間的邏輯關系上都與業務系統基本保持一致。
2) 保存當前或接近當前的細節數據,以供查詢或ETL檢錯使用。
3) 數據存儲周期性。ODS中存儲的數據都是臨時的,每次ETL之前都要清空ODS中存儲的數據。
(2)ETL,(Extract Transform Load)操作型業務數據庫(DB)到數據倉庫(DW)的過程稱之為ETL,它實現數據的抽取,轉換及裝載工作。
抽取:將數據從各種原始的業務系統中讀取出來。
轉換:按照預先設計好的規則將抽取得數據進行轉換、清洗,以及處理一些冗余、歧義的數據,使本來異構的數據格式能統一起來。
裝載:將轉換完的數據按計劃增量或全部的導入到數據倉庫中。
在技術上主要涉及增量、轉換、調度和監控等幾個方面的處理。
現在列舉一個簡單的實例,用來說明ETL。
如下表所示,是來自于四個地區的Item銷售記錄。四個地區依次是

不管使用什么方法或工具,使上述四表的數據結構變成下表所描述的結構,并填充數據,這個過程就是一個ETL的過程。

(3)DW, (Data Warehouse) 數據倉庫的官方定義是一個面向主題的(Subject Oriented)、集成的(Integrate)、相對穩定的(Non-Volatile)、反映歷史變化(Time Variant)的數據集合,用于支持管理決策。
數據倉庫的特點:
1)、面向主題。
2)、集成。
3)、非易失。
4)、時間軸。
數據庫與數據倉庫的區別如下所述:

(4)OLAP,(On-Line Analytical Processing)即聯機分析處理,是 BI的一種全新的數據封裝方式,直接產物是報表或Cube,是使分析人員、管理人員或執行人員能夠從多角度對信息進行快速、一致、交互地存取,從而獲得對數據的更深入了解的一類軟件技術。
說到OLAP,不由的想起OLTP(聯機事務處理系統),現在來比較一下OLTP與OLAP的區別,如下所述:

太理論化的東西還是少說,來看看數據表中數據是如何在立方體中表示的。
單獨察看一個Location的銷售數據,使用慣用的2-D平面數據表,完全可以滿足所有的需求,如下圖所示:

但,要是想從更多的Location的角度去分析數據,可以在2-D的平面數據的基礎上增加一個維,來表示Location的變化,如下圖所示:

概念上講,也可以以3-D的數據立方體的形式表示這些數據,如下圖所示:

假定再增加一個維,用來表示制造商的變化,哪應該如何表示數據了呢?我們按照上面的思路,可以表示成如下圖所示的數據結構,并稱之為4-D立方體。

以此類推,可以把N-D數據立方體表示為(N-1)-D數據立方體的序列。這是OLAP的基本原理,至于其中使用了何種具體的算法,來計算與管理每個“子方體”的,內容太多,不能再這里啰嗦了...
說明:
數據立方本是對多維數據存儲的一種比喻,這種數據的實際物理存儲不同于它的邏輯表示。它不限于3-D,而是N維的。
五、數據展現
數據查詢是最簡單的 BI 應用,輸出報表是BI最直接的產物,根據數據連接,加工過程及用途,應用模式大致可以分為四種:格式報表;在線分析;數據可視化;數據挖掘。
1、格式報表:帶格式的數據集合,如:交叉表等。
2、在線分析:多維數據集合,如:Cube等。
3、數據可視化:信息以盡可能多的形式展現出來,目的是使決策者通過圖形這種直觀的表現方式迅速獲得信息中蘊藏的知識,如柱圖,儀表盤等。
4、數據挖掘:從大量的數據中,抽取出潛在的、有價值的知識(模型或規則)的過程。分析方法:
· 分類 (Classification)
· 估值(Estimation)
· 預言(Prediction)
· 相關性分組或關聯規則(Affinity grouping or association rules)
· 聚集(Clustering)
· 描述和可視化(Description and Visualization)
數據挖掘號稱能通過歷史數據的分析,預測客戶的行為,而事實上,客戶自己可能都不明確自己下一步要作什么。所以,數據挖掘的結果,沒有人們想象中神秘,它不可能是完全正確的。客戶的行為是與社會環境相關連的,所以數據挖掘本身也受社會背景的影響。
六、常用的BI 廠商和產品
ETL:Informatica, SQL Server Analysis Server
DW:IBM DB2,Oracle,Sybase IQ,NCR Teradata 等等;
OLAP: Cognos,Business Objects,MicroStrategy,Hyperion,IBM
Data Mining:IBM,SAS,SPSS
現在很多的數據庫提供商都開始綁定BI的開發組件到自己的數據庫產品中,他們都瞄準了這其中的肥肉,磨拳檫掌,各論長短。
七、BI在中國
中國擁有5000年的文化史,燦爛的文件讓日常報表也非常具有凝聚力,交錯縱橫,里外相嵌,格式詭異、規則古怪、數據集中而文名于世,讓無數報表工具折腰。BI概念是從歐美引進的,現有的工具也多是歐美國家提供,中國是世界上報表最復雜的國家,報表設計風格與這些國家有明顯的差別,BI工具制作的報表傾向于僅用一張報表說明一個問題,而中國的報表傾向于將盡可能多的問題集中在一張報表中,這種思路直接導致了BI工具應用難度的提升。