?商業智能是企業利用現代信息技術收集、管理和分析結構化和非結構化的商務數據和信息,創造和累計商務知識和見解,改善商務決策水平,采取有效的商務行動,完善各種商務流程,提升各方面商務績效,增強綜合競爭力的智慧和能力。
通俗點講,商務智能就好比“數據煉油廠”,即把商業活動中累積的數據加工成可用于支持商業決策的信息
?
BI的范圍很廣,在實際商務中我們往往只需運用其中的某個部分就可以暫時滿足企業的需求,如數據倉庫,聯機事務分析(OLAP),數據挖掘,決策支持系統(DDS)等。其實,整個BI的框架結構可以用下面的圖中間的三部分(數據預處理、數據倉庫、數據分析)來表示:
就我理解,商業智能的最終目的就是提供給決策者一份站在戰略層角度統觀全局,及時的,在短時間內可以讀完,為企業決策服務的統計報表。BI專家把這個任務分解為三個子任務:
1)
為了整合各種格式的數據,清除原有數據中的錯誤記錄,專家們提出了數據預處理的要求
——ETL(
數據抽取、轉換、裝載
)
;
很多企業同時采用了多個在線事務處理系統,而這些系統之間的數據定義格式不盡相同,我們必須先定義一個統一的數據格式,然后把各個來源的數據按新的統一的格式進行轉換,然后集中裝載入數據倉庫中。但并不是各個來源的不同格式的所有數據都能被新的統一格式包容,我們也不應強求非要把所有數據源的數據全部集中起來。有可能原來錄入的數據中,少量的記錄使用了錯誤的數據,這類數據如果無法校正,應該被舍去。某些數據記錄是非結構化的,很難將其轉化成新定義的統一格式,而且從中抽取信息必須讀取整個文件,效率極低,如大容量的二進制數據文件,多媒體文件等,這類數據如果對企業決策不大,可以舍去
2)
對預處理過數據,應該統一集中起來,由此產生了元數據
(Meta data)
、數據倉庫
(Data Warehouse)
;
數據倉庫是
BI
的基礎,有如下四個特性:
①面向主題的:不同類型的公司,其主題集合是不相同的。
②集成的:數據倉庫的數據來源很廣,數據倉庫最重要的目的就是為了集成這些不同數據源的數據。
③非易失的:和傳統的操作型數據庫系統相比,數據倉庫通常是以批量方式載入和訪問。而且,對于數據倉庫中的記錄,并不進行一般意義上的數據更新,刪除。所有的歷史數據都會被保留,通常我們只是不停的批量導入新的數據。
④隨時間變化的:操作型數據庫系統出于性能上的考慮,并不保存系統投入運行后所產生的所有數據,一般只保留最新的
60~90
天內所產生的數據記錄。。
?
3)
最后,對于集中起來的龐大的數據集,還應進行相應的專業統計和開發應用,從中發掘出對企業決策有價值的新的機會,這就是
OLAP(
聯機事務分析
)
和數據挖掘
(Data Mining)
。
數據挖掘(
Data Mining
,
DM
)是指從大量不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、有用的信息和知識的過程。
CRISP-DM
(
Cross-Industry Standard Process for Data Mining
)就是公認的、很有影響的數據挖掘方法論之一。
CRISP-DM
強調,
DM
不單是數據的組織或者呈現,也不僅是數據分析和統計建模,而是一個從理解業務需求、尋求解決方案到接受實踐檢驗的完整過程。
CRISP-DM
將整個挖掘過程分為以下六個階段:商業理解(
Business Understanding
),數據理解
(Data Understanding)
,數據準備
(Data Preparation)
,建模
(Modeling)
,評估
(Evaluation)
和發布
(Deployment)
。其框架圖如下:
?
從技術層來看,數據挖掘技術可分為描述型數據挖掘和預測型數據挖掘兩種。描述型數據挖掘包括數據總結、聚類及關聯分析等。預測型數據挖掘包括分類、回歸及時間序列分析等。
凡是有該標志的文章,都是該blog博主Caoer(草兒)原創,凡是索引、收藏
、轉載請注明來處和原文作者。非常感謝。