第一章 緒論
1.1 論文的選題背景
以往的基于數理統(tǒng)計方法的應用大多都是通過專用程序來實現的,我們知道,大多數的統(tǒng)計分析技術是基于嚴格的數學理論和高超的應用技巧的,這使得一般的用戶很難從容地掌握它。數據挖掘技術是數理統(tǒng)計分析應用的延伸和發(fā)展,假如人們利用數據庫的方式從被動地查詢變成了主動發(fā)現知識的話,那么概率論和數理統(tǒng)計可以為我們從數據歸納知識這樣的數據挖掘技術提供理論基礎[1] 。
目前國內各基層和中層的統(tǒng)計部門卻面臨一個相同的問題:在信息化技術的推動下,如何將傳統(tǒng)的統(tǒng)計方法與計算機技術相結合,在一個集成的應用環(huán)境中高效快捷的完成統(tǒng)計工作,同時對已有的數據進行更深入地分析并做出推斷和決策。依靠過去人工的經驗預測方法已經不能滿足實際工作的要求,政府工作中對統(tǒng)計部門的數據分析和推斷的要求卻在不斷加強,新的理論和方法以及相應的實現技術成為迫切的需要。
國家在編制國民經濟計劃、進行企業(yè)管理以及從事科學研究的時候,都離不開利用某些數字資料,比如研究對外貿易的情況時,需要知道全國進出口貿易總額,主要的商品進出口數量等。統(tǒng)計資料就是通過數字反映一定空間、時間條件下,客觀現象的具體數量特征的。這些資料通過基層逐級的向上匯總,其間就是一個搜集和整理的過程,基層數據的準確性和有效性直接影響到最終國家統(tǒng)計數據的可信性。政府部門還要根據這些資料做出必要的統(tǒng)計推斷,也就是更為復雜的統(tǒng)計分析。
通過深入調查研究,目前上海市區(qū)級政府統(tǒng)計部門的統(tǒng)計工作者對于統(tǒng)計信息管理系統(tǒng)普遍存在以下的要求:
a) 靈活的自定義查詢方式。
b) 數據多級匯總,允許指標派生。
c) 允許使用人員從時間、空間和各種分類的角度查看各種粒度的匯總數據。
d) 等距和不等距的數據抽樣,抽樣間距可以指定。
e) 發(fā)現統(tǒng)計數據間的關聯關系,比如近年來房地產投資受哪些經濟指標影響,并對其變化趨勢做出初步的預測。
顯然,如果說前幾條是查詢、匯總級別的,那么最后一條就是分析、挖掘級別的。這些要求都具有很強的實踐背景,是根據多年統(tǒng)計工作的經驗得出的,實際上也是目前各地基層和中層政府統(tǒng)計部門借助計算機亟待解決的問題。應對這樣的需求,傳統(tǒng)的OLTP(聯機事務處理)技術已不能滿足,因為它無法高效地實現利用多維等高級數據模型進行數據的聚合,并且缺乏較強的分析和預測功能,面對具有多維數據特征的統(tǒng)計數據庫更是如此。因此,帶有挖掘功能的聯機分析技術OLAM(聯機分析挖掘),成為我們關注的焦點。畢竟聯機分析挖掘技術很大程度上來源于傳統(tǒng)的統(tǒng)計方法,當然可以反過來應用到統(tǒng)計活動中并推動其發(fā)展。
1.2 OLAM的概念
1997年韓家偉教授提出了OLAM的概念,他把OLAM定義為OLAP Mining,指將OLAP和數據挖掘技術結合起來,在多維數據模型——數據立方體的基礎上對外提供數據分析和知識發(fā)現應用。這實際上是在OLAP系統(tǒng)的基礎上對數據分析算法進行擴充,把數據挖掘算法引入多維數據模型的數據環(huán)境中來[2][3]。
1.3 國內外應用狀況
OLAM的理論在國外已經日趨成熟,韓教授的學生進一步研究了聯機分析挖掘對數據立方體的操作,將數據挖掘功能與OLAP的鉆取結合,使得數據挖掘可以在數據立方體這樣的多維和多層次的抽象空間中進行,利于靈活地挖掘知識[a]。此外,他們還深入研究了從海量數據庫中挖掘多層關聯規(guī)則的方法[b]。韓教授及其合作伙伴將OLAM的理論和技術付諸于實際,開發(fā)了OLAM實用工具DBMiner [9]。
在國際數據挖掘產品領域中,DBMiner起步較早,產品也較為成熟,目前應用該產品的廠商包括Microsoft,HP,IBM,Boeing等國外知名大公司,已取得了較好的應用成效。
DBMiner整體架構由三個模塊組成:圖形用戶界面、DBMiner引擎和通信模塊。圖形用戶界面主要完成與用戶的交互;DBMiner引擎是該系統(tǒng)的核心,所有知識發(fā)現的處理均由該模塊完成;通信模塊主要完成DBMiner與數據庫服務器之間的數據傳輸。DBMiner實用DMQL(Data Mining Query Language)描述KDD的任務,利用AOI(Attribute-Oriented Induction)的方法進行知識的獲取。以下(圖1-1)就是DBMiner的結構圖。
圖1-1 DBMiner系統(tǒng)框圖
DBMiner系統(tǒng)包括三個工具包:DBMiner AX2002、DBMiner DX2002、DBMiner SX2002。其中DBMiner AX2002軟件包用于關聯規(guī)則挖掘,它從大量數據中挖掘出有價值的能夠描述數據項之間相互聯系的知識,其主要應用領域是挖掘客戶的消費傾向和消費規(guī)律。DBMiner DX2002軟件包用于挖掘關系數據庫和多維數據庫中數據的顯著變化,其主要應用領域是挖掘企業(yè)利潤或某些重要數據指標隨其它指標變化的規(guī)律。DBMiner SX2002則是一個用于對時序數據和序列數據進行挖掘的工具包,它主要用于挖掘企業(yè)經營數據的趨勢特征。
DBMiner的特色在于:
Ø 通過ODBC連接多種數據源(Oracle、Sybase、SQL Server、Xbase、Text等),把數據倉庫、多維數據庫和數據挖掘技術集成在一個緊湊的系統(tǒng)中。
Ø 數據挖掘的功能非常完整,實現了切片(dicing),切塊(slicing),旋轉(Pivoting)和下鉆(drilling down)以及高效的數據挖掘語言。
Ø 提供了直觀的圖形用戶界面,可視化的數據瀏覽工具及聯機事務分析(OLAP)和聯機分析挖掘(OLAM)能力。
Ø 處理千兆級的大型數據庫。
盡管OLAM的理論和DBMiner這套工具已經較為成熟了,但是國外針對OLAM應用于統(tǒng)計工作的相關報道非常少,即使OLAM的創(chuàng)始人韓教授本人也未詳細談及OLAM在統(tǒng)計工作中的實際應用。另外,DBMiner是面向商業(yè)用戶,而不是面向政府統(tǒng)計業(yè)務的系統(tǒng),因此將其應用到政府統(tǒng)計工作中無法充分發(fā)揮它的優(yōu)勢。
此外,現在能夠提供方便多維分析支持的多維統(tǒng)計數據庫以加拿大統(tǒng)計局的CANSIMII[c]最為典型,該數據庫采用多立方體數據結構,整個數據庫中最基本的一個維是具體的調查表,將各表連接成一體,形成雪花結構。然而,如何對其進行數據挖掘及相關分析,以及是否采用OLAM技術還無法得到詳細官方資料的進一步介紹。
目前,國內對聯機分析挖掘的研究還處于起步階段,OLAM的概念已經被廣大的數據倉庫和數據挖掘研究工作者接受。一些學者提出了基于數據立方體的聯機分析挖掘模型[],該模型依賴數據倉庫和其他各種類型文件生成的工作倉庫系統(tǒng),綜合了聯機分析處理多維分析的在線性、靈活性和數據挖掘處理的智能化特點,提高了傳統(tǒng)模型的靈活性和智能化程度。還有一些學者設計并實現了一種聯機分析挖掘應用模型[],該模型建立了一種B/S架構的雙服務器數據倉庫,將數據挖掘與OLAP思想相結合,提供多維度事務內、事務間關聯規(guī)則的挖掘,并在此基礎上提出了傳統(tǒng)OLAP系統(tǒng)到OLAM系統(tǒng)平滑過渡的解決方案。此外,還有一些針對基于OLAM的可視化數據挖掘系統(tǒng)原形的研究。這些研究都是對有關OLAM實現模型的探索,還沒有得到更加深入和廣泛的應用,相應的實用工具很少。[4][5][6][7][8]
國內政府統(tǒng)計部門結合計算機技術進行統(tǒng)計處理過程中大多僅局限于采用OLAP的思想和方法,比如天津市統(tǒng)計局就采用NCR的Teradata建成了企業(yè)微觀數據倉庫和人口信息數據倉庫系統(tǒng)[d],并利用Brio Enterprise商業(yè)智能工具實現網上隨即查詢、網上多維分析、網上數據鉆取、網上旋轉透視等功能。但是建設專門的數據倉庫需要充分的數據、較長的周期,投入較大且?guī)в酗L險,因此各區(qū)縣級的統(tǒng)計部門現在不可能采用這種方式。
雖然一些高級統(tǒng)計部門已經開始關注數據挖掘技術,但通常是采用專門的工具進行數據分析和挖掘,這些工具包括國外廠商推出的SAS,SPSS、Oracle的相應組件ODM以及國內公司自主研發(fā)的馬克威統(tǒng)計分析系統(tǒng)。上海市統(tǒng)計局使用馬克威分析系統(tǒng)[e]已近兩年,其應用領域主要包括國民經濟統(tǒng)計、綜合統(tǒng)計、社會統(tǒng)計分析、企業(yè)調查等,該系統(tǒng)是集統(tǒng)計分析、數據挖掘和可視化展示為一體的大型軟件系統(tǒng)。
然而通過調查,我們發(fā)現目前政府統(tǒng)計部門尤其是中層或基層部門并未普遍購買這些比較成熟的商業(yè)統(tǒng)計分析以及數據挖掘軟件,充分利用這些軟件產品的就更少。這說明對廣大基層統(tǒng)計部門而言,數據挖掘的相關技術實際上還沒有完全被認知和采納,相應對OLAM的研究和應用更是鳳毛麟角。究其原因主要在于以下幾點:
l 這些軟件都是獨立的商業(yè)軟件,無法與統(tǒng)計局內部的統(tǒng)計系統(tǒng)進行緊密集成,無法在一個平臺上完成全部所需的操作。
l 其中許多功能在中層和基層部門中根本用不到,花錢買來的軟件得不到充分的利用,造成資源的浪費。
l 最重要的是,這些軟件的采購費用、培訓費用和服務費用是各地區(qū)縣級統(tǒng)計單位難以承受的。
因此將OLAM這樣的數據挖掘方式與當前國內的政府統(tǒng)計業(yè)務相結合,并開發(fā)出統(tǒng)計業(yè)務中真正需要并且緊密集成、功能實用、價格便宜的信息管理和應用系統(tǒng)是一項戰(zhàn)略意義深遠的課題。
1.4 本文研究的目的與基本構想
本論文的意義在于將聯機分析處理和數據挖掘的思想和技術綜合應用于政府統(tǒng)計工作中,利用已有的OLAM理論和方法解決關系國計民生的實際問題,并期望能夠在此背景下進一步深入研究OLAM在統(tǒng)計領域的應用前景。我們工作的重點并不在于提出新的OLAM算法和模型,而在于將OLAM的理論乃至數據挖掘這一課題中成熟的思想和方法合理的應用到實際的統(tǒng)計業(yè)務中,以提高政府統(tǒng)計工作的效率和質量。
考慮到統(tǒng)計業(yè)務最根本的工作就是要構建統(tǒng)計數據庫,對統(tǒng)計數據庫中各種指標進行統(tǒng)一管理、維護、查詢、匯總和分析。因此在統(tǒng)計工作中,使用OLAM實現傳統(tǒng)OLAP的數據聚合功能并獲取各種粒度級別的匯總數據,然后充分利用其包括發(fā)現各種關聯規(guī)則在內的分析預測的能力對匯總產生的多維數據集進行挖掘,發(fā)現各種模式和規(guī)則。事實上,這也正是統(tǒng)計部門的職責所在。
我們成功地應用OLAM的思想和方法開發(fā)了一套面向基層統(tǒng)計部門的統(tǒng)計信息管理應用系統(tǒng),該系統(tǒng)已在上海市某區(qū)統(tǒng)計局投入使用,基本滿足統(tǒng)計工作的實際需求,并通過了國家統(tǒng)計局的鑒定。結合該統(tǒng)計應用系統(tǒng)和該統(tǒng)計局的業(yè)務需求,本論文將著重在以下幾個方面對聯機分析挖掘的應用展開研究。
1. 根據統(tǒng)計業(yè)務的實際需要,設計聯機分析挖掘技術在統(tǒng)計信息管理應用系統(tǒng)中的實現框架。
2. 針對統(tǒng)計數據庫的多維特征,對統(tǒng)計信息管理系統(tǒng)后臺數據庫進行多維建模。
3. 利用OLAM的思想和方法設計一套通用的匯總算法對統(tǒng)計數據庫的基層數據進行聚合以獲得各種粒度的匯總級數據,并構建多維數據集支持上卷、下鉆、切片、切塊等數據立方體操作。
4. 由于統(tǒng)計數據具有很強的時序性,我們將主要關注于對時間序列的分析(Time Series Analysis)和挖掘,且被分析和挖掘的數據來源于聚合操作生成的多維數據集。
5. 利用數據挖掘的理論和方法發(fā)現統(tǒng)計數據間潛在的關聯規(guī)則,這里我們初步采用Apriori這一成熟的關聯規(guī)則算法。由于統(tǒng)計業(yè)務的特殊性,這部分工作的重點在于對挖掘數據的選取以及挖掘結果的解釋。
由于開發(fā)進度的限制,再加上大多數的挖掘算法針對特定的環(huán)境,我們的系統(tǒng)現在還不可能提供所有的數據挖掘功能,目前初步實現的功能恰恰針對統(tǒng)計局的迫切需求,更加實用和完善的挖掘方法就在今后不斷補充進來。
1.5 論文結構組織
本論文共分為七章,各章節(jié)的具體內容如下:
Ø 第一章緒論。介紹了政府統(tǒng)計工作的任務,引出OLAM的定義并概述了OLAM的理論及國內外最近的研究動態(tài),進一步說明本論文的主要研究工作。
Ø 第二章經濟社會統(tǒng)計與聯機分析挖掘。本章首先從統(tǒng)計學專業(yè)的角度扼要的介紹了統(tǒng)計業(yè)務中的背景知識,著重分析了經濟社會統(tǒng)計中統(tǒng)計指標、統(tǒng)計分組和統(tǒng)計劃分的概念。接下來,我們又介紹了OLAP的基本定義、實現的原理等,其中許多概念都與統(tǒng)計分組的內容有所聯系。然后又扼要的介紹了數據挖掘的相關理論,采用的各種分析和挖掘方法等。進而說明OLAP與數據挖掘技術相結合的產物——聯結分析挖掘能夠較好的滿足經濟社會統(tǒng)計工作。
Ø 第三章 OLAM在統(tǒng)計信息管理應用系統(tǒng)中的實現框架。本章簡要的描述了論文中提及的統(tǒng)計信息管理應用系統(tǒng)的實施背景,業(yè)務需求包括數據構成,數據處理等,旨在表明正是由于應用系統(tǒng)中數據和功能的特點才決定了采用OLAM的思想和方法進行處理比較合適。接下來,我們具體說明該系統(tǒng)中對于聯機分析挖掘技術實現的框架和有關特征。
Ø 第四章統(tǒng)計系統(tǒng)中的多維數據建模。本章引入統(tǒng)計數據庫這一重要概念,分析其多維特征以及構建過程,進一步著重描述了實際統(tǒng)計信息管理應用系統(tǒng)后臺統(tǒng)計數據庫的組織和存儲方式。正是因為采用了多維的數據建模方式,保證了在其基礎上可以順利地進行OLAM的相關操作。
Ø 第五章統(tǒng)計系統(tǒng)中OLAP聚合功能的算法實現。本章詳細的闡釋了我們借鑒聯機分析處理機制設計和開發(fā)的一套通用聚合算法,該算法能夠實現各種粒度級別數據匯總的計算過程,并且能夠不依賴于任何數據庫平臺。最后,列舉了一些典型的匯總執(zhí)行案例進一步分析該通用數據聚合算法的優(yōu)點和缺點。
Ø 第六章統(tǒng)計系統(tǒng)中數據挖掘技術的應用。本章著重描述了統(tǒng)計系統(tǒng)中對時間序列進行的趨勢分析,相似性分析等時序挖掘的基本原理和初步實現過程;進而又嘗試對時間序列構建一組探測性的事務數據集,在此基礎上應用Apriori算法進行關聯規(guī)則的挖掘。挖掘過程中還采用圖形化方式直觀的展現處理結果,大大提高了用戶與系統(tǒng)之間的交互能力。
Ø 第七章總結與展望。本章對全文的工作進行了總結,說明本論文的貢獻及創(chuàng)新點,以及今后的改進工作和未來的研究方向。
本文以實際的統(tǒng)計業(yè)務需求作為線索,先概述了經濟社會統(tǒng)計學中的統(tǒng)計方法以及OLAP與數據挖掘的有關理論,探索相互之間內在的相似點。進而,圍繞我們自己的研究工作具體說明OLAM技術在統(tǒng)計信息管理應用系統(tǒng)中實現的框架與核心的功能:應用這種理論和方法的前提是要構造合適的多維數據結構,在此基礎上能夠采用OLAP的數據聚合功能實現統(tǒng)計數據匯總,并對聚合結果進行相關的數據挖掘分析。圖1-2就展示了整篇論文的組織思想。
圖1-2 論文的內容與結構圖
(注:因涉及數據的特殊性,本論文中以下所有使用的數據都是模擬數據,不對數據的真實性負責。)
第一章 經濟社會統(tǒng)計與聯機分析挖掘
由于本論文的研究面向的是統(tǒng)計領域,因此必須首先明確統(tǒng)計學的基本概念和使用的相關方法,然后再介紹OLAP與數據挖掘的理論和技術,進而分析統(tǒng)計工作中對聯機分析挖掘的內在要求。
2.1 經濟社會統(tǒng)計的基本概念
2.1.1 經濟社會統(tǒng)計學
統(tǒng)計理論(或統(tǒng)計學)即系統(tǒng)研究如何搜集、整理、分析統(tǒng)計數據的理論和方法。統(tǒng)計理論一方面是統(tǒng)計實踐活動的理論概括和總結,另一方面統(tǒng)計理論又是在其理論和實踐同時發(fā)展的過程中,吸取其他學科的研究方法不斷創(chuàng)新而形成的系統(tǒng)理論。統(tǒng)計理論不但是指導統(tǒng)計活動如何搜集、整理統(tǒng)計數據的原理、原則和方法,而且更重要的是指導人們如何運用統(tǒng)計方法分析統(tǒng)計數據內在的統(tǒng)計規(guī)律性的科學方法。正因為如此,統(tǒng)計學也被稱為“數據的科學”[10]。
事實上,統(tǒng)計學本身針對不同的研究對象有著不同的分類,包括統(tǒng)計物理學,生物統(tǒng)計學,經濟統(tǒng)計學,社會統(tǒng)計學等。統(tǒng)計局的統(tǒng)計工作主要針對的是經濟社會統(tǒng)計,因此下面重點說明經濟社會統(tǒng)計學的有關概念。
經濟社會統(tǒng)計是研究社會現象數據的收集、整理和分析的一門方法論學科[1][11]。
也正因為如此,通過對收集來的社會現象數據的分析,可以幫助我們更加深入的發(fā)現各種社會現象間的關聯關系和發(fā)展變化趨勢。
2.1.2 統(tǒng)計指標的定義與特點
統(tǒng)計指標是說明總體數量特征的。關于統(tǒng)計指標的概念,有兩種不同的理解和使用方法。
第一,在統(tǒng)計理論設計上所使用的“統(tǒng)計指標”的涵義,是指反映總體現象數據特征的概念。例如:工業(yè)增加值、商品銷售額、職工總人數等等。按這種理解,統(tǒng)計指標包括三個構成要素,即:指標名稱、計量單位和計算方法。
第二,在統(tǒng)計實際工作中經常使用的統(tǒng)計指標的涵義,是指反映總體現象數量特征的概念和具體數值。如:2003年我國國民生產總值為117251.9億元,就是統(tǒng)計指標。按這種理解,統(tǒng)計指標除包括上述三個要素外,還包括時間限制、空間限制和指標數值。
由于我們開發(fā)的統(tǒng)計信息管理應用系統(tǒng)是針對實際統(tǒng)計工作的,因此本論文以下的部分一律按第二種解釋定義統(tǒng)計指標。
統(tǒng)計指標有以下的特點:
1) 數量性
統(tǒng)計指標描述的是可以度量的客觀現象的量,都是用數值表現的,不存在不能用數值表現的統(tǒng)計指標。
2) 綜合性
統(tǒng)計指標說明的對象是總體而不是個體,它是許多個體現象的數量綜合的結果。一個人的工資不叫統(tǒng)計指標。反映研究對象中所有人的工資總額和平均工資才叫統(tǒng)計指標。
3) 具體性
統(tǒng)計指標并非抽象的概念和數值,它具有客觀的經濟社會內容,是一定的具體經濟社會現象的量的反映。
2.1.3 統(tǒng)計指標體系
1) 統(tǒng)計指標體系的概念
若干個相互有聯系的統(tǒng)計指標所組成的整體叫統(tǒng)計指標體系。經濟社會現象本身的聯系是多種多樣的,所以,統(tǒng)計指標之間的聯系也是多種多樣的。例如,一個工業(yè)企業(yè)是人力、物資、資金、生產、供應和銷售等相互聯系的整體。用一系列統(tǒng)計指標來反映和研究工業(yè)企業(yè)的全面情況,這就組成了工業(yè)企業(yè)統(tǒng)計指標體系。又如,商品的銷售額等于商品價格與銷售量的乘積,糧食總產量等于畝產量與播種面積的乘積等等,也叫做統(tǒng)計指標體系。
統(tǒng)計指標體系比統(tǒng)計指標更為重要。這是因為任何經濟社會總體都是一個相互聯系的有機整體。這種經濟社會現象的相互聯系是產生統(tǒng)計指標體系的客觀基礎,同時也提出了使用統(tǒng)計指標的要求。單個統(tǒng)計指標僅能反映經濟社會總體及其運動的一個側面,要想全面地反映和研究經濟社會總體的情況,就只有使用相互聯系的各種統(tǒng)計指標所組成的指標體系,才能避免片面性,使我們獲得全面的情況。
2) 統(tǒng)計指標體系的種類
統(tǒng)計指標體系可以分為兩大類,即基本統(tǒng)計指標體系和專題統(tǒng)計指標體系。
反映國民經濟社會發(fā)展及其各個組成部分的基本情況的指標體系叫基本統(tǒng)計指標體系。他通常分為三層:最高層、中間層和基層。最高層是反映整個國民經濟和社會發(fā)展的統(tǒng)計指標體系,如:經濟統(tǒng)計指標體系、社會統(tǒng)計指標體系、科技統(tǒng)計指標體系等。中間層是指各地區(qū)和各部門的統(tǒng)計指標體系,如工業(yè)統(tǒng)計指標體系、地區(qū)綜合評價指標體系等,它是最高層統(tǒng)計指標體系的縱向和橫向的分支。基層統(tǒng)計指標體系是指各種企業(yè)和事業(yè)單位的統(tǒng)計指標體系。他是整個統(tǒng)計工作的基礎。
為研究某一經濟問題或社會問題而專門制定的具有針對性的指標體系,叫專題統(tǒng)計指標體系。如經濟效益指標體系、能源問題研究的指標體系等。
2.1.4 統(tǒng)計數據整理的定義與步驟
統(tǒng)計數據整理也稱為統(tǒng)計整理。統(tǒng)計整理是根據統(tǒng)計研究的目的,將統(tǒng)計調查所得的數據進行科學的加工,使之系統(tǒng)化、條理化,并成為能反映總體數量特征的綜合資料的工作過程。
統(tǒng)計調查所得到的反映總體單位特征的數據資料是分散的、零碎的。根據這樣的資料,人們難以從總體上分析和認識社會經濟現象的數量表現。只有根據統(tǒng)計研究的目的,運用科學的統(tǒng)計整理方法,對數據進行加工整理,才能發(fā)現經濟社會現象數據資料的規(guī)律性。
此外,對某些已經加工的綜合資料,往往由于在分組方法、總體范圍或者指標含義、口徑、計算方法等方面的改變,而無法滿足統(tǒng)計分析的要求,也必須對其再次進行整理。
統(tǒng)計整理的步驟如下:
1) 設計和編制統(tǒng)計數據資料的整理方案。統(tǒng)計整理方案主要是明確各種統(tǒng)計分組和各項匯總的統(tǒng)計指標。
2) 對搜集到的原始資料進行審核。在進行匯總之前,要審核統(tǒng)計調查數據是否完整、準確、完整,以便發(fā)現問題,及時糾正,以確保資料準確無誤。
3) 根據研究目的的要求和統(tǒng)計分析的需求,對原始資料進行分組。
4) 進行匯總計算,編制次數分布數。
5) 編制統(tǒng)計表。
6) 進行統(tǒng)計數據資料的匯編,系統(tǒng)地積累歷史統(tǒng)計數據。
2.1.5 統(tǒng)計分組的有關概念和分組方法
統(tǒng)計分組是根據經濟社會現象的內在特點和統(tǒng)計研究的目的,將總體中所有總體單位按一定的標志劃分為性質不同的若干個組成部分的一種統(tǒng)計方法。
構成統(tǒng)計總體的各個總體單位,一方面在某一指標或某些標志上具有彼此相同的性質,這是構成同質總體的基礎;另一方面又在其它一些標志的具體表現上具有差異性,差異較小的單位歸為一組,差異較大的單位盡量分開。這是進行統(tǒng)計分組的客觀依據。統(tǒng)計分組的基本要求是:使各組內部保持同質性、各組之間呈現出質的差異性。因此,統(tǒng)計分組的實質是在現象總體內進行一種分類。統(tǒng)計分組的作用表現在以下幾個方面:
(一) 劃分經濟社會現象的類型
將經濟社會現象總體按照一定的分組標志區(qū)分為性質不同的組成部分,是統(tǒng)計分組的根本作用。從一定意義上說,一個統(tǒng)計總體之所以能區(qū)別于其它統(tǒng)計總體,是因為有著可以確定該總體性質和范圍的標準和界限。即總體之間的區(qū)別,是一種定性分類。因此,將同質總體劃分成性質不同的各個組成部分,也是一種統(tǒng)計的定性分類。
例如表2-1所示:
表2-1 2003年全國國有及規(guī)模以上非國有工業(yè)企業(yè)單位數及工業(yè)增加值
按注冊登記類型分
|
企業(yè)單位數
|
工業(yè)增加值
|
絕對額(個)
|
比重(%)
|
絕對額(億元)
|
比重(%)
|
全國總計
|
196222
|
100.00
|
41990.23
|
100.00
|
國有及國有控股企業(yè)
|
34280
|
17.47
|
18837.60
|
44.86
|
集體企業(yè)
|
22478
|
11.46
|
2551.67
|
6.08
|
股份有限公司
|
6313
|
3.22
|
6203.66
|
14.77
|
外商投資企業(yè)
|
17429
|
8.88
|
6919.15
|
16.48
|
港澳臺商投則企業(yè)
|
21152
|
10.78
|
4680.49
|
11.15
|
此表中就是按注冊登記類型把我國工業(yè)企業(yè)劃分為五個組,這樣有助于認識我國不同經濟類型的工業(yè)企業(yè)之間的經濟關系。
(二) 反映社會經濟現象總體的內部結構
通過統(tǒng)計分組,能夠觀察總體中所有總體單位在各組的分布狀態(tài)和分布特征,分析總體的內部結構。表2-1所示的比重就反映我國國有及規(guī)模以上非國有工業(yè)企業(yè)單位數、增加值及其構成。
(三) 研究現象之間在數量上的依存關系
通過分組,可以觀察不同總體之間在數量上的相互依存關系。從表2-2可以看出,商品流通費用率與商品銷售額之間的依存關系是,商品流通費用率隨著商品銷售額的增加而降低。
表2-2 2004年某市百貨商店流通費用率
商店按商品銷售額分組(萬元)
|
商店數
|
商品流通費用率(%)
|
50以下
|
3
|
11.2
|
50-100
|
2
|
10.4
|
100-150
|
4
|
9.5
|
150-200
|
7
|
7.7
|
200-300
|
8
|
6.4
|
300-400
|
6
|
5.9
|
400-500
|
3
|
5.2
|
500以上
|
2
|
5.0
|
在該統(tǒng)計信息管理應用系統(tǒng)中,為了獲得各種分組情況下的匯總統(tǒng)計數據,專門為各分組統(tǒng)計指標項建立物理數據庫表以存儲其分組信息。這些表在應用系統(tǒng)中稱為“分組目錄”,且根據分組指標數據項類型的不同,劃分為“字符型結構分組”如表2-1中登記注冊類型,和“數值型區(qū)間分組”如表2-2中商品銷售額的各取值范圍。
統(tǒng)計分組的關鍵在于正確選擇分組標志和劃分各組界限。分組標志是將統(tǒng)計總體劃分為若干個性質不同的組成部分的標準或依據。在選擇分組標志時要解決好以下兩個方面問題:首先,選擇什么標志進行分組,其實質是要決定從什么方面對現象總體進行統(tǒng)計研究;其次,選擇多少個標志進行分組,這一問題不僅決定著分組的形式,還決定著我們對社會經濟現象總體認識的廣度和深度。
(一) 分組標志的選擇
選擇分組標志必須遵循以下原則:
1. 根據統(tǒng)計研究目的選擇分組標志
對于同一研究對象來說,由于統(tǒng)計研究目的不同,需要采用的分組標志也就不同。例如,在工業(yè)生產統(tǒng)計中,當研究目的是為了分析不同規(guī)模的企業(yè)生產情況時,應當選擇產品數量或生產能力作為分組標志,將企業(yè)總體劃分成大、中、小三組;當研究目的在于確定工業(yè)內部比例及平衡關系時,就應該按部門類別作為分組標志。
2. 選擇能反映現象本質特征的主要標志
所謂主要標志就是能反映現象本質特征的標志。例如,研究職工生活水平情況時,有工資水平,家庭成員平均收入等好幾個標志。按職工家庭成員平均收入分組就能反映職工實際生活水平,所以家庭成員平均收入就是主要標志。
3. 結合具體社會歷史條件和經濟條件選擇分組標志
在研究目的相同的情況下,由于研究對象所處的具體社會歷史條件和客觀經濟條件不同,需要采用的分組標志也會有所不同。例如,反映工業(yè)企業(yè)生產規(guī)模的標志很多,如產品生產能力、職工人數、固定資產價值、增加值等。在科學技術不發(fā)達的條件下,把職工人數作為劃分企業(yè)規(guī)模的標志是比較恰當的;而在科學技術發(fā)達、技術裝備比較先進的條件下,繼續(xù)按職工人數劃分企業(yè)規(guī)模的大小,就無法比較準確地反映作為第一生產力的科學技術在生產中的重要作用。因而采用產品生產能力或固定資產價值作為分組標志更切合實際些。
(二) 分組的形式
分組的形式有簡單分組和平行分組體系,復合分組和復合分組體系。
1. 簡單分組與平行分組體系
對總體只按一個標志進行分組,叫簡單分組。選擇兩個或兩個以上的標志分別進行簡單分組,就形成了平行分組體系。例如,對工業(yè)企業(yè)可以分別按經濟類型和規(guī)模兩個標志進行簡單分組,得到如下平行分組體系:
按經濟類型分組 按規(guī)模分組
國有及國有控股企業(yè) 大型企業(yè)
集體企業(yè) 中型企業(yè)
其他類型企業(yè) 小型企業(yè)
平行分組體系的特點是:每一種分組只能固定一個因素對差異的影響,同時又掩蓋了其他因素對差異的影響。例如在按規(guī)模分組中,企業(yè)規(guī)模大小的差異被規(guī)定了,而其他差異依然存在,但卻被掩蓋了。在平行分組體系中,所采用分組標志的多少,決定了人們對經濟社會現象總體認識的廣度。
2. 復合分組與復合分組體系
對同一個總體選擇兩個或兩個以上的標志層疊分組,叫復合分組,所分各組是在分組標志的基礎上層疊排列的,從而形成復合分組體系。例如,按學科和性別兩個標志對高等院校本科在校學生進行復合分組,得到如下復合分組體系。
建立復合分組體系時,就根據統(tǒng)計分析的要求,在選擇分組標志的同時,確定它們的主次順序。
復合分組體系的特點是:第一層次分組只固定一個主要因素對差異的影響,第二層次分組則同時固定兩個因素對差異的影響,當進入最后一個層次分組時,則所有被選擇標志對差異的影響就全部被固定。在復合分組體系中,分組層次的多少,決定于所選分組標志的多少,從而決定了人們對經濟社會現象認識的深度。
分組標志確定后,正確地確定分組組數和劃定各組界限,就涉及到分組的具體方法。根據分組標志的特征不同,統(tǒng)計總體可以按品質標志分組,也可以按數量標志分組。
(一) 按品質標志分組的方法
按品質標志分組,就是選擇反映事物屬性差異的品質標志作為分組的依據,并在品質標志的變異范圍內劃定各組界限,將總體區(qū)分為若干性質不同的分組部分。
(二) 按數量標志分組的方法
按數量標志分組,就是選擇反映事物數量差異的數量標志作為分組的依據,并在數量標志的變異范圍內劃定分組的界限,將總體劃分為性質不同的若干組成部分。
就具體的分組而言,如果作為分組標志的變量的變異較小,可以將各個變量值單列一組,這種分組稱為單項式分組;如果變量的變異較大,則應該把變量的整個取值范圍依次劃分為若干區(qū)間,一個區(qū)間內的所有變量值歸為一組。區(qū)間的最大值稱為上限、最小值稱為下限。上限與下限之差為組距。
組距 = 上限-下限
這樣的分組稱為組距式分組。
在組距式分組中,各組的組距完全相等,叫等距式分組;各組的組距不完全相等,叫異距式分組。前者適用于總體各單位的變量值由小到大呈均勻變化的情況,后者則適用于不均勻變化的情況。各種形式分組情況如表2-3所示。
表2-3 各種分組舉例
|
統(tǒng)計總體
|
分組標志(變量)
|
各個組別(各變量值組)
|
分組形式
|
例1
|
某市所有
居民家庭
|
電視機擁有量
(臺/戶)
|
0,1,2,3
|
單項式
分組
|
例2
|
某市所有
醫(yī)院
|
病床位數(張)
|
100-900,200-299
300-399,400-499
|
等
距
式
|
組
距
式
分
組
|
例3
|
某市所有
商業(yè)職工
|
月工資水平(元/人)
|
70-80,80-90
90-100,……
|
例4
|
某市所有零售
商業(yè)企業(yè)
|
職工人數(人)
|
10-49,50-99
100-199,…
|
異
距
式
|
例5
|
某市所有
居民家庭
|
月收入水平(元/人)
|
800-1000,1000-1500
1500-1800,1800-2000
|
變量按其變量值能否無限分割可分為離散型變量和連續(xù)型變量。一般來說,離散型變量既可以采用單項式分組,也可以采用組距式分組,如表2-3中的例1、例2、例4;而連續(xù)型變量只能采用組距式分組,如表2-3中的例3、例5。在組距式分組中,兩種類型變量在組距的表示方法上也有區(qū)別。按離散型變量分組時,各相鄰的組限可以間斷,二者不相重疊;而按連續(xù)型變量分組時,各相鄰組的組限必須重疊。在相鄰組的組限重疊的情況下,應按照“上限不在本組內”的原則正確統(tǒng)計各組的總體單位數。
2.2 OLAP的概念與理論
2.2.1 OLAP的概念
OLAP(聯機分析處理)是針對特定問題的聯機數據訪問和分析。通過對信息(維數據)的多種可能的觀察形式進行快速、穩(wěn)定、一致和交互性的存取,允許管理決策人員對數據進行深入觀察[13]。
2.2.2 OLAP的目標
OLAP的目標是滿足決策支持或多維環(huán)境特定的查詢和報表需求,它的技術核心是“維”這個概念,因此OLAP也可以說是多維數據分析工具的集合。
2.2.3 OLAP的特性
1) 快速性:用戶對OLAP的快速反應能力有很高的要求,系統(tǒng)應能在5秒內對用戶的大部分分析要求做出反應。
2) 可分析性:OLAP系統(tǒng)應能處理與應用有關的任何邏輯分析和統(tǒng)計分析。
3) 多維性:多維性是OLAP的關鍵屬性。系統(tǒng)必須提供對數據的多維視圖和分析,包括對層次維和多重層次維的完全支持。
4) 信息性:不論數據量有多大,也不管數據存儲在何處,OLAP系統(tǒng)應能及時獲得信息,并且管理大容量信息。
2.2.4 OLAP的多維數據概念和結構
多維結構是決策支持的支柱,也是OLAP的核心。OLAP展現在用戶面前的是一幅幅多維視圖。
1) 變量(Measures)
變量是數據的實際意義,描述數據是什么。一般情況下,變量總是一個數值度量的指標。統(tǒng)計應用中的數值型統(tǒng)計指標就是變量。
2) 維(Dimension)
維是人們觀察數據的特定角度,是考慮問題時的一類屬性,屬性集合構成一個維(時間維、地理維等)。假定某某是個百貨零售商,有一些因素會影響他的銷售業(yè)務,如商品、時間、商店或流通渠道,更具體一點,如品牌、月份、地區(qū)等。對某一給定的商品,也許他想知道該商品在哪個商店和哪段時間的銷售情況。對某一商店,也許他想知道哪個商品在哪段時間的銷售情況。在某一時間,也許他想知道哪個商店哪種產品的銷售情況。因此,他需要決策支持(其中非常重要的部分就是統(tǒng)計分析)來幫助制定銷售政策。
這里,商店、時間和產品都是維。各個商店的集合是一維,時間的集合是一維,商品的集合是一維。維就是相同類數據的集合,也可以理解為變量。而每個商店、每段時間、每種商品都是某一維的一個成員。每個銷售事實由一個特定的商店、特定的時間和特定的商品組成,如圖2-1所示。
圖2-1 由時間、商店、產品三個維構成的數據立方體
“維”是OLAP的核心概念,是主題的基礎,是對主題的一種類型劃分。OLAP采取的與“維”有關的“度量”信息才是用戶關心的焦點。
維有自己固有的屬性,如層次結構(對數據進行聚合分析時要用到)、排序(定義變量時要用到)、計算邏輯(是基于矩陣的算法,可有效地指定規(guī)則)。這些屬性對進行決策支持是非常有用的。
對應統(tǒng)計分組的概念,這里每個維都是分組的標志,維的成員就是參與分組的統(tǒng)計變量的值。
3) 維的層次(Hierarchy)
人們觀察數據的特定角度(即某個維)還可以存在細節(jié)程度不同的多個描述方面(時間維:日期、月份、季度、年),我們稱這多個描述方面為維的層次。一個維往往具有多個層次,例如描述維時間,可以從日期、月份、季度、年等不同層次來描述,那么日期、月份、季度、年等就是時間維的層次;同樣,城市、地區(qū)、國家等構成了一個地理維的多個層次。
4) 維成員(Member)
維的一個取值稱為該維的一個維成員。如果一個維是多層次的,那么該維的維成員是在不同維層次的取值的組合。
5) 多維性(Multi Dimensions)
人們很容易理解一個二維表(如通常的電子表格),對于三維立方體同樣也容易理解。OLAP通常將三維立方體的數據進行切片,顯示三維的某一平面。如一個立方體有時間維、商品維、收入維,其圖形很容易在屏幕上顯示出來并進行切片。但是要加一維(如加入商店維),則圖形很難想象,也不容易在屏幕上畫出來。要突破三維的障礙,就必須理解邏輯維和物理維的差異。OLAP的多維分析視圖就是突破了物理的三維概念,采用了旋轉、嵌套、切片、鉆取和高維可視化技術,在屏幕上顯示多維視圖的結構,使用戶直觀地理解、分析數據,進行決策支持[14]。
統(tǒng)計分組往往超越了三維的界限,統(tǒng)計人員希望能夠從三個以上的維以及維成員的不同層次組合的角度觀察統(tǒng)計匯總數據,從而發(fā)現有價值的統(tǒng)計現象,總結其中包含的規(guī)律。事實上,OLAP所提供對多維分析視圖的各種操作和可視化技術恰恰是與統(tǒng)計人員的業(yè)務需求相吻合的。
6) 數據立方體
數據立方體定義為基本業(yè)務驅動力的可用聚合,它是適于通過SQL或其他接口進行查詢的完整數據結構。同時,數據立方體允許對數據建模和觀察,由維和事實構成。立方體是維的交叉點,提供企業(yè)感興趣的事實結構,且事實是數值度量的。經典的立方體正如圖3-1所示。
7) 數據單元(Cell)
多維數據集的取值稱為數據單元。當多維數據集的各個維選中一個維成員,這些維成員的組合就唯一確定了一個變量的值。那么數據單元就可以表示為:(維1維成員,維2維成員,…,維n維成員,變量的值)(如2000年1月,上海,筆記本電腦,$100000)。
2.2.5 多維數據模型的物理實現
OLAP的執(zhí)行與多維數據模型的支持是密不可分的,OLAP多維數據模型的實現有多種途徑,其中主要有采用數組的多維數據庫、關系型數據庫以及兩者相結合的方式,人們通常稱之為MOLAP、ROLAP、HOLAP。但MOLAP的提法容易引起誤解,畢竟根據OLAP的多維概念,ROLAP也是一種多維數據的組織方式[16]。
l 多維聯機分析處理(MOLAP)
多維聯機分析處理嚴格遵照E.F.Codd的定義,自行建立多維數據庫來存放聯機分析系統(tǒng)的數據,它以多維數據組織方式為核心,也就是說多維聯機分析處理使用多維數組存儲數據。
當利用多維數據庫存儲OLAP數據時,不需要將多維數據模型中的維度、層劃分和立方體等概念轉換為其他的物理模型,因為多維數組(矩陣)能很好地體現多維數據模型特點。
l 關系聯機分析處理(ROLAP)
ROLAP以關系數據庫為核心,以關系型結構進行多維數據的表示和存儲,將多維數據庫的多維結構劃分為兩類表:一類是事實表,用來存儲數據和維關鍵字;另一類是維表,對每個維至少使用一個表來存放維的層次、成員類別等維的描述信息。維表和事實表通過主關鍵字和外關鍵字聯系在一起,形成“星型模式”。對于層次復雜的維,為了避免冗余數據占用過大的存儲空間,可以使用多個表描述,這種星型模式的擴展稱為“雪花模式”。
l 混合聯機分析處理(HOLAP)
混合聯機分析處理(HOLAP)利用多維聯機分析處理技術存儲上層匯總數據,利用關系聯機分析處理存儲細節(jié)數據,即低層是關系型的,高層是多維矩陣型的。這種方式具有更好的靈活性。還有其他一些OLAP的方法,如提供一個專用的SQL 服務器,對某些存儲模式(如星型、雪花型)提供對SQL查詢的特殊支持。
2.3 數據挖掘的概念與理論
2.3.1 數據挖掘的概念
OLAP本身就是一種強大的分析技術,具有匯總、合并等功能,以及從不同的角度觀察信息的能力。盡管OLAP工具支持多維分析和決策,然而對于深層次的分析,如數據分類、聚類和數據隨時間變化的特征,仍需要其它專門分析工具。這些分析工具恰恰就來源于目前比較流行的一門學科,即“數據挖掘(data mining)”。
數據挖掘就是應用一系列技術從大型數據庫或數據倉庫的數據中提取人們感興趣的信息和知識,這些知識或信息是隱含的、事先未知而潛在有用的,所提取的知識表示為概念、規(guī)則、規(guī)律和模式等形式。數據挖掘作為知識發(fā)現過程的一個特點步驟,是一系列技術及應用,或者說是對大容量數據及數據間關系進行考察和建模的方法集。其目標是將大容量數據轉化為有用的知識和信息[17]。
盡管數據挖掘看上去像是出現不久,其實對這種方法的研究和實踐已有很長時間了,可以追溯到30多年以前。在20世紀60年代早期,統(tǒng)計分析方法被廣泛采用。最初的的統(tǒng)計分析由古典統(tǒng)計例程組成,如相關(correlation)、回歸(regression)、X2(chi-square)和交叉表(cross tabulation)。雖然大部分現代數據挖掘包仍然提供這些古典方法,但是數據挖掘已經與這些第一代的統(tǒng)計手段偏離甚遠,而是成為幫助我們解釋或預測“數據中的隱含趨勢”的越來越具有洞察力的和功能強大的方法[12]。
2.3.2 數據挖掘的任務
下面列舉了根據數據分析工作者的不同目標來劃分數據挖掘任務的類型:
1) 探索性數據分析(Exploratory Data Analysis,EDA)
正如名字所暗示的,這種方法的宗旨就是對數據進行探索,在探索時我們對要尋找什么并沒有明確的想法。
2) 描述建模(descriptive modeling)
描述模型的目標是描述數據(或產生數據的過程)的所有特征。
3) 預測建模(predictive modeling)
預測建模的目標是建立一個模型,這個模型允許我們根據已知的變量值來預測其他某個變量值。
4) 尋找模式和規(guī)則
上面列出的幾類任務都致力于建立模型。還有一些數據挖掘應用是致力于模式探測的。比如在交易數據庫中發(fā)現頻繁出現的商品組合,該問題已經吸引了很多數據挖掘者的注意力,而且已經采用基于關聯規(guī)則(association rule)的算法來解決這樣的問題。還有一個重要問題是如何決定哪個因素真正導致了異常行為,也就是統(tǒng)計學家所說的孤立點檢測(outlier detection)問題。在高維情況下,這會變得更加困難[18]。
5) 根據內容檢索
這種情況下,用戶有一種感興趣的模式并且希望在數據集中找到相似的模式。這種任務對于文本和圖像數據集合應用最普遍。
盡管上面的五種任務彼此間有明顯的差異,但它們也有很多共同的特征。例如,很多任務都具有“任意兩個數據向量間的相似性或者距離”的概念。還有一個共同點是評分函數的思想(用來評估一個模型或模式擬合數據的好壞程度),不過對于不同類型的任務,具體的函數形式往往有很大的差異。另外很明顯的一點是,不同的任務需要不同的模型和模式結構,就像不同種類的數據需要不同的結構一樣。
數據挖掘的目的是從存儲于大型數據庫中的數據中發(fā)現某些重大的、有價值的知識或模式,其主要功能具體的包含以下幾項。
1) 特征化
即將與任務相關的一組數據匯總在一個綜合的多維數據集中,這樣就可以從不同角度和多個邏輯層次瀏覽數據或按不同規(guī)則抽取數據。OLAP操作就實現了這樣的功能。
2) 比較
即包含一系列的區(qū)分規(guī)則,用以區(qū)分研究集合(目標類)與其他集合(對比類)之間的不同之處。
3) 分類
用于分析一組訓練(training)數據(即類標簽已知的數據集對象),并基于數據特征為每一類建立模型。分類規(guī)則是基于分類進程生成的,這個分類進程可以用于分類未來數據,并確保數據庫的每一類數據更易于理解。
4) 關聯
指在數據庫的關聯數據集的不同層次之間挖掘一組關聯規(guī)則(A1^…^AiàB1^…^Bi)。
5) 預測
用來預測丟失數據的可能值或權衡一組對象的影響因素,即尋找影響一個主題的各因素之間的相關性(利用統(tǒng)計分析),并針對主題來預測這些因素的相對貢獻值。
6) 聚類分析
將數據庫或數據倉庫中的選定數據集聚和成簇,以確保內部相似性高,與外部差異大。
7) 時間序列分析
一種對數據庫或數據倉庫中基于時間的數據進行分析的方法。包括相似性分析、時間分析、序列分析和趨勢分析。
由于統(tǒng)計數據本身就是按照一定的標準、規(guī)則進行組織的,因此已經體現出了分類的特征,不需要再專門進行分類處理。但是由于統(tǒng)計指標繁多且相互關系復雜,并存在潛在的影響,不同的時期體現出不同的特征,所以理所當然的需要進行時間序列分析,趨勢預測以及找出某些重要經濟指標間的關聯關系。
2.4 聯機分析挖掘與統(tǒng)計的結合
OLAP結合數據挖掘使在多維數據集的多個維度和不同層次之間挖掘有價值的知識變得簡單易行,各種數據挖掘功能還可以交叉運用并集成于一體,使數據挖掘達到高度的交互性和靈活性。聯機分析挖掘提供在不同的數據子集和不同的抽象層上進行數據挖掘的工具,通過它為用戶選擇所期望的數據挖掘功能動態(tài)修改挖掘任務提供了靈活性。
需要特別注意的是,聯機分析挖掘與通常的數據挖掘不同之處在于前者一定是與各種多維數據結構的構建過程密不可分的。因為聯機分析挖掘一定包含OLAP的操作過程,需要首先對原始數據進行一定的預處理。實際應用當中,OLAM操作過程主要分為以下三種形式:
1.構建數據立方體,然后挖掘
由于建立了多維數據集,就可以在立方體的任何層次和任何部分進行數據挖掘。這就意味著在進行數據挖掘之前,必須首先選取數據和劃分邏輯層次(粒度級)。例如,可以首先裁剪一個立方體,使之具有合適的大小,如“year=1997”,選取一個需要的層次,如在store維度中的city層次,接著執(zhí)行一個預測模型。
1. 挖掘,然后構建數據立方體
即指首先對立方體進行數據挖掘,然后將獲得的數據結果集建成一個新的立方體,以便做進一步的研究。
例如,可以首先對一個“market”多維數據集按特定的維度或度量,如profit-made,進行分類操作,對得到的每一類數據,如high-profit類,建立新的立方體,而后可對其進一步挖掘,如下鉆到細節(jié)層查看特征。
2. 挖掘和構建數據立方體同時進行
結合挖掘操作和建立立方體操作的一個靈活的方式是,在立方體的多個粒度級上實施類似的挖掘,并在挖掘過程中不斷調整立方體。這樣,同樣的挖掘就可以在立方體的多個和不同層次上進行。
例如,在“market”數據中挖掘關聯規(guī)則,可以沿一個維度如time下鉆,目的是在一個低的層次上發(fā)現關聯規(guī)則,如從year到month。
OLAP數據挖掘還可能有其他的結合方式,如“挖掘、再挖掘”的模式。這種模式的例子是先對數據集分類,然后針對每一類挖掘關聯規(guī)則。對于包含海量數據的巨型數據倉庫,提供靈活的數據挖掘方式是至關重要的。這樣用戶才能在操作簡易的前提下,細致地研究多維數據集,選擇挖掘空間和需要的邏輯層次,以及測試不同的挖掘模型和方法。要做到這一點,挖掘將達到高度的交互性、趣味性和效果顯著性。
一個典型的OLAM與OLAP共存的系統(tǒng)實現模型如圖1-1所示。
圖1-1一個集成的OLAM和OLAP系統(tǒng)架構
對于龐大的統(tǒng)計數據集(特別是非常龐大的數據集),我們可能無法輕易知道數據中的規(guī)律,即使是非常顯而易見的,對數據進行簡單的目測不是辦法。實際統(tǒng)計業(yè)務中,統(tǒng)計工作者們?yōu)榱诉M行分析和決策,往往要對大量的基層數據進行即席查詢(Ad-Hoc Query)[]或者查詢匯總,從多個角度和各個層次上瀏覽數據。這意味著對于很大的數據集,我們需要周密完善的搜索和分析方法來弄清楚對于小數據集可以立刻得到的特征。此外,正如我們前面所提到的,很多情況下統(tǒng)計分析的目標是要得到針對現有數據外的某種推理。
將電子計算技術和數據傳送通訊系統(tǒng)聯系起來,建立電子計算機網絡系統(tǒng),使得統(tǒng)計工作發(fā)生巨大變革。它將使統(tǒng)計工作人員從繁重的匯總工作中解放出來,集中力量進行統(tǒng)計設計和統(tǒng)計分析的工作。現在,將聯機分析挖掘的方法應用到電算化匯總和分析中,令統(tǒng)計工作的效率和質量得到進一步的提升,實際上也是一種本質上的飛躍。
第三章 OLAM在統(tǒng)計系統(tǒng)中的實現框架
隨著社會主義市場經濟的發(fā)展,上海市各區(qū)的城市建設速度不斷加快。如何更準確、更快速地提供統(tǒng)計信息服務是投資者、企業(yè)和政府部門的共同需要。他們都希望盡可能控制成本,減少風險,一方面提高管理和決策水平,減少失誤和盲目性,另一方面抓住有利時機,改善投資環(huán)境和服務質量,使城市建設保持高速增長的勢頭。然而,隨著城市化進程加快,人口膨脹、環(huán)境污染、交通擁擠、住房緊張等問題也越來越突出、網絡化管理和動態(tài)調控需求增加。要使城市建設和管理與社會政治、經濟、文化、科技的發(fā)展相適應,保證城市的可持續(xù)發(fā)展,必須采用先進的管理方法和技術手段,尤其是統(tǒng)計信息的現代化管理已經不能再拖延了。
為了滿足這樣的迫切要求,我們開發(fā)了一套功能完善的統(tǒng)計信息管理應用系統(tǒng),該系統(tǒng)對于各區(qū)縣級的統(tǒng)計單位普遍適用,并已在上海市某區(qū)統(tǒng)計局使用,可以有效的完成各種統(tǒng)計業(yè)務功能。
3.1 系統(tǒng)滿足的數據需求
在系統(tǒng)數據庫中建立統(tǒng)計歷史信息庫,為統(tǒng)計信息時序分析奠定基礎,比如對于上海市某區(qū)統(tǒng)計局我們就建立了自1992年以來的歷史數據庫。
在一致、準確、完整定義元數據的基礎上,確定統(tǒng)計指標、統(tǒng)計指標體系、統(tǒng)計分類和其他統(tǒng)計標準,建立統(tǒng)計部門的年度數據庫和季、月度數據庫。同時,要提供方便的元數據管理手段,以適應統(tǒng)計業(yè)務數據庫表動態(tài)結構的特殊性。具體包含以下的內容:
Ø 統(tǒng)計指標建立原則
1.
指標應具有統(tǒng)計專業(yè)的代表性、典型性。
2. 確保指標數據的時間連續(xù)性,有利于建立統(tǒng)計歷史庫。
3. 按統(tǒng)計從微觀到宏觀,保持統(tǒng)計指標的層次性。
4. 按統(tǒng)計專業(yè)分類,如工業(yè)、商業(yè)、外貿、投資等方面建立統(tǒng)計指標體系。
5. 所建體系必須保持與市局數據交換的兼容性。
6. 所建體系應該考慮指標的可維護性,考慮未來數據結構變化的可能性。數據庫表中的統(tǒng)計指標字段只增不減。
7. 考慮系統(tǒng)查詢方便,運行高效。
Ø 統(tǒng)計指標的分類
基層表指標:主要是統(tǒng)計基層表的指標集。
匯總表指標:主要是全區(qū)用于匯總目的的指標集。
統(tǒng)計局各專業(yè)科室負責提供指標解釋、指標變遷解釋,指標匯總關系定義。
Ø 統(tǒng)計數據源分析
1. 統(tǒng)計業(yè)務基層數據,即統(tǒng)計各專業(yè)月度、年度統(tǒng)計數據。
2. 匯總數據分為月匯總、年匯總。
3. 月匯編數據,比如以上海某區(qū)“網上直報”數據庫為準。
4. 年匯編數據,比如上海市某區(qū)統(tǒng)計局包括1993-2003年歷年具有統(tǒng)一指標的歷史數據。
5. 普查、調查數據庫,包括經濟普查、人口普查、農業(yè)普查和不定期調查數據。
6. 從其他委辦局得到的數據(如財務局、農委、稅務局、工業(yè)局、公安局、環(huán)保局)。
Ø 基層庫的特點
1. 月度基層庫,反映各單位上報的每月信息。
2. 年度基層庫,反映各單位上報的全年統(tǒng)計信息。
3. 指標明確,由上級統(tǒng)計部門統(tǒng)一制定,個別表格由基層統(tǒng)計局制定。
4. 數據量大,統(tǒng)計信息翔實,信息偏微觀。
5. 由各專業(yè)自行分頭維護。
基層庫滿足的數據需求有:
1. 提供自定義與專業(yè)制度相對應的基層數據庫指標集。
2. 按專業(yè)指標、按統(tǒng)計時間,將專業(yè)基層數據文件導入應用系統(tǒng)數據庫的基層庫中。
3. 建立最近2-3年的專業(yè)基層庫,作為系統(tǒng)的初始數據。
Ø 匯總庫的特點
1. 月度匯總庫,反映區(qū)縣每月統(tǒng)計的匯總信息。
2. 年度匯總庫,反映區(qū)縣全年統(tǒng)計的匯總信息。
3. 匯總指標以年匯編中的指標為基準,根據基層統(tǒng)計局實際需要建立。
4. 信息偏宏觀,數據總量相對較少,反映區(qū)縣的匯總統(tǒng)計信息。
5. 匯總數據來源為各專業(yè)基層庫、普查庫,少量匯總數據直接從其他委辦局獲得。
匯總庫滿足的數據需求有:
1. 確定與專業(yè)制度相對應的匯總數據庫指標集(月度、年度)。
2. 建立以往多年分專業(yè)的匯總數據庫,作為系統(tǒng)的歷史匯總庫。
3.2 系統(tǒng)滿足的統(tǒng)計功能需求
Ø 統(tǒng)計指標、表的維護
指標維護模塊旨在對統(tǒng)計基層數據庫或匯總庫指標體系進行維護。方便用戶對統(tǒng)計中各類指標的添加、修改。
系統(tǒng)實現的具體功能包括:
1. 指標集(體系)的新建、編輯、保存。
2. 指標集(體系)采用樹形結構顯示,并根據所屬專業(yè)的不同分目錄存放。
3. 指標集(體系)中所含指標的信息顯示在列表中,可供使用人員方便地進行指標信息新建、編輯、保存等操作。
4. 特別的,各指標集(體系)內所含指標信息不允許刪除,否則將造成歷史數據的不一致現象。
系統(tǒng)負責實現各統(tǒng)計專題表的維護,包括新建表,表結構的定義,表結構的編輯,表結構的保存等。一旦在系統(tǒng)中定義了統(tǒng)計表,該表中的指標不允許被刪除,除非刪除整張匯總表。
Ø 通用數據查詢
由于本系統(tǒng)主要完成統(tǒng)計數據的存儲和管理,因此必須提供功能強大且靈活的數據查詢功能,方便使用人員在大量統(tǒng)計數據中搜索所需信息。統(tǒng)計業(yè)務中常用的查詢操作應可以保存為模板,操作人員可以重新打開該查詢模版,編輯各種查詢要素,然后重新保存或者直接執(zhí)行,當某個查詢模板失效后應能夠刪除。同時,查詢模板根據主題和定義人員身份的不同分文件夾存放,這里的文件夾表示一種邏輯組織結構,既可以是面向專業(yè)的,也可以是面向特定用戶的,保證只有特定操作權限的人員才能看到。
Ø 統(tǒng)計匯總和統(tǒng)計分析
統(tǒng)計匯總指根據基層數據獲得業(yè)務所需的各種粒度級別上的匯總數據,根據匯總目標的不同又可分為定義主題匯總表進行匯總和定義動態(tài)匯總模板進行匯總兩種形式。前者包括月度匯總表和年度匯總表,分別用以存儲形成月報和年報這類固定主題的匯總數據;而后者是為了方便各種用戶自定義分析,按照定制的維度和度量快速靈活的匯總出各種情況各種粒度上的聚合數據,同時這些數據整體存儲在一張?zhí)厥鈪R總表的大字段中。同數據查詢類似,統(tǒng)計業(yè)務中常用的匯總操作應能夠保存成模板,匯總模板也是可以被打開,編輯和刪除的。不同身份的用戶可以看到和使用的匯總模板也有所不同。
Ø 統(tǒng)計分析報表及圖表展現
統(tǒng)計數據上報和對外展示分析結果的主要方式是各種報表,其中包括各個專業(yè)的,各個時段的,各種樣式的報表,報表的樣式還應允許統(tǒng)計業(yè)務人員根據實際需要靈活方便的調整,并能直觀的反映出數據間的層次關系。
數據查詢、匯總甚至分析的結果還可以通過圖表的形式直觀的展現,圖表的風格允許用戶自定義,包括直方圖、線圖、餅圖等,可以2D或3D的形式顯示。尤其是對匯總結果的分析能以圖表的形式反映出時間上的變化趨勢,甚至統(tǒng)計指標間的依賴關系也能夠通過圖表反映出來,實現分析的可視化。
最后兩部分內容是該統(tǒng)計信息管理應用系統(tǒng)的核心功能,且承前啟后,緊密聯系,實現的難度也是最高的。
3.3 聯機分析挖掘技術在本系統(tǒng)中的實現架構
為了滿足上述數據和功能的要求,在統(tǒng)計信息管理應用系統(tǒng)中首先按照各種分組標志的組合對基層數據進行匯總和再匯總,然后在各種級別的匯總結果集基礎上進行時序分析等。由于種種原因,應用系統(tǒng)中并沒有完全采用數據庫本身提供的API,而是采用一種通用的OLAP聚合算法完成對統(tǒng)計數據庫的數據匯總操作,并在此基礎上實現進一步的數據分析和挖掘。系統(tǒng)中實現多維數據集構建與數據挖掘操作的架構如圖3-1所示,至于不采用數據庫API完成OLAP的有關因素將在以下的章節(jié)中具體論述。OLAM在統(tǒng)計應用系統(tǒng)內的具體實現過程也將在下面的章節(jié)中按照該圖所示的框架自底而上逐層展開論述。
圖3-1統(tǒng)計信息管理應用系統(tǒng)中采用的OLAM實現架構
本統(tǒng)計信息管理應用系統(tǒng)后端推薦采用Oracle10g數據庫系統(tǒng),它是業(yè)界公認的具有高效、穩(wěn)定的大型數據庫管理系統(tǒng),同時在Oracle家族中也是性能/價格比最高的產品。本系統(tǒng)涉及大量的統(tǒng)計數據,而且數據還會以較快的速度不斷的增長,再加上Oracle本身提供了強大的應用開發(fā)能力,因此選擇這樣的大型數據庫系統(tǒng)非常合適。
該統(tǒng)計信息管理應用系統(tǒng)采用C/S結構實現主體部分功能,并采用B/S結構實現網上統(tǒng)計數據展現功能。為了最大限度的兼顧兩種架構下基礎類庫和業(yè)務模型的統(tǒng)一,選擇微軟的Visual Studio.NET 2003作為開發(fā)和集成平臺。由于.NET提供了豐富且功能強大的開發(fā)組件,集成開發(fā)環(huán)境(IDE),優(yōu)美的用戶操作界面,大大提高了系統(tǒng)人機交互的能力,確保業(yè)務人員能夠快速的掌握系統(tǒng)操作方法,提高工作效率。
對于上海市某區(qū)統(tǒng)計局所使用的這套統(tǒng)計信息管理系統(tǒng),由于要在關系型數據庫系統(tǒng)中存儲1992-2005年的歷史統(tǒng)計數據,數據量已經比較龐大,如果采用MOLAP的方式則實施難度很大,因此我們采用了ROLAP的方式。
由于許多情況下,基層統(tǒng)計部門的分類目錄的編制并未嚴格按照國家標準進行,所以我們開發(fā)的應用系統(tǒng)中為統(tǒng)計人員提供了靈活的分類目錄定義功能,允許用戶按照各種標志進行分組,甚至還可以在現有分組的基礎上自己定義派生出來的分組。
需要特別指出的是,數據立方體是一個邏輯概念,由于可視化技術的限制,人們很難直觀的查看數據立方體的樣子,因此多數情況下只是在理論上研究而很少有軟件能較好的實現。鑒于此,微軟的Analysis Services提出了多維數據集的概念,代替數據立方體,表現的時候采用嵌套表形式以便于觀察[15]。在本文的研究過程中,認為通常情況下數據立方體和多維數據集是等價的。在上海市某區(qū)統(tǒng)計局所使用的這套統(tǒng)計信息管理應用系統(tǒng)中,我們就采用了物理上和邏輯上的二維表形式存放多維數據,前者指數據庫表,后者指內存中的數據集合,它們都由維和事實組成,在邏輯上呈現多維特征。
在該統(tǒng)計信息管理應用系統(tǒng)中,我們將數據挖掘技術反過來應用于統(tǒng)計業(yè)務,本身就具有天然的優(yōu)勢,并且能夠產生傳統(tǒng)統(tǒng)計學方法無法取得的效果。