zhujianqiu@hotmail.com
朱建秋
,
張曉輝
,
蔡偉杰
,
朱揚(yáng)勇
(復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)系
,?
上海
,????????? 200437
)
摘要】
本文介紹了幾種數(shù)據(jù)挖掘語言及其標(biāo)準(zhǔn)化方面的研究進(jìn)展,提出了數(shù)據(jù)挖掘語言分類的方法,在此基礎(chǔ)上,對數(shù)據(jù)挖掘語言的結(jié)構(gòu)和組成進(jìn)行了探討和研究,最后指出了數(shù)據(jù)挖掘語言的發(fā)展趨勢,以及若干待解決的問題。
【關(guān)鍵詞】
數(shù)據(jù)挖掘,查詢語言,建模語言,
XML
1.?????
引言
隨著網(wǎng)絡(luò)技術(shù)的發(fā)展和計(jì)算機(jī)使用的日益廣泛,電子化數(shù)據(jù)越來越多,人們正面臨“數(shù)據(jù)豐富而知識貧乏”的問題。八十年代末興起的數(shù)據(jù)挖掘(
data mining
)技術(shù)或數(shù)據(jù)庫中的知識發(fā)現(xiàn)(
knowledge discovery in database
,
KDD
)技術(shù)為解決此問題開辟了一條道路。數(shù)據(jù)挖掘是在大量的數(shù)據(jù)中發(fā)現(xiàn)潛在的、有價(jià)值的模式和數(shù)據(jù)間關(guān)系(知識)的過程。經(jīng)過十多年的工作
,數(shù)據(jù)挖掘技術(shù)的研究與應(yīng)用已取得了很大的成果,然而,我們還面臨著許多問題:(
1
)各種數(shù)據(jù)挖掘問題及挖掘方法基于不同的模型和技術(shù),彼此互相孤立,聯(lián)系很少;(
2
)缺少簡明精確的問題描述方法,挖掘的語義通常是由實(shí)現(xiàn)方法決定的;(
3
)數(shù)據(jù)挖掘系統(tǒng)僅提供孤立的知識發(fā)現(xiàn)功能,難于嵌入大型應(yīng)用;(
4
)數(shù)據(jù)挖掘引擎與數(shù)據(jù)庫系統(tǒng)是松散耦合,
T.Imielinski
和
H.Mannila
稱其為
"
文件挖掘
(file mining)
系統(tǒng)
"
,它沒有提供應(yīng)用獨(dú)立的操作原語。
到目前為止,數(shù)據(jù)挖掘行業(yè)是高度分散的,公司和研究機(jī)構(gòu)獨(dú)立開發(fā)各自的數(shù)據(jù)挖掘系統(tǒng)和平臺,沒有形成開放性的標(biāo)準(zhǔn);同時數(shù)據(jù)挖掘本身是一門多學(xué)科綜合跨度非常大的技術(shù),這兩點(diǎn)是上述問題存在的根本原因。近年來數(shù)據(jù)挖掘語言的研究為解決上列問題,提出一個新的研究方向。
????????
本文組織結(jié)構(gòu)如下:在第
2
節(jié)提出了數(shù)據(jù)挖掘語言分類的方法,將數(shù)據(jù)挖掘語言分為:查詢語言,建模語言,以及通用語言三種類型,然后,分別在
2.1
、
2.2
與
2.3
小節(jié)舉例闡述這三種數(shù)據(jù)挖掘語言的特點(diǎn)。在第
3
節(jié)對三種數(shù)據(jù)挖掘語言進(jìn)行分析與評價(jià),指出了各自的優(yōu)缺點(diǎn)。最后指出了數(shù)據(jù)挖掘語言的發(fā)展趨勢,以及若干待解決的問題。
2.
?????
數(shù)據(jù)挖掘語言的分類
設(shè)計(jì)一個好的數(shù)據(jù)挖掘語言的重要性可以通過觀察關(guān)系數(shù)據(jù)庫系統(tǒng)的歷史來證實(shí)。在數(shù)據(jù)庫市場上,關(guān)系數(shù)據(jù)庫系統(tǒng)已經(jīng)占支配地位數(shù)十年了。關(guān)系查詢語言的標(biāo)準(zhǔn)化,發(fā)生在關(guān)系數(shù)據(jù)庫開發(fā)的早期階段,關(guān)系數(shù)據(jù)庫領(lǐng)域的成功廣泛地依賴于關(guān)系數(shù)據(jù)庫查詢語言的標(biāo)準(zhǔn)化。盡管每個商業(yè)的關(guān)系數(shù)據(jù)庫系統(tǒng)都有各自的圖形用戶接口
GUI
,每個接口的根本的核心仍然是標(biāo)準(zhǔn)化的關(guān)系數(shù)據(jù)庫查詢語言。關(guān)系查詢語言的標(biāo)準(zhǔn)化為關(guān)系數(shù)據(jù)庫的開發(fā)和發(fā)展提供了基礎(chǔ)。它使得信息交換更加容易,同時提升了關(guān)系數(shù)據(jù)庫技術(shù)的商業(yè)性和被廣泛接受的程度。因此,有一個好的數(shù)據(jù)挖掘語言可以有助于數(shù)據(jù)挖掘系統(tǒng)平臺的標(biāo)準(zhǔn)化的開發(fā),甚至可以象
HTML
推動
Internet
的發(fā)展一樣,推動數(shù)據(jù)挖掘行業(yè)的開發(fā)和發(fā)展。
設(shè)計(jì)全面的數(shù)據(jù)挖掘語言是一個巨大的挑戰(zhàn),因?yàn)閿?shù)據(jù)挖掘覆蓋了寬廣的任務(wù),從數(shù)據(jù)特征化到挖掘關(guān)聯(lián)規(guī)則,數(shù)據(jù)分類,聚集和偏差檢測,等等。每個任務(wù)都有不同的需求。設(shè)計(jì)一個有效的數(shù)據(jù)挖掘語言需要對各種不同的數(shù)據(jù)挖掘任務(wù)的能力、限制、以及運(yùn)行機(jī)制都有深入地理解。
????????
數(shù)據(jù)挖掘語言的研究經(jīng)歷了兩個階段,第一個階段是研究單位和公司自行研究和開發(fā)階段;第二階段是研究單位和公司組成聯(lián)盟,研制和開發(fā)數(shù)據(jù)挖掘語言標(biāo)準(zhǔn)化的階段。這兩個階段趨勢界限是很明顯的。第一個階段成果包括
Jiawei Han
等研制的
DMQL
;
Imielinski
和
Virmani
提出的
MSQL
;
Meo
、
Psaila
、和
Ceri
提出
MINE RULE
操作器;等。第二階段主要包括數(shù)據(jù)挖掘組織協(xié)會(
DMG
)提出的預(yù)言模型標(biāo)記語言
PMML
,以及微軟公司提出的
OLE DB for Data Mining
規(guī)范。
????????
對于上述數(shù)據(jù)挖掘語言,根據(jù)功能和側(cè)重點(diǎn)不同,我們將其分為三種類型:數(shù)據(jù)挖掘查詢語言;數(shù)據(jù)挖掘建模語言;通用數(shù)據(jù)挖掘語言。第一階段的數(shù)據(jù)挖掘語言一般屬于查詢語言;
PMML
屬于建模語言;
OLE DB for DM
屬于通用數(shù)據(jù)挖掘語言。下面我們分別介紹其特點(diǎn)和功能。
2.1
?
數(shù)據(jù)挖掘查詢語言
[1,2]
數(shù)據(jù)挖掘系統(tǒng)應(yīng)該有能力支持特殊的和交互的數(shù)據(jù)挖掘
(sad-hoc and interactive data mining)
,目的是為了靈活和有效的知識發(fā)現(xiàn)。數(shù)據(jù)挖掘查詢語言即是設(shè)計(jì)用來支持這個特點(diǎn)的。我們首先以加拿大
Simon Franser
大學(xué)
Jiawei Han
等開發(fā)的數(shù)據(jù)挖掘系統(tǒng)
DBMiner
中數(shù)據(jù)挖掘查詢語言
DMQL
(
Data Mining Query Language
)來介紹查詢語言的特點(diǎn),接著簡單介紹其它研究工作。
數(shù)據(jù)挖掘查詢語言
DMQL
由數(shù)據(jù)挖掘原語組成,數(shù)據(jù)挖掘原語用來定義一個數(shù)據(jù)挖掘任務(wù)。用戶使用數(shù)據(jù)挖掘原語與數(shù)據(jù)挖掘系統(tǒng)通信,使得知識發(fā)現(xiàn)更有效。這些原語有以下幾個種類:數(shù)據(jù)庫一部分的規(guī)范以及用戶感興趣的數(shù)據(jù)集(包括感興趣的數(shù)據(jù)庫屬性或數(shù)據(jù)倉庫的維度);挖掘知識的種類;在指導(dǎo)挖掘過程中有用的背景知識;模式估值的興趣度測量;以及挖掘出的知識如何可視化表示。數(shù)據(jù)挖掘原語允許用戶在挖掘過程中從不同的角度或深度與數(shù)據(jù)挖掘系統(tǒng)進(jìn)行交互式地通信。
數(shù)據(jù)挖掘查詢的基本單位是數(shù)據(jù)挖掘任務(wù),通過數(shù)據(jù)挖掘查詢語言,數(shù)據(jù)挖掘任務(wù)可以通過查詢的形式輸入到數(shù)據(jù)挖掘系統(tǒng)中。一個數(shù)據(jù)挖掘查詢由以下五種基本的數(shù)據(jù)挖掘原語定義:
1
)
?
任務(wù)相關(guān)數(shù)據(jù)原語
這是被挖掘的數(shù)據(jù)庫的一部分。挖掘的數(shù)據(jù)不是整個數(shù)據(jù)庫,只是和具體商業(yè)問題相關(guān)、或者用戶感興趣的數(shù)據(jù)集,即是數(shù)據(jù)庫中一部分表,以及表中感興趣的屬性。該原語包括以下具體的內(nèi)容:數(shù)據(jù)庫或數(shù)據(jù)倉庫的名稱;數(shù)據(jù)庫表或數(shù)據(jù)倉庫的立方體;數(shù)據(jù)選擇的條件;相關(guān)的屬性或維;數(shù)據(jù)分組定義。
2
)
?
被挖掘的知識的種類原語
該原語指定被執(zhí)行的數(shù)據(jù)挖掘的功能,在
DMQL
中將挖掘知識分為五種類型,即五種知識的表達(dá):特征規(guī)則;辨別規(guī)則;關(guān)聯(lián)規(guī)則;分類
/
預(yù)言;聚集。
3
)
?
背景知識原語
用戶能夠指定背景知識,或者關(guān)于被挖掘的領(lǐng)域知識。這些知識對于引導(dǎo)知識發(fā)現(xiàn)過程和評估發(fā)現(xiàn)的模式都是非常有用的。背景知識原語包括:概念層次(
concept hierarchy
);對數(shù)據(jù)關(guān)系的用戶信任度(
user beliefs about relationships in the data
)。
4
)
?
興趣度測量原語
這個功能是將不感興趣的模式從知識中排除出去。興趣度測量能夠用來引導(dǎo)數(shù)據(jù)挖掘過程,或者在發(fā)現(xiàn)后評估被發(fā)現(xiàn)的模式。不同種類的知識有不同種類的興趣度測量方法。例如對關(guān)聯(lián)規(guī)則來說,興趣度測量包括支持度(
support
)和可信度(
confidence
)。低于用戶指定的支持度和可信度閾值的規(guī)則被認(rèn)為是不感興趣的。興趣度測量原語包括:簡單性(
simplicity
);確定性(
certainty
,比如:可信度);效用(
utility
,比如:支持度);新穎性(
novelty
)。
5
)
?
被發(fā)現(xiàn)模式的表示和可視化原語
這個原語定義被發(fā)現(xiàn)的模式顯示的方式,用戶能夠選擇不同的知識表示形式。該原語包括:規(guī)則,表格,報(bào)告,圖表,圖形,決策樹,和立方體;向下鉆入和向上累積(
drill-down and roll-up
)。
DMQL
正是基于這些原語設(shè)計(jì)的數(shù)據(jù)挖掘查詢語言。它允許從關(guān)系數(shù)據(jù)庫和數(shù)據(jù)倉庫中多個抽象層次上特殊(
ad-hoc
)和交互地挖掘多種種類的知識。
DMQL
采用類似
SQL
語言的語法,因此它能夠很容易地和關(guān)系查詢語言
SQL
集成。
除了
DMQL
以外,我們簡單介紹其它一些數(shù)據(jù)挖掘查詢語言的研究工作。
MSQL
是一個數(shù)據(jù)挖掘查詢語言,它有
Imielinski
和
Virmani
提出。這個語言使用了類似
SQL
的語法和
SQL
原語(包括排序、分組、和其它原語)。既然在數(shù)據(jù)挖掘中可能產(chǎn)生大量的規(guī)則,
MSQL
提供了一個稱作
GetRule
和
SelectRule
的原語,用于規(guī)則產(chǎn)生和規(guī)則選擇。它統(tǒng)一地對待數(shù)據(jù)和規(guī)則,因此,能夠在執(zhí)行數(shù)據(jù)選擇,以及基于查詢的規(guī)則產(chǎn)生時進(jìn)行優(yōu)化工作,同時也能在操縱或者查詢產(chǎn)生規(guī)則的集合時進(jìn)行優(yōu)化。其它在數(shù)據(jù)挖掘語言設(shè)計(jì)方面的研究工作包括
Meo
、
Psaila
、和
Ceri
提出
MINE RULE
操作器。它同樣遵循類似
SQL
的語法,是為挖掘關(guān)聯(lián)規(guī)則設(shè)計(jì)的規(guī)則產(chǎn)生查詢語言。
2.2
?
數(shù)據(jù)挖掘建模語言
[3]
數(shù)據(jù)挖掘建模語言是對數(shù)據(jù)挖掘模型進(jìn)行描述和定義的語言。如果我們設(shè)計(jì)一種標(biāo)準(zhǔn)的數(shù)據(jù)挖掘建模語言,使得數(shù)據(jù)挖掘系統(tǒng)在模型定義和描述方面有標(biāo)準(zhǔn)可以遵循,那么各系統(tǒng)之間可以共享模型,既可以解決目前各數(shù)據(jù)挖掘系統(tǒng)之間封閉性的問題,有可以在其它應(yīng)用系統(tǒng)中間嵌入數(shù)據(jù)挖掘模型,解決孤立的知識發(fā)現(xiàn)問題。“預(yù)言模型標(biāo)記語言”(
Predictive Model Markup Language
,
PMML
)正是這樣一種數(shù)據(jù)挖掘建模語言。
PMML
被一個稱作數(shù)據(jù)挖掘協(xié)會(
The Data Mining Group
,
http://www.dmg.org/
,
DMG
)的組織開發(fā)。該組織由
Angoss
,
Magnify
,
NCR
,
SPSS
和芝加哥
Illinois
大學(xué)
等企業(yè)和單位組成,它的目的是開發(fā)預(yù)言模型開放標(biāo)準(zhǔn),策略是將此標(biāo)準(zhǔn)推薦給
W3C
工作組,使
PMML
成為
W3C
的正式推薦物。目前
DMG
宣布了定義預(yù)言模型開放標(biāo)準(zhǔn)的第一個版本
PMML 1.0
。
PMML
主要目的是允許應(yīng)用程序和聯(lián)機(jī)分析處理(
OLAP
)工具能從數(shù)據(jù)挖掘系統(tǒng)獲得模型,而不用獨(dú)自開發(fā)數(shù)據(jù)挖掘模塊。另一個目的是能夠收集使用大量潛在的模型,并且統(tǒng)一管理各種模型的集合。這些能力在商業(yè)應(yīng)用領(lǐng)域是有效的配置分析模型的基礎(chǔ)。
PMML
是一種基于
XML
的語言,用來定義預(yù)言模型。它為各個公司定義預(yù)言模型和在不同的應(yīng)用程序之間共享模型提供了一種快速并且簡單的方式。通過使用標(biāo)準(zhǔn)的
XML
解析器對
PMML
進(jìn)行解析,應(yīng)用程序能夠決定模型輸入和輸出的數(shù)據(jù)類型,模型詳細(xì)的格式,并且按照標(biāo)準(zhǔn)的數(shù)據(jù)挖掘術(shù)語來解釋模型的結(jié)果。
PMML
提供了一個靈活機(jī)制來定義預(yù)言模型的模式,同時支持涉及多個預(yù)言模型的模型選擇和模型平衡(
model averaging
)。對于那些需要全部學(xué)習(xí)、部分學(xué)習(xí)和分布式學(xué)習(xí)(
ensemble learning, partitioned learning, and distributed learning
)的應(yīng)用程序,這種語言被證明是非常有用的。另外,它使得在不同的應(yīng)用程序和系統(tǒng)之間移動預(yù)言模型變得容易、方便。特別地,
PMML
非常適合部分學(xué)習(xí)、元學(xué)習(xí)、分布式學(xué)習(xí)、以及相關(guān)領(lǐng)域。
使用
PMML
進(jìn)行模型定義由以下幾部分組成:
1)
???
頭文件(
a header
)
2)
???
數(shù)據(jù)模式(
a data schema
)
3)
???
數(shù)據(jù)挖掘模式(
a data mining schema
)
4)
???
預(yù)言模型模式(
a predictive model schema
)
5)
???
預(yù)言模型定義(
definitions for predictive models
)
6)
???
全體模型定義(
definitions for ensembles of models
)
7)
???
選擇和聯(lián)合模型和全體模型的規(guī)則(
rules for selecting and combining models and ensembles of models
)
8)
???
異常處理的規(guī)則(
rules for exception handling
)
其中第
5
項(xiàng)組件是必不可少的。另外預(yù)言模型的模式必須被定義,這能夠利用一個或多個模式(組件
3
,
4
,
5
)來定義。其它幾項(xiàng)組件是可選的。
PMML1.0
標(biāo)準(zhǔn)版提供了一個小的
DTD
(文檔類型定義,
XML
術(shù)語)集合,
DTD
詳細(xì)說明了決策樹和多項(xiàng)式回歸模型的實(shí)體和屬性。
DTD1.0
遵循著一個通用模式,該模式將一個數(shù)據(jù)字典和一個或多個模型的定義相結(jié)合,數(shù)據(jù)字典能夠立即應(yīng)用于模式。數(shù)據(jù)字典的元素是非常簡單的。
???????? DMG
當(dāng)前正在制定
PMML
版本
1.1
,該版本提供獨(dú)立于應(yīng)用程序定義模型的方法,使得版權(quán)問題和不兼容問題不再成為應(yīng)用程序之間交換模型的障礙。
??
2.3
?
通用數(shù)據(jù)挖掘語言
[4]
通用數(shù)據(jù)挖掘語言合并了上述兩種語言的特點(diǎn),既具有定義模型的功能,又能作為查詢語言與數(shù)據(jù)挖掘系統(tǒng)通信,進(jìn)行交互和特殊的挖掘。通用數(shù)據(jù)挖掘語言的標(biāo)準(zhǔn)化是解決目前數(shù)據(jù)挖掘行業(yè)出現(xiàn)問題的最優(yōu)的解決方案。
2000
年
3
月,微軟公司推出了一個數(shù)據(jù)挖掘語言,稱作
OLE DB for Data Mining
(
DM
)。這是朝數(shù)據(jù)挖掘語言原語標(biāo)準(zhǔn)化方面最顯著的努力。我們將
OLE DB for DM
歸類成通用數(shù)據(jù)挖掘語言。
OLE DB for DM
的規(guī)范包括創(chuàng)建原語以及許多重要數(shù)據(jù)挖掘模型的定義和使用(包括預(yù)言模型和聚集)。它是一個基于
SQL
預(yù)言的協(xié)議,為軟件商和應(yīng)用開發(fā)人員提供了一個開放的接口,該接口將數(shù)據(jù)挖掘工具和能力更有效地和商業(yè)以及電子商務(wù)應(yīng)用集成。同時,
OLE DB for DM
已經(jīng)與
DMG
發(fā)布的
PMML
標(biāo)準(zhǔn)結(jié)合。通過與
PMML
標(biāo)準(zhǔn)結(jié)合,微軟將數(shù)據(jù)挖掘分析應(yīng)用帶入了一個更加強(qiáng)大的開放規(guī)范。這意味著大量的組織或公司現(xiàn)在都可以有一種簡單的并且易實(shí)現(xiàn)的方式將數(shù)據(jù)挖掘模型與他們自己構(gòu)建的應(yīng)用相結(jié)合,增強(qiáng)了應(yīng)用系統(tǒng)的分析能力,卻沒有增加復(fù)雜性。
OLE DB for DM
擴(kuò)充了
SQL
語言語法,使得商業(yè)分析和開發(fā)人員只是調(diào)用單一確定的
API
(應(yīng)用程序接口)函數(shù)即可實(shí)現(xiàn)數(shù)據(jù)挖掘功能,而不需要特殊的數(shù)據(jù)挖掘技能。它與關(guān)系數(shù)據(jù)庫自然的集成能夠加快數(shù)據(jù)挖掘進(jìn)入高利潤的電子商務(wù)應(yīng)用領(lǐng)域,例如站點(diǎn)個性化設(shè)計(jì)和購物籃分析。
微軟的目的是為數(shù)據(jù)挖掘提供行業(yè)標(biāo)準(zhǔn),以至于任何數(shù)據(jù)挖掘軟件的算法,只要符合這個標(biāo)準(zhǔn),都能容易地嵌入應(yīng)用程序中。
OLE DB for DM
支持多種流行的數(shù)據(jù)挖掘算法。使用
OLE DB for DM
,數(shù)據(jù)挖掘應(yīng)用能夠通過
OLE DB
生產(chǎn)者接進(jìn)任何表格式的數(shù)據(jù)源,數(shù)據(jù)挖掘分析現(xiàn)在能夠依賴一個關(guān)系數(shù)據(jù)庫直接進(jìn)行。
為了更容易訪問,
OLE DB for DM
沒有增加任何新的
OLE DB
接口;相反,這個規(guī)格定義了一個簡單的查詢語言,它的語法非常類似于
SQL
語言,它專門研究了模式的行集合(
rowset
),經(jīng)過
OLE DB
或者
ADO
,消費(fèi)者應(yīng)用程序能夠使用行集合與數(shù)據(jù)挖掘生產(chǎn)者進(jìn)行通信。
為了填補(bǔ)傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)和目前流行的關(guān)系數(shù)據(jù)庫管理系統(tǒng)之間的縫隙,
OLE DB for DM
定義了重要的新的概念和特點(diǎn),包括如下幾點(diǎn):
1
)數(shù)據(jù)挖掘模型(
Data Mining Model
,
DMM
)
DMM
類似一個關(guān)系表,但是它包含了一些特殊的列,這些列被數(shù)據(jù)挖掘中的數(shù)據(jù)訓(xùn)練和預(yù)言制定使用。
DMM
既可以用來創(chuàng)建預(yù)言模型,又可以產(chǎn)生預(yù)言。不象標(biāo)準(zhǔn)的關(guān)系表存儲原始數(shù)據(jù),
DMM
存儲被數(shù)據(jù)挖掘算法發(fā)現(xiàn)的模式。對于從事基于
WEB
數(shù)據(jù)挖掘項(xiàng)目的開發(fā)人員,
DMM
所有的結(jié)構(gòu)和內(nèi)容都可以用
XML
字符串表示。
2
)預(yù)言聯(lián)接操作(
Predication Join Operation
)
這是一個簡單的操作,類似于
SQL
語法中的聯(lián)接操作,它在一個訓(xùn)練好的數(shù)據(jù)挖掘模型和設(shè)計(jì)的輸入數(shù)據(jù)源之間映射一個聯(lián)接查詢,開發(fā)人員能夠容易地產(chǎn)生確切符合商業(yè)需求的度身定制的預(yù)言結(jié)果。這個預(yù)言結(jié)果通過
OLE DB
的行集合或者
ADO
記錄集(
recordset
)發(fā)送到消費(fèi)者應(yīng)用程序內(nèi)。
3
)
OLE DB for DM
模式行集合(
Schema Rowsets
)
這些特殊目的的模式行集合允許消費(fèi)者應(yīng)用發(fā)現(xiàn)臨界的信息,例如可以利用的挖掘服務(wù),挖掘模型,挖掘列,和模型內(nèi)容。數(shù)據(jù)挖掘生產(chǎn)者在模型創(chuàng)建和訓(xùn)練階段組裝模式行集合。
目前
OLE DB for DM
規(guī)范最新版本是
1.0
。
3.
?????
分析與評價(jià)
數(shù)據(jù)挖掘查詢語言能與數(shù)據(jù)挖掘系統(tǒng)通信,進(jìn)行交互和特殊的挖掘。它提供了獨(dú)立于應(yīng)用的操作原語,簡明
精確的問題描述方法。但是,由于各查詢語言是研究機(jī)構(gòu)和公司為自己的數(shù)據(jù)挖掘系統(tǒng)開發(fā),沒有形成標(biāo)準(zhǔn),它并沒有實(shí)質(zhì)性地解決各個數(shù)據(jù)挖掘系統(tǒng)彼此互相孤立,難于嵌入大型應(yīng)用的問題。
PMML
為處理和交換預(yù)言模型提供了一個簡單、開放的構(gòu)架,使得各公司能夠更加迅速地使用他們從在線和傳統(tǒng)的數(shù)據(jù)中挖掘出的信息。這種標(biāo)準(zhǔn)使得公司在
IT
基礎(chǔ)構(gòu)架中更加容易構(gòu)建商業(yè)智能。
PMML
允許用戶在一個軟件商的應(yīng)用程序內(nèi)開發(fā)模型,而使用其它軟件商的應(yīng)用程序?qū)δP涂梢暬⒎治?、估值或者以別的方式使用該模型。它使得在不同應(yīng)用程序之間能夠無縫地交換模型變?yōu)榭赡埽鉀Q了數(shù)據(jù)挖掘系統(tǒng)彼此孤立,難于嵌入大型應(yīng)用的問題。
然而,
PMML
是預(yù)言模型標(biāo)記語言,數(shù)據(jù)挖掘模型包括預(yù)言模型和描述模型,因此
PMML
并不是全面的數(shù)據(jù)挖掘模型定義語言。同時,
PMML1.0
不是一個全面的集合,我們期望
PMML
最終將發(fā)展成一個全面的、具有豐富建模能力的模型定義語言。我們預(yù)見并且盼望這個標(biāo)準(zhǔn)接下來的版本能夠介紹優(yōu)化,比如種類字段(
categorical fields
)的位向量擴(kuò)充(
bit vector expansions
)或者連續(xù)字段(
continuous fields
)的
log
變換。
PMML
,或者類似于
PMML
的事物,隨著商業(yè)系統(tǒng)對統(tǒng)計(jì)和數(shù)據(jù)挖掘工具與技術(shù)需求的日益增加,對它的要求顯得特別迫切。
OLE DB for DM
規(guī)范的發(fā)布在預(yù)言和描述分析模型被商業(yè)應(yīng)用廣泛使用的道路上是一個重大的里程碑。它同時具備了數(shù)據(jù)挖掘查詢和建模語言的優(yōu)點(diǎn),它的推廣必將推動數(shù)據(jù)挖掘行業(yè)的發(fā)展。但是,對于一些數(shù)據(jù)挖掘模型,比如:概念描述(特征和辨別規(guī)則)和關(guān)聯(lián)規(guī)則,還有數(shù)據(jù)倉庫模型,
OLAP
的創(chuàng)建和使用,在目前的版本中仍然沒有涉及。我們期望微軟公司將繼續(xù)動態(tài)地?cái)U(kuò)充和豐富它的內(nèi)容。
4
.總結(jié)
????????
本文介紹了數(shù)據(jù)挖掘語言及其標(biāo)準(zhǔn)化方面的研究進(jìn)展,分析并比較了幾種商用數(shù)據(jù)挖掘語言的特點(diǎn),我們發(fā)現(xiàn)標(biāo)準(zhǔn)化是數(shù)據(jù)挖掘語言發(fā)展的趨勢。開發(fā)一種全面的開放的數(shù)據(jù)挖掘語言標(biāo)準(zhǔn),必然將是各公司和研究機(jī)構(gòu)的核心課題。但是,正如關(guān)系數(shù)據(jù)庫查詢語言
SQL
由關(guān)系代數(shù)理論的支持,數(shù)據(jù)挖掘語言的標(biāo)準(zhǔn)化也需要一種理論的基礎(chǔ),
基于高階邏輯和Rough Sets理論的數(shù)據(jù)挖掘問題的分類描述理論,將作為今后我們進(jìn)一步深入研究的課題。
【參考 文 獻(xiàn)】
[1]
????
Jiawei Han, Yongjian Fu, Wei Wang, Krzysztof Koperski, Osmar Zaiane. “DMQL:A Data Mining Query Language for Relational Database”. VLDB’96
[2]
????
Jiawei Han, Micheline Kamber. ”Data Mining: Concepts and Techniques” 97-116.Morgan Kaufmann Publishers. August 2000
[3]
????
Robert Grossman, Stuart Bailey, Ashok Ramu, Balinder Malhi, Michael Cornelison, Philip Hallstrom, and Xiao Qin. “The Management and Mining of Multiple Predictive Models Using the Predictive Modeling Markup Language (PMML)”,AFCEA’99
[4]
????
Microsoft Corporation. ”O(jiān)LE DB for Data Mining Specification” Version 1.0. July 2000
?
Data Mining Language Analysis
Zhu Jianqiu, Zhang xiaohui, Cai Weijie, Zhu Yangyong
(
Department of Computer Science, Fudan University, Shanghai, 200437
)
?
【
Abstract
】
The article introduces some research work about some kinds of data mining languages and standardization, presents a kind of classification? of data mining language. Then the article states structure and compose of the data mining languages. At the end it points out the trend of data mining language growing and some un-solved problems.
【
Key Words
】
data mining
,
query language
,
modeling language
,
XML
本文得到國家
863
(
863-306-02-05
)基金和“上海市教育委員會重點(diǎn)學(xué)科”基金的資助。
作者簡介
朱建秋
?????
男
(
1974-
)博士研究生
研究方向:數(shù)據(jù)倉庫,數(shù)據(jù)挖掘
工作單位:復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)系數(shù)據(jù)庫研究中心
聯(lián)系地址:復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)系數(shù)據(jù)庫研究中心
527
EMAIL
:
zhujianqiu@hotmail.com
凡是有該標(biāo)志的文章,都是該blog博主Caoer(草兒)原創(chuàng),凡是索引、收藏
、轉(zhuǎn)載請注明來處和原文作者。非常感謝。