數據挖掘之Enterprise Miner
總的看法
:SAS/Enterpreise Miner是在數據挖掘市場上令人敬畏的競爭者。它支持SAS統計模塊,使之具有杰出的力量和影響,它還通過大量數據挖掘算法增強了那些模塊。SAS使用它的SEMMA方法學以提供一個能
匚鮍噵/妃
?
支持包括關聯、聚類、決策樹、神經元網絡和統計回歸在內的廣闊范圍的模型數據挖掘工具。
/薇铞[
?
? ? SAS Entelprise Miner設計為被初學者和有經驗的用戶使用。它的GUI界面是數據流驅動的,且它易于理解和使用。它允許一個分析者通過構造一個使用鏈接連接數據結點和處理結點的可視數據流圖建造一個模型。另外,此界面允許把處理結點直接插入到數據流中。由于支持多種模型,所以Enterprise Miner允許用戶比較(評估)不同模型并利用評估結點
愷鳶Mb?
?
選擇最適合的。另外,Enterprise Miner提供了一個能產生被任何SAS應用程序所訪問的評分模型的評分結點。
覎螔ue濌8?
?
? ? SAS Enterprise Miner能運行在客戶/j匠務器上或(計算機的外圍設備)能獨立運行的配置上。此外,在客戶/服務器模式下,Enterprise Miner允許把服務器配置成一個數據服務器、計算服務器或兩者的綜合。EntepnseMiner被設計成能在所有SAS支持的平臺上運行。該結構支持胖客戶機配置(要求客戶機上的完全SAS許可證)以及瘦客戶機(瀏覽器)版本。
懖E\5?
?
? ? 數據訪問、操縱和預處理:直接數據界面貫穿于SAS數據集。然而,數據也能通過標準SAS數據程序(例如:訪問RDBMS和PC格式數據的ACCESS被訪問。對Oracle、Informix、Sybase和DB2RDBMS的支持是通過ACCESS來實現。
|F[8_;a蹌
?
? ? 數據操縱能力包括通過基本SA3引擎可用的所有特征。此外,各種各樣的數據取樣和數據劃分技術也通過合適的EntelprjseMiner結點被支持。
Co?€瀨 ?
?
? ? 數據挖掘技術、算法和應用程序:SAS Entelprise Miner支持關聯、聚類、決策樹、神經元網絡和經典的統計回歸技術。
茁剴捈夽臸
?
? ? ●關聯:此算法允許關聯規則勘測(例如市場劃分分析)和順序模式勘測。
?輦騶?
?
? ? ●聚類:無監督學習技術用作初始知識勘測和數據可視化。
憽&?v
?
? ? ●決策樹:支持幾種決策樹技術:CHAID and Entropy Reductlon(二進制和絕對變量)和F—TESTandVarianceReduc血n(為間隔目標變量)。
€奈?
?
? ? ●神經元網絡:支持幾種神經元網絡,包括多層感知器(MLP)和基于半徑的函數(RBF)。Enterpdse Miner還提供了各種各樣的轉變和報錯函數以及訓練方法。設計這些能力是為了提供比標準向后傳播網絡更好的預測和運行時性能。
貄|?l
?
? ? ●回歸:EnterpdseMiner支持多種在標準SAS上已被實現的回歸技術。
獮氀約
?
? ?? Enterpdse Miner支持市場劃分分析、分類、預測模型、顧客分析、計量經濟時序的統計分析范圍、運作研究和其它許多方面。
紛w矝E!輣Y
?
? ?? 使用工具:Entepnse Miner為構造預測模型提供了大量選項。指定過程是在可視化編程環境中通過拖拉和按下動作完成的。大量的默認集使它能對初學者合適。
iI裯a盂$?
?
? ?? Enterprise Miner為神經元網絡的解釋提供了日志文件和SAS源代碼。
>詄]l?+?
?
? ?? Enterprise M1ner支持兩種評估模型的方法:通過模型管理器或通過評估結點。模型管理器是從特定的模型分析輸出結果的好工具。評估結點在評估模型的概況和健壯性方面很有用。兩者都支持提升表、利潤表、ROI和別的指示器。
勺C靠橇>
?
? ?? 由于評分結點能把模型存儲在SAS結構中以各以后代入數據,所以模型能通過使用評分結點被直接配置。
o阻炄玦w韇
?
? ?? 有經驗的用戶能利用把任意復雜的代碼并入數據流的SAS代碼結點。關于元數據,Enterprise Miner使用了與SAS系統其它部分一樣的元數據。
t?鶰梳
?
? ?? 結論:由于它在統計分析軟件上的豐富經驗,所以SAS開發出了一個全功能、易于使用、可靠和易于管理的系統。模型選項和算法所覆蓋的廣闊范圍、設計良好的用戶界面、現存數據商店的能力和在統計分析市場所占的巨大份額(允許一個公司獲得一個增加的SAS部件而不是一個新的工具)都可能使SAS在數據挖掘市場上取得領先位置。由于它最近剛投放市場,所以在寫此書時只能獲得少數公布的用戶基推測試。這些結果表明Enterprise Miner在可伸縮性、預測準確性和處理時間上都表現得很好。總的來說,此工具適合于企業在數據挖掘方面的應用以及CBM的全部決策支持應用。
︿W數據挖掘之Clementine(SPSS)
總體看法:C1ementine是SPSS的數據挖掘應用工具。這種工具可把直觀的用戶圖形界面與多種分析技術相結合。這些技術包括神經元網絡、關聯規則和規則歸納技術。這些分析能力由一個易于使用的可視化編程環境所提供。 匵闡摭閮% ?
? ? C1ementinee所使用的圖形表現是在屏幕上拖動、按下和連接功能節點。節點的類型分為數據訪問節點、數據操縱節點、數據可視化節點、機器學習節點和模型分析節點。模型產生過程由從托盤中選擇正確的節點、把它們放到屏幕上和連接節點組成。 9-SH`( ?
? ? C1ementinee提供了豐富的數據訪問能力,其中包括對展開文件和關系數據庫(通過ODBC)的訪問。C1ementine具有通過把建模結果寫回一個與ODBC兼容的DBMS而使它們保持一致的能力。輸入數據操縱包括合并匹配字段和派生新字段的能力。 H7蓽?I橄??
? ? C1ementine的數據可視化能力包括分布圖、線性圖和網絡分析。 圜盟_偔??
? ? C1ementine可在運行W1ndowsNT的Intel Penhum系統、運行HPUXl0及以上的HP900系列、運行IRIX的Silicon Graphics、運行Solaris 2.x的SunSPARC和運行DigihlUNIX 3.x或VMS6.x的D1gihlALPm上使用。 ?FP74顄MW ?
? ? 數據訪問、操縱和預處理:C1emen6ne能導入分隔的文本文件、用逗號分隔值的文件和定長記錄的文件(ASC11)。別的數據源可通過支持的ODBC接口使用。主要的關系數據庫系統包括Oracle、Sybase、Infomix和CA—Ingres都可通過ODBC訪問。 D賜芔欦^ ?
? ? C1ementlne的數據操縱能力包括以下這些方面: 鞍?31oPK ?
? ? ●通過記錄順序對記錄進行合并。
數據挖掘之Intelligent Miner(IBM)
總的看法:
IBM使用它在美國(例如Waston Research、Almaden Rese)和世界上的(例如:在法國的EC八M,在德國的BobUngen)研究實驗室的龐大資源致力于開發數據挖掘方案已有許多年了。這些努力的結果是一套包含了在人工智能、機器學習、語言分析和知識勘測領域的應用和基礎研究成果在內的復雜銷軟件方案。
f0閣鄀z=毫
?
? ? 在這里討論的產品是取Intelengent Miner for data。?
歈f??4
?
? ? IBM的Inten1igent Miner正在競爭數據挖掘工具市場的領導地位,它提供了以下功能:
9榑 ?
?
?? ●最廣泛的數據挖掘技術和算法集之一。
詵??
?
?? ●在數據規模和計算性能方面具有非常高的可伸縮性;實際上,此產品在IBM SP大規模并行硬件系統上運行是最佳的。此產品可在許多IBM和非IBM的平臺上運行。
妿???
?
?? ●具有大量能被用來開發用戶化數據挖掘應用程序的應用程序編程接口:所有的數據挖掘引擎和數據操縱函數能通過共享C什庫被訪問。
?D獻螟c屄
?
?? Intel1igent Miner支持分類、預測、關聯規則產生、聚類、順序模式偵測和時間序列分析的算法。Intelligent Miner通過使用復雜的數據可視化技術和一個健壯的基于Java的用戶界面(主要面向有經驗的用戶)來增強它的可用性。In闌1igent LEner支持DB2關系數據庫管理系統,并集成了大量復雜的數據操縱函數。
媤を翊I屇
?
? ? Intelligent Miner是一個客戶/服務器系統,客戶機用于控制用戶界面和數據可視化函數,而數據挖掘和數據操縱引擎是在服務器上。服務器組件能被下列平臺所支持:運行AIX的BBMRS/6000和IBMSP、運行MVS的賜MS/390和IBMAS/400。客戶機組件是在朋ndows95、W1ndowsNT、mM.os/2和運行AIX的IBMRS/6刪上。
犲閔畣./?
?
? ? 數據訪問、操縱和預處理:Intelligent Miner支持展開文件,并提供對DB2的直接訪問。后者允許用戶直接從關系表構造出勘測和預測模型。DB2服務器被用來向產品傳遞數據操縱和轉換能力,并可充當通向其它關系數據源的途徑。如果二進制文件被使用,DB2的數據操縱功能不可用,并且要預處理和變形數據的話需要額外的設施或開發努力。
馛6??
?
? ? 然而,所有的模型結果都被存儲在二進制文件中。加以1igentMiner是使用一個叫MiningBase的文件結構。Mining Base實質上是一個定義了被產品所使用的所有文件格式的元數據文件。
N獻硑踈%
?
Intelligent Miner基于DB2的數據操縱能力包括以下方面:
<N€?,
?
? ? ●自定義集合和計算。
p??扁b?
?
? ? ●大寫字母到小寫字母的轉換。
?┗鄕=?
?
? ? ●過濾無關系記錄和缺值記錄。
??lt;櫯?
?
? ? ●過濾域。?
E砅?鉿70
?
? ? ●過濾使用數值集的記錄。
?~i鮂<蠭
?
? ? ●歸類記錄與合并數據源。
l??
?
? ? ●把多種域轉變為一系列二進制域(旋轉)。
0?鵒抁?
?
? ? ●把缺失值改為密碼。 ‘
tV蜆饦咱9
?
? ? ●數據取樣能力——創建隨機樣本。 。
墡橙~sUs
?
? ? ●運行SQLo
※腿惷?|
?
? ? 數據挖掘技術、算法和應用程序:Intelligent Miner支持包括Kohonen特征圖的神經元網絡、時間序列模式、決策樹、聚類、關聯規則、順序模式和基于半徑的函數。大多數算法是由IBM研究所研發出的,是IBM的專有技術,并只存在于IntelligentMiner中。
?>飾#夰厜
?
? ? ●神經元網絡:包括兩個算法L—一用作分類的向后傳播網絡和Konen特征圖。Kohonen特征圖是一種把記錄劃分成相似簇的非監督學習技術。
rD?/??i
?
? ? ●決策樹:這是CAU算法的二種變種,用以產生一個分類模型和處理絕對和連續數據。
U罾袘?脛
?
? ? ●時間序列模式:此算法是由IBM A11;aden研究所研發出的:它被用作在過濾噪聲時發現時間序列的模式。
蕵霽J韻
?
? ? ●聚類:Intelligent Miner提供了按記錄的相似分數(相似于以前討論過的KNN算法)聚類記錄的統計學聚類算法。
矣累詃券
?
? ? ●關聯/p頃序模式規則:此算法也是由IBM劉maden研究所研發出的。它的獨特特征是為一個事務文件的項發現關聯規則的能力以及發現包括復合規則和層次規則在內的全部規則的能力。在一個標志時間的事務文件中,此算法能偵測出用以分析顧客購買行為和市場構成的順序模式。
A-?.穌
?
? ? ●基于半徑的函數:此算法通過一個依賴變量與記錄中其它域的值的關系估計它的值;此技術被用在一個連續值預測方面。
8 ?頑/l皋
?
? ? Intelligent Miner使用各種各樣的算法以支持大量分析,其中包括在交易中(市場分析)對關聯訓幀序模式的勘測、時間序列(股票市場分析)、顧客分類/剖析、聚類和預測值。
夿嚠絠?佸
?
? ? 使用工具:Intelligent Miner為用戶提供了大量用來具體定義每個數據挖掘技術的高級參數,例如:最小支持度和置信度因素(關聯測頓序模式)、期望的準確率(神經元網絡)以及簇的最大和期望的數量(聚類)。
齁?夡Su
?
分類算法支持訓練、測試和應用模式,并提供一個無秩序矩陣作為一個評估工具。別的評估方法正在開發中。
?雉?]癏?
?
? ? ?? 應用模式能使用外部數據(不是取樣數據)來配置型。IntelligentMiner提供了一個廣泛的程序庫來幫助用戶建立和應用模型。 ‘
G鉢9舧??
?
? ? 算法的豐富以及用戶化選項的多樣使Inte勛gent M1ner的用戶界面更適合于一個有經驗的用戶而不是一個初學者。
檤?r嶀c懙
?
? ? 結論:總的來說,IntelligentMiner(ford則是市場上最強大和最有可伸縮性的工具之一。公布的對用戶進行調查得到的基準測試顯示工具總的性能良好并且在不同的應用環境下一些算法比別的算法運行得好。IBM已投入大量財力以把此工具定位在為企業規模的數據挖掘的一個主要解決方案。
數據挖掘之Darwin(Oracle)
總體看法:
Darwin被認為是主要的數據挖掘工具之一。這與它的名聲相稱。最近,Oracle從Thinking Machine公司獲得了Darwln以增強它的產品提供的功能—哨別是在數據挖掘起關鍵作用的CRM方面,如以前討論的那樣。以下的討論基于由Thinking Machines公司開發和推出的Darwin特征(伽cle可以決定改變此工具中的任何一個特征、組成部分和結構)。
憍釾Smf空
?
? ?? Darwin數據挖掘工具集被設計作為一個包含三個數據挖掘工具的復雜產品:神經元網決策樹和K近鄰。Darwin神經元網絡工具(DarwinNet)為建模提供了一套綜合性的功能它能處理類別的和連續的預測器和目標變量并能被用來處理分類、預測和預報問題。
寤?睵瀿 ?
?
? ? 決策樹工具(DarwinTme)使用CART算法能被用來解決使用類別的和連續變量的分類問
$替欽鷩M?
?
? ? K近鄰工具(DarwinMatch)能被用來解決使用絕對依賴變量的分類問題以及用來處理類阿D連續的預測器變量。
€?k鋼Q
?
? ? 雖然每個組成工具都有一些缺陷,但Darwin提供了一整套對模型進行評估的功能。它勺所有種類的模型產生扼要的統計、無秩序矩陣和提升表。
臌埕J?晇6
?
? ? Darwin為初學者和有經驗的人提供了相對較強的用戶界面。雖然那個界面看起來更適嚴一個有經驗的用戶。
S謚't(mk
?
? ? 由于Darwin產生于一個作為世界上最早制造大規模并行計算機之一的公司,所以它在里效率和可伸縮性方面有很強的優勢。它的算法用于為并行計算進行優化,并足夠靈活能濘行和序列結構上運行。這種能力顯然沒有逃過Oracle的注意。Darwin定位在能幫助Oracle)b面向大型跨國企業提供數據庫和應用產品的主要廠商。
W漪﹁L?6
?
? ? Darwlo被設計為一個客戶用匠務器系統。它的服務器平臺包括單處理機、對稱多處理機、廳Wnnd0ws NT的仍則大規模并行處理機以及Sun Mcrosystem、HP、IBM、NCR和mpaq/Di由助的基于UNIX的產品。
"E3h癤圛
?
數據訪問、操縱和預處理:Darwin能從二進制文件和通過ODBC從關系數據庫中導定長和分隔數據。在內部,數據是以一種在多處理系統中能被有效安排的特殊形式存Darwin的數據操縱能力包括以下這些方面:
zWV劊??
?
? ? ●對分散數據集的合并功能。
rS3€xUM﹫
?
? ? ●從數據集中刪除變量。
+??赿/鷠
?
? ? ●定義變量類型(如類別的、排序的)。
\c!&?-
?
? ? ●把序列數據集轉變為并行數據集。
?7棰/璣
?
? ? ●數據取樣和分割。
?lt;擜z淯l
?
? ? 數據挖掘技術、算法和應用程序:當前,系統支持的主要算法是神經元網絡、決策樹、K近鄰。
?魒e伀薖?
?
? ? 神經元網絡訓練算法包括反向傳播、最陡下降、修改的Newton和幾種其它的算法。轉函數包括S形、超切線和線性。
G~?駭r
?
? ? 決策樹是使用CART算法。這種算法通過選擇在分析時考慮的子樹的數量能自動修剪
??感F拿?
?
? ? K近鄰算法是建立在基于記憶的推理(1L佃R)技術之上。它能根據訓練記錄中K個最近配記錄的響應預測依賴變量值。鄰居間的遠近是由最小化變量間的加權歐幾里德距離決定Darwin神經元網絡能被用來構造預測和預報模型,并能處理類別和連續變量。決策樹、K近鄰工具能被用來處理分類問題。?
!F?4RY僃
?
? ? 使用工具:Darwin提供了一個豐富的選項以指定模型。例如,對神經元網絡,Dalwln許具體說明網絡結構、拓撲、轉變函數、訓練算法、代價函數、學習模式和Vl陳遞歸的最數目。這些選項是針對有經驗的用戶。
Q夽Q趹唄
?
因為神經元網絡固有地難以解釋,所以Darwin提供了對模型結構、拓撲、算法和函數
殼a8癱輟
?
? ? 決策樹組件用于把模型描述成一系列簡單的能被用戶檢查的假設規則。
s磣lP蝶}?
?
? ? Darwin為模型評估提供了一套完整的功能,包括錯誤統計報告、分類錯誤列表、預測際結果的比較報告、無秩序矩陣和一個提升表。
楅j諔3\Zb?
?
? ? 結論:Darwin的優點是支持多種算法(有增加遺傳算法和模糊邏輯的計燦。在客戶/8反目配置下,它能在幾個平臺上運行。它的服務器平臺包括單處理機、對稱多處理機和大規行處理機。在多處理機服務器的情況下,Darwin能利用硬件的可伸縮性特征。在公布目戶基準中,Darwln顯示了強大的性能和可婢縮性。總的來說,Darwin是定位在適合于規模和大規模實現中。例如,最近Darwin被G1E和Cre伽S1Iisse選作大規模顧客關系
Μ憡舕8?
?
6程序。
數據挖掘之Decision Series(NeoVista)
總的看法:
NeoVista Solution的Decisjon Sedes是一個普及的數據挖掘工具。該公司是從一個大規模并行硬件廠商MasPar公司轉變而來的。與Darwin相似,這導致了對可伸縮性和高性能數據挖掘方案的強大理解力和很好的實現。
膐畮a硧?
?
? ?? Decislon Senes是一個為描述和預測分析提供一個集成算法集的數據挖掘和知識勘測環境。這些算法能被有效地實現,并對用戶提供了作為額外定制功能的各種控制的方法。分析能力包括聚類、關聯規則、神經元網絡和決策樹。De曲i0n Sedes能無縫地把這些算法和數據訪問以及數據轉化引擎集成在一起。考慮到公司的背景,此工具為了適應在對稱多處理機
鱙衼$ZG?
?
系成系牟⑿脅僮饕馴揮姓攵孕緣氐鶻詮9舊萍夯竦媒詠咝緣目繕燜跣浴9ぞ嚦繕燜跣緣鬧っ鞔嬖謨謁斡肓閌垡?例如WblMan)詳細目錄管理的事實中。
? ?? DecisionSerles在詳細數據(SKU)層次能以周為單位分析銷售點數據。這些數據的總量大約700B左右。 馴=S硍1??
? ?? 從可用性的觀點看,DeCislon Serles被定位在為掌握復雜技術的用戶服務。NeoVlsta正在開發易于使用的GUI界面,并提供專家咨詢服務(叫做Knowledge DiscoveV Englneer或KDE)。它們經常作為原型的一部分或一個領航項目在當地運行。 0€?Wr4??
? ?? DecisionSelles運行在各種各樣的UNIX平臺上,其中包括SunS01辦s、HP—tJX和D1gitalJNIX。工具的軟件結構由幾個部分組成,并在設計上是面向對象的。數據挖掘引擎一)eGisiooNet、DeCisionTree、 和DeCisionAR是構建在實現DeCisionACcess的弓一個引擎的數據訪問和數據轉化層的頂端。數據挖掘引擎繼承了DecisionAccess的特點,g此能很容易地被連接在一起。 K7髊 驞|濕 ?
? ? 數據訪問、操縱和預處理:由于DBMS的功能被集成到了DeclsjonAccess引擎中,所義Decision Se庇s能導入ASCII格式的任何數據源。Decision S辦es能以專有文件結構維護元數據。這些文件能被一個引擎所讀取,然后傳給下一個引擎。信息能被添加、改變和存儲以便以后使用。 鉅(颸'椌 ?
? ?? DecisionSedes的數據操縱能力包括以下這些方面: ?Y鹺?2 ?
? ? ●調節以除去局外數據。 摳`灸◣鞅??
? ? ●格式轉變(從整數變為浮點數等)。 Z€櫗 腂蕀 ?
? ? ●旋轉:把多個記錄轉變為具有多個唯一列的單個記錄。 <綿嚫PJ砵 ?
? ? ●編碼:把數值和字符數據轉變為一個特定布局的記錄。 ?籓qYU嶥& ?
? ? ●數據取樣能力:包括最初和最后的N個記錄、在N個記錄中取一個樣本、范圍取值和隨機取樣。數據挖掘技術、算法和應用程序:Deci趕。n Sedes支持神經元網絡、決策樹、聚類和關聯規則: ?僁%R 9 ?
? ? ●神經元網絡算法:它在DeClslonNet中實現。它使用了三層前向饋網絡,并且單個輸入結點代表一個變形輸入域。此算法使用了一個專有網絡訓練技術,在把所有網絡輸入轉變為一行二進制域方面它是獨一無二的。這有助于加速訓練階段。DeCisl洲et支持因素分 W酣乻揙???
析。與敏感性分析相類似,這種分析能報告每個輸入域對輸出預測的影響水平。 2襤耊勜?i ?
? ? ●DecisiooTree引擎:該引擎使用了在樹的訓練和規則產生方面得到顯著增強的C4.5算法。后一方面能產生不互斥的規則。這是用一個廣泛的事務規則集代表一棵復雜樹的好技 G??潑w)_ ?
術。 ; F1|9w鯰F??
? ? ●DecisionCluster:該算法支持與統計聚類類似的無監督學勻技術。它能處理類別和數值變量,并允許用戶具體定義兩個矩陣(角矩陣和歐幾里德矩陣)之一以確定聚類和觀察問的距離。 u裌搝O惀 ?
? ? ●DecislooAR:該關聯規則引擎是基于無監督規則歸納算法。此算法能產生形如(A蘊含B)和(A和B蘊含C)的規則;每個產生的規則都具有一個置信度水平和支持度水平。? ?S@r?8_ ?
?? ‘由Decision Sedes支持的應用分析范圍覆蓋了分類模型、規則產生、預報和為描述性分析(包括市場劃分和連續模式分析)提供的聚類應用。這些分析能在大規模數據集上操作,并且一個算法的輸出能被用作另一個算法的輸入(通過DecisionAGcess引擎)。另外,NeoVista提供了一個針對零售業的詳細目錄管理事務應用程序(RDS。Pz,oflle)。 W_lh#q??
? ? 使用工具:Decision Se池s為指定模型提供了一個廣泛的選項集。它們包括神經元網絡的不同結構選項以及決策樹中葉結點和深度的限制等。模型可通過Gm或Decision Access ScnptLmguage(DASL)被具體說明。 a皂\8@L??
? ? 對決策樹而言,模型能被描述為一系列相對簡單的規則。神經元網絡本身難以理解。對這點,DecisionSedes也無能為力。DecisionNet為模型評估提供了許多統計方法(剩余重心均方差、重心、無秩序矩陣等)。 R鏜GXA年 ?
? ? DecisionTree支持無秩序矩陣以及為期望的準確性提供的置信度間隔。使用預測模型別的數據集可在用DecisionNet、DeCisionTree和DecisionCluster生成的模型上運行,只要這些數據是由DecisionAccess讀取和編碼的。 飣婥`7底懀 ?
? ? 結論:DeCision Sehes是一個強大的產品,在結構和數據挖掘算法方面有良好的聲譽。工具是可伸縮的,并能利用并行硬件結構。在公布的用戶基準測試中,在特定種類的問題上(例如銀行業和零售業應用),它在可伸縮性、預測準確性和處理時間上都表現得很好。總的來說DecisionSedes特別適合于大規模分析實現。
數據挖掘之Database Mining Workstation(HNC)
總體看法:HNC是最成功的數據挖掘公司之一。它的Dat8b眺b9mngWo比sta60n(nMw)‘個在信用卡欺詐分析方面被廣泛接受的神經元網絡工具。DMW是由基于;W3ndows的1軟件和一個自定義處理板組成的。別的10fC產品包括應用于金融服務方面的Fdconand記Max應用程序以及AdvancedTeleCommuniC池onA加ssConb01System(ArACS)欺詐偵測E案。HNC計劃把此方案應用在遠程通信工業中。、 cY0) 幍z+??
?? DMW神經元網絡支持反向傳播神經元網絡章法/噸以自動和人工的模式操作。它的指S被廣泛統計學以及計算預測器變量和一個依賴變量間敏感性關系的功能所解釋。為了在算法修改、數據準備和操縱函數方面具有強大的靈活性,DMW提供了大量自定:項。DMW能有效地處理類別和連續變量,并能被用于處理預測、分類和預報問題。 埐?`嵌熳. ?
? ? DMW為初學者和有經驗的用戶都提供了界面,包括先進的調整選項和一個腳本工具。 MNx喣a嬓鞐 ?
? ? W還提供了一個直接用于市場競爭的事務模扳。 +s齩f5鬮??
? ? DMW已贏得一個能產生準確和有效預測模型的名聲。它的性能和可伸縮性足以支持較3信用卡處理需求。 憂垑捪夐mY ?
? ? 數據訪問、操縱和頓處理:DMW直接支持定長ASCn文件。DMw被裝載和集成到6tS/COPY工具(Concepl7LIalSoRw眺公司)上;該工具能把主要的DBM3、統計和電子數路式轉變為適合于DMW的定長ASCH格式。 pR5?@條hF ?
? ? DMW的數據操縱能力包括以下這些方面: 7U痎璶餪Z ?
? ? ●從數據集中減少變量。 ??lt;盜離??
? ? ●自定義變量類型。 桖膡瞦W/ ?
? ? ●自定義類型的數目。? 瑆?gLWI3+ ?
? ? ●自定義數據規范化函數。 ?萁?ED ?
? ? ●把絕對變量自動變形為二進制。 E?lt;譧?粘??
? ? ●缺失值替換。 I?諤!dI ?
? ? ●自選擇數據取樣。 {"V紙???
? ? DMW數據變換模塊管理用于描述配置參數、變量和數據類型、規范化函數、唯一值的和給缺失數據指定值的元數據。 ?吭'ㄛ宭G ?
? ? 數據挖掘技術、算法和應用程序:DMW使用了反向傳播神經元網絡算法。一個用戶能具體說明一個轉變函數(邏輯、極限、線性、高斯、反正切或雙曲線正切)、學習模式和幾個其它參數。 ?q&J伲 ?
? ? DMW能為預測、分類和預報問題創建預測模型。它的主要分析應用領域是信用卡工業的欺詐偵測(分類)。 _閿B瞬鼉 ?
? ? 使用工具:DMW在具體說明模型方面提供了強大的靈活性G模型能通過定義主要結構和拓撲參數被人工或自動說明。在自動模式下,DMW能通過對某變量域進行聚類分析來選擇相關的預測器變量。 哻W"?黀??
? ? DMW為模型解釋提供了兩種功能:敏感性分析和解釋單個預測的幫助功能(例如:此功能能被用來說明為什么一個貸款應用程序被丟棄以及這個丟棄因子有多強)。 ?z蕁助\ ?
? ? DMW能為每個模型產生包含關于執行了多少評估、評估統計信息和正確/不正確預測表的一個日志文件和一個歷史文件。評估結果能被放入一個電子數據表格中以進行進一步分析。 D??縋Q??
? ? 雖然DMW不能直接獲得外部數據庫的數據,但它提供了一個叫DeployNet的AU用于配置用DMW建立的模型。 ?妤期|M絢 ?
? ? 結論:DMW是一個強大且成熟的產品,并在市場接受上非常成功。它的欺詐偵測/分類應用程序用于實時分析信用卡事務。這是一個對產品的可伸縮性和性能的可靠的證明。
數據挖掘之KnowledgeSEEKER and KnowLedge Studio(Angoss)
總的看法:AngossSonw眺的xhowledgeSEEKER(KS)是一個決策樹數據挖掘工具。它使用一個基于CART和CHAID的決策樹算法以發現在一個數據集中預測和依賴變量的關系。就這一點而論,KS能被用在帶有類別的和連續的依賴變量的分類問題上。 G詛mB澋詮 ?
? ? 此工具的主要定位是提供數據勘測能力。它的用戶界面提供了決策樹模型的圖形表示。用戶能選擇每個分支和指定預測變量歸類。此工具也具有一個自動模式,在此模式下所有分支都能被生成。KS為一個有經驗的用戶提供了許多調整能力,包括修改算法或限制樹的生長的能力。KS還包括了它的統計推理弓3擎的一個API,而此引擎允許外部C程序產生模型和導入它們的結果。 魤坅 ? ?
? ? KS支持MSWlndows的WIntel平臺以及包括HPUX、S01辦s和AIX在內的幾個UNIX平臺。 ??娖掠甖 ?
? ? 數據訪問、操縱和預處理:KS能從包括分隔和定長ASCH文件;Excel、L0tus和QuatboPLo電子數據表格:SAS;SPSS和SPIus在內的大量文件格式中導入數據。它能通過使用ODBC從一個關系數據庫中導入數據。 樎塹Y?斊o ?
? ? KS提供了一個叫Edit View的數據操縱函數。使用此函數,KS的用戶能做以下這些事:。改變一個變量名。 埀淍镋 ?
? ? ●丟棄變量。 踥ャ?鶕E ?
? ? ●重新定義分組間隔。 蠨?8/<C/ ?
? ? ●指定一個變量的種類。 ▏垖5弋詄 ?
? ? ●從基于SQL查詢的一個ODBC源導入數據。 胮椙???
? ? ●指定缺失值。 8k睟??矬 ?
? ? ●把數據劃分為基于隨機分配的訓練和測試樣本。 7朗碿T ,! ?
? ? 另一個叫MapData的函數允許KS用戶把一個變量的現存值映射為新值。數據挖掘技術、算法和應用程序:KS使用了一個基于CAxr和cHAID的決策樹算法。此算法能被用在聚類或詳盡模式上。雖然聚類模式類似于支持一個連續變量的CAxr和支持絕對變量的CHAID,但詳盡模式能比聚類模式考慮更多的聚類并識別出最具有統計意義的變量。 料hb鍠:前 ?
? ? KS能產生一列用來把數據點分到不同組的規則,這種劃分是基于變量分配的不同。KS能為二進制、多值和連續數據進行劃分并為預測器變量生成二進制和多路分割。 ?斐吽聙 ?
? ? 使用工具:KS允許用戶具體說明樹上的每一次分裂或要求此工具自動生成樹。在后一種情況下,用戶能在根結點初始化這個過程。KS將從每個結點識別出最具有統計意義的分裂以構造樹。提到過的EditView函數允許用戶具體說明影響模型的選項。 ?r=J磼95 ?
? ? KS能解釋樹模型并以帶有對每個結點的廣泛數據的圖形方式顯示得到的結果規則。這些包括分類可能性、x’平方值、自由度以及依賴和預測器變量的分配。模型的規則能以一系列x—then語句、肋log代碼或SQL語句的形式被導出。 釉桑t?饈??
? ? 在圖形方式下,KS是用一系列互相連接的結點表示一棵決策樹。這個界面允許用戶完全勘測分析中的所有數據。對于那些太大而不能在一屏中顯示的模型,KS提供了一個叫I、reeMap的函數。此函數能通過縮小樹在一個小窗口中顯示整棵樹。 ?>T1僆 ?
? ? 結論:xhowledgeSEEKER是一個在目標市場領域建立大小相當的用戶基礎的成熟產品。在公布的用戶基準測試中,它生成了合理的性能和準確的措施。 #5鑪鷲?裿 ?
? ? 為了保持產品的動力,Angoss于1998年5月把KnowledgeSEEKER擴充為一個更大的叫Knowledge Studio的分析工具。xhowledge StlLldio的重點在于把不同廠商的數據挖掘組件集成到統一的環境中。通過提供決策樹、神經元網絡、網絡界面和Java可移植性,Angoss計劃把Knowtdge Shdio定位為一個開發數據倉庫的關鍵組件。主要面向W1ndows的xhowledge3tudiO也包括一個SDK。SDK設計是通過ActiveX技術來幫助把產品嵌入到垂直應用程序中。Angoss已和許多廠商建立起戰略伙伴關系,這些廠商包Cognos、MCI/SHL\AT&T和Tandem。
數據挖掘之其他數據挖掘工具
gD衛8(更nfo『mationDi8tovery):I咖rmahonDiscoveVSystem(mIS)使用了一種歸納規則的專有算法。預測模型器工具使用IDIS產生的規則進行預測。IDIs和預測模型器都能訪問關系數據庫,其中包括運行在S1L仰和MPP上的并行數據庫環境。Inf0rm咖n DiscoveV也提供MAPADIS,此工具使用了Maplnfo技術識別模式和以圖的形式顯示模式。 紣gN穀S脅 ?
? ? NCRKnowledgeDisCoveVWorkbenCh:是一個把對大型數據庫系統進行數據訪問和幾種知識勘測算法結合在一起的集成工具。NCR計劃把第三方數據挖掘工具作為它的Knowledge DiscoveVWbrkbench的組成部分。例如,C1ementlne(此章先前討論過)就計劃被包括在此工具中。總的來說,此工具提供的數據挖掘算法包括神經元網絡、規則歸納和決策樹。ODBC的連通性是訪問兆兆字節數據庫的一個機制。 >Q愩F?憌??
? ? MineSet(3mton G『ophic3):Silicon GraPhics是交互數據可視化領域的一個領先考。它的MineSet數據挖掘工具能把大量數據挖掘技術和非常健壯的、新穎的、交互的和高度直觀的三維數據可視化結合在一起。MineSet的數據可視化使用了數據鉆取、數據綜合、動畫技術。該工具包括綜合的數據轉換功能和與數據可視化引擎相連的決策樹分類算法。 拮靚閥擭he ?
可視化也被用來執行假設驅動的分析和勘測。規則可視化引擎可交互顯示每個規則的強度和支持度。 -?嶰尅抜 ?
? ? NcuralWbrk6rredict(Neu『alW建『辦NeurdWOrks kediCt是一個能被應用到許多不同商業和科學問題上的綜合神經元網絡建模工具。它的主要表現形式是Excel電子數據表格。 ]寃嫞ce \??
? ? Predict的顯著特點是它自動執行許多包含在網絡構造中的分析任務。該產品是成熟的和非常靈活的,因此非常適合于一個有經驗的用戶。 >L#遱 鑠 ?
? ?? OrcIIe8bate(1、orrent):Toxem(前身是AppliedPardlelTechn010gies)已把它的Orchestrate工具發展為一個能利用并行計算機結構(SMP和MPP)處理數據管理和數據挖掘的綜合結構。 鳦祄鬫? ?
Orchestrate設計時就考慮到可伸縮性和高性能,并提供了一個基于C十十的面向對象的界面和一個處理數據管理和數據挖掘的高層的shell環境,數據挖掘組件提供了大量技術,其中包括神經元網絡和決策樹。此外,Tonent正在致力于并行化SASEnterpriseMner。
凡是有該標志的文章,都是該blog博主Caoer(草兒)原創,凡是索引、收藏
、轉載請注明來處和原文作者。非常感謝。