<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    Decode360's Blog

    業精于勤而荒于嬉 QQ:150355677 MSN:decode360@hotmail.com

      BlogJava :: 首頁 :: 新隨筆 :: 聯系 ::  :: 管理 ::
      302 隨筆 :: 26 文章 :: 82 評論 :: 0 Trackbacks
    ??? 公司目前在ETL這個環節上基本處于手工開發的原始階段,領導已經不滿意了,估計以后會選擇一種工具進行開發,所以先看一下ETL工具的選型。據說同業使用Datastage的比較多,不過看了這篇文章之后,我還是更加傾向于用ETL Automation來實施,可以跟之前做的工作完全對接起來。不過跟朋友聊的時候都說ETL工具比較白癡,沒什么技術含量,基本上都是拿來忽悠人的,汗……
    ?
    ?
    ---------------------------------------------------------------------------------
    ?
    三大主流ETL工具選型
    ?
    ??? ETL(extract, transform and load) 產品乍看起來似乎并不起眼,單就此項技術本身而言,幾乎也沒什么特別深奧之處,但是在實際項目中,卻常常在這個環節耗費太多的人力,而在后續的維護工作中,更是往往讓人傷透腦筋。之所以出現這種狀況,恰恰與項目初期沒有正確估計ETL工作、沒有認真考慮其工具支撐有很大關系。
    ?
    ??? 做ETL產品的選型,仍然需要從以前說的四點(即成本、人員經驗、案例和技術支持) 來考量。在此,主要列舉三種主流ETL產品:Ascential公司的Datastage、Informatica公司的Powercenter、 NCR Teradata公司的ETL Automation。其中,ETL Automation相對其他兩種有些特別之處,放在后面評述。
    ?
    ?
    旗鼓相當:Datastage與Powercenter
    ?
    ??? 就Datastage和Powercenter而言,這兩者目前占據了國內市場絕大部分的份額,在成本上看水平相當,雖然市面上還有諸如Business Objects公司的Data Integrator、Cognos公司的DecisionStream,但尚屬星星之火,未成燎原之勢。
    ?
    ??? 談Datastage和Powercenter,如果有人說這個就是比那個好,那聽者就要小心一點了。在這種情況下有兩種可能:他或者是其中一個廠商的員工,或者就是在某個產品上有很多經驗而在另一產品上經驗缺乏的開發者。為什么得出這一結論?一個很簡單的事實是,從網絡上大家對它們的討論和爭執來看,基本上是各有千秋,都有著相當數量的成功案例和實施高手。確實,工具是死的,人才是活的。在兩大ETL工具技術的比對上,可以從對ETL流程的支持、對元數據的支持、對數據質量的支持、維護的方便性、定制開發功能的支持等方面考慮。
    ?
    ??? 一個項目中,從數據源到最終目標表,多則上百個ETL過程,少則也有十幾個。這些過程之間的依賴關系、出錯控制以及恢復的流程處理,都是工具需要重點考慮。在這一方面,Datastage的早期版本對流程就缺乏考慮,而在6版本則加入Job Sequence的特性,可以將Job、shell腳本用流程圖的方式表示出來,依賴關系、串行或是并行都可以一目了然,就直觀多了。Powercenter有Workflow的概念,也同樣可以將Session串聯起來,這和Datastage Sequence大同小異。
    ?
    ??? ETL的元數據包括數據源、目標數據的結構、轉換規則以及過程的依賴關系等。在這方面,Datastage和Powercenter從功能上看可謂不分伯仲,只是后者的元數據更加開放,存放在關系數據庫中,可以很容易被訪問。此外,這兩個廠家又同時提供專門的元數據管理工具,Ascential有Metastage,而Informatica擁有Superglue。你看,就不給你全部功能,變著法子從你口袋里面多掏點錢。
    ?
    ??? 數據質量方面,兩種產品都采用同樣的策略——獨立出ETL產品之外,另外有專門的數據質量管理產品。例如和Datastage配套用的有ProfileStage和QualityStage,而Informatica最近也索性收購了原先OEM的數據質量管理產品FirstLogic。而在它們的ETL產品中,只是在Job或是Session前后留下接口,所謂前過程、后過程,雖然不是專為數據質量預留的接口,不過至少可以利用它外掛一些數據質量控制的模塊。
    ?
    ??? 在具體實現上看,Datastage通過Job實現一個ETL過程,運行時可以通過指定不同參數運行多個實例。Powercenter通過Mapping表示一個ETL過程,運行時為Session,綁定了具體的物理數據文件或表。在修改維護上,這兩個工具都是提供圖形化界面。這樣的好處是直觀、傻瓜式的;不好的地方就是改動還是比較費事(特別是批量化的修改)。
    ?
    ??? 定制開發方面,兩者都提供抽取、轉換插件的定制,但筆者認為,Datastage的定制開發性要比Powercenter要強那么一點點。因為Datastage至少還內嵌一種類BASIC語言,可以寫一段批處理程序來增加靈活性,而Powercenter似乎還缺乏這類機制。另外從參數控制上,雖然兩者的參數傳遞都是比較混亂的,但Datastage至少可以對每個job設定參數,并且可以job內部引用這個參數名;而Powercenter顯得就有些偷懶,參數放在一個參數文件中,理論上的確可以靈活控制參數,但這個靈活性需要你自己更新文件中的參數值(例如日期更新)。另外,Powercenter還不能在mapping或session中引用參數名,這一點就讓人惱火。
    ?
    ??? 總起來看,Datastage和Powercenter可謂旗鼓相當,在國內也都有足夠的支持能力,Datastage在2005年被IBM收購之后,可以說后勁十足。而Informatica則朝著BI全解決方案提供商方向發展,Powercenter顯然還將是它的核心產品。
    ?
    ?
    獨樹一幟:Teradata的ETL Automation
    ?
    ??? 繼續要說的第三種產品是Teradata的ETL Automation。之所以拿它單獨來說是因為它和前面兩種產品的體系架構都不太一樣。與其說它是ETL工具,不如說是提供了一套ETL框架。它沒有將注意力放在如何處理“轉換”這個環節上,而是利用Teradata數據庫本身的并行處理能力,用SQL語句來做數據轉換的工作,其重點是提供對ETL流程的支持,包括前后依賴、執行和監控等。
    ?
    ??? 這樣的設計和Datastage、Powercenter風格迥異,后兩者給人的印象是具有靈活的圖形化界面,開發者可以傻瓜式處理ETL工作,它們一般都擁有非常多的“轉換”組件,例如聚集匯總、緩慢變化維的轉換。而對于Teradata的ETL Automation,有人說它其實應該叫做ELT,即裝載是在轉換之前的。的確,如果依賴數據庫的能力去處理轉換,恐怕只能是ELT,因為轉換只能在數據庫內部進行。從這個角度看,Automation對數據庫的依賴不小,似乎是一種不靈活的設計。也正是這個原因,考慮它的成本就不單單是ETL產品的成本了。
    ?
    ??? 其實,在購買現成的工具之外,還有自己從頭開發ETL程序的。
    ?
    ??? ETL工作看起來并不復雜,特別是在數據量小、沒有什么轉換邏輯的時候,自己開發似乎非常節省成本。的確,主流的ETL工具價格不菲,動輒幾十萬;而從頭開發無非就是費點人力而已,可以控制。至于性能,人大多是相信自己的,認為自己開發出來的東西知根知底,至少這些程序可以完全由自己控制。
    ?
    ??? 就目前自主開發的ETL程序而言,有人用c語言編寫,有人用存儲過程,還有人用各種語言混雜開發,程序之間各自獨立。這很危險,雖然能夠讓開發者過足編碼的癮,卻根本不存在架構。
    ?
    ??? 有位銀行的朋友,他們幾年前上的數據倉庫系統,就是集成商自己用c語言專門為他們的項目開發的。單從性能上看似乎還不賴,然而一兩年下來,項目組成員風雨飄零,早已物是人非,只有那套程序還在那里;而且,按照國內目前的軟件工程慣例,程序注釋和文檔是不全或者是不一致的,這樣的程序已經對日常業務造成很大阻礙。最近,他們已經開始考慮使用ETL工具重新改造了。(ccw-cnw)
    ?




    -The End-

    posted on 2009-04-17 22:49 decode360-3 閱讀(30301) 評論(5)  編輯  收藏 所屬分類: DW

    評論

    # re: 三大主流ETL工具選型 2010-09-09 13:36 小曹
    國產 ETL工具- beeload 內置腳本解釋器 可以處理任何復雜業務邏輯。  回復  更多評論
      

    # re: 三大主流ETL工具選型 2014-02-24 14:39 南海漁夫
    @小曹
      回復  更多評論
      

    # re: 三大主流ETL工具選型 2014-04-28 11:03 小崔
    DataStreams ETL TeraStreams工具可以與Hadoop無縫連接使用,以后會把功能進行融合后不需要Hadoop系統,ETL里面集成Hadoop功能。DataStreams.com.cn 專業數據集成公司。  回復  更多評論
      

    # re: 三大主流ETL工具選型 2014-10-17 15:19 re
    ETL工具是相對比較簡單,但是實際應用中還是考驗個人功底及對數據的敏感性。  回復  更多評論
      

    # re: 三大主流ETL工具選型[未登錄] 2014-12-16 14:24 aa
    德國有一家公司的ETL工具,叫LucaNet的,好像還不錯,我們公司用了  回復  更多評論
      

    主站蜘蛛池模板: 色偷偷亚洲男人天堂| 四虎成人免费大片在线| 亚洲毛片免费视频| 成年男女男精品免费视频网站 | 国产成人精品123区免费视频| 乱人伦中文视频在线观看免费| 久久久久久免费视频| 日韩在线一区二区三区免费视频| 亚洲精品天天影视综合网 | 亚洲乱码中文论理电影| 免费中文字幕不卡视频| 美景之屋4在线未删减免费 | 久久久亚洲精品无码| 精品免费久久久久久成人影院| 亚洲中文字幕无码爆乳| 亚洲色WWW成人永久网址| 国产香蕉九九久久精品免费| A级毛片高清免费视频在线播放| 亚洲日韩AV一区二区三区中文 | 久久亚洲av无码精品浪潮| 日日麻批免费40分钟日本的| eeuss影院ss奇兵免费com| 美女视频黄免费亚洲| 久久夜色精品国产亚洲AV动态图 | 9420免费高清在线视频| 久久精品国产亚洲av麻豆蜜芽| 久久亚洲国产精品123区| 好男人看视频免费2019中文| 鲁丝片一区二区三区免费| 国产亚洲精彩视频| 亚洲综合在线一区二区三区 | 亚洲综合av一区二区三区| 亚洲AV永久纯肉无码精品动漫| 免费一级e一片在线播放| 最近的免费中文字幕视频| 欧洲精品99毛片免费高清观看| 国产成人精品免费大全| 猫咪免费人成网站在线观看入口| 四虎必出精品亚洲高清| 亚洲伊人久久大香线焦| 亚洲精品美女在线观看播放|